강화학습 정리
이해를 돕고자하는 예쁜 글을 쓰기보단, 스스로 공부한 내용들을 메모하는데 초점을 맞춘다. (뒤죽박죽일 수 있다)
에이전트(Agent)와 환경(Environment)
매 시점 t마다,
- 에이전트는 (1) 현재 상태 $s_t$를 관측한다. (2) $s_t$를 활용하여 적합한 행동 $a_t$를 구한 후 그를 환경에 가한다.
- 환경은 (3) 행동 $a_t$를 반영한다. 그로 인한 다음 상태 $s_{t+1}$ 및 보상 $r_{t+1}$를 에이전트에게 준다.
보상은 하나의 숫자로 표현된 행동에 대한 평가지표
- (예) 길 찾기 문제에서 각 도시 사이의 거리
상태는 문제의 현재 상황을 잘 기술하는 정보
- 길 찾기 문제의 경우에 에이전트의 현재 위치
에이전트(Agent) 구성요소
- 정책(정책함수, policy): Agent가 특정 상태에서 행동하는 방식을 결정 짓는 요소
- 가치 함수(Value function): 각각의 상태/행동이 얼마나 좋은지를 평가하는 요소
- 모델(Model): Agent가 추측하는 세상
Agent의 3요소: 정책 / 가치 / 모델
- 기댓값을 근사적으로 계산하는 방법: Monte-Carlo 기법
주사위 눈의 기댓값을 계산할 때, 만약에 우리가 각 눈이 나올 확률을 모른다면? -> 주사위를 많이 던져서 얻게 된 눈의 값들의 평균을 계산하면 어떨까?