강화학습

손으로 쓰는 강화학습(Reinforcement Learning) - (1)

H_erb Salt 2020. 8. 27. 14:25

강화학습 정리

이해를 돕고자하는 예쁜 글을 쓰기보단, 스스로 공부한 내용들을 메모하는데 초점을 맞춘다. (뒤죽박죽일 수 있다)

 

에이전트(Agent)와 환경(Environment)

매 시점 t마다,

 - 에이전트는 (1) 현재 상태 $s_t$를 관측한다. (2) $s_t$를 활용하여 적합한 행동 $a_t$를 구한 후 그를 환경에 가한다.

 - 환경은 (3) 행동 $a_t$를 반영한다. 그로 인한 다음 상태 $s_{t+1}$ 및 보상 $r_{t+1}$를 에이전트에게 준다.

 

보상은 하나의 숫자로 표현된 행동에 대한 평가지표

 - (예) 길 찾기 문제에서 각 도시 사이의 거리

 

상태는 문제의 현재 상황을 잘 기술하는 정보

 - 길 찾기 문제의 경우에 에이전트의 현재 위치

 

 

 

에이전트(Agent) 구성요소

 - 정책(정책함수, policy): Agent가 특정 상태에서 행동하는 방식을 결정 짓는 요소

 - 가치 함수(Value function): 각각의 상태/행동이 얼마나 좋은지를 평가하는 요소

 - 모델(Model): Agent가 추측하는 세상

 

 

Agent의 3요소: 정책 / 가치 / 모델

 

 

 

- 기댓값을 근사적으로 계산하는 방법: Monte-Carlo 기법

주사위 눈의 기댓값을 계산할 때, 만약에 우리가 각 눈이 나올 확률을 모른다면? -> 주사위를 많이 던져서 얻게 된 눈의 값들의 평균을 계산하면 어떨까?