손으로 쓰는 강화학습(Reinforcement Learning)

강화학습

손으로 쓰는 강화학습(Reinforcement Learning) - (1)

H_erb Salt 2020. 8. 27. 14:25

이해를 돕고자하는 예쁜 글을 쓰기보단, 스스로 공부한 내용들을 메모하는데 초점을 맞춘다. (뒤죽박죽일 수 있다)

매 시점 t마다,

- 에이전트는 (1) 현재 상태 $s_t$를 관측한다. (2) $s_t$를 활용하여 적합한 행동 $a_t$를 구한 후 그를 환경에 가한다.

- 환경은 (3) 행동 $a_t$를 반영한다. 그로 인한 다음 상태 $s_{t+1}$ 및 보상 $r_{t+1}$를 에이전트에게 준다.

보상은 하나의 숫자로 표현된 행동에 대한 평가지표

- (예) 길 찾기 문제에서 각 도시 사이의 거리

상태는 문제의 현재 상황을 잘 기술하는 정보

- 길 찾기 문제의 경우에 에이전트의 현재 위치

- 정책(정책함수, policy): Agent가 특정 상태에서 행동하는 방식을 결정 짓는 요소

- 가치 함수(Value function): 각각의 상태/행동이 얼마나 좋은지를 평가하는 요소

- 모델(Model): Agent가 추측하는 세상

Agent의 3요소: 정책 / 가치 / 모델

- 기댓값을 근사적으로 계산하는 방법: Monte-Carlo 기법

주사위 눈의 기댓값을 계산할 때, 만약에 우리가 각 눈이 나올 확률을 모른다면? -> 주사위를 많이 던져서 얻게 된 눈의 값들의 평균을 계산하면 어떨까?

손으로 쓰는 강화학습(Reinforcement Learning) - (6) 정책경사(Gradient Policy, REINFORCE 알고리즘) (0)	2020.10.08
손으로 쓰는 강화학습(Reinforcement Learning) - (5) Monte-Carlo 최적 정책, GLIE, e-greedy policy (0)	2020.09.07
손으로 쓰는 강화학습(Reinforcement Learning) - (4) Monte-Carlo, Temporal-Difference (0)	2020.09.07
손으로 쓰는 강화학습(Reinforcement Learning) - (3) DP(Dynamic Programming) (0)	2020.08.31
손으로 쓰는 강화학습(Reinforcement Learning) - (2) MP, MRP ~ MDP(feat. Bellman) (0)	2020.08.27