손으로 쓰는 강화학습(Reinforcement Learning)

강화학습

손으로 쓰는 강화학습(Reinforcement Learning) - (2) MP, MRP ~ MDP(feat. Bellman)

H_erb Salt 2020. 8. 27. 16:57

마르코프 결정 과정(Marcov Decision Process: MDP)은 강화학습 문제를 기술하는 수학적 표현방법.

MDP 몇가지 전 단계

- 마르코프 과정(Markov Processes) or 마르코프 연쇄(Markov Chain)으로 불림

- 마르코프 보상 과정(Markov Reward PRocesses: MRP)

- 마르코프 결정 과정(Markov Decision Process: MDP)

손으로 쓰는 강화학습(Reinforcement Learning) - (6) 정책경사(Gradient Policy, REINFORCE 알고리즘) (0)	2020.10.08
손으로 쓰는 강화학습(Reinforcement Learning) - (5) Monte-Carlo 최적 정책, GLIE, e-greedy policy (0)	2020.09.07
손으로 쓰는 강화학습(Reinforcement Learning) - (4) Monte-Carlo, Temporal-Difference (0)	2020.09.07
손으로 쓰는 강화학습(Reinforcement Learning) - (3) DP(Dynamic Programming) (0)	2020.08.31
손으로 쓰는 강화학습(Reinforcement Learning) - (1) (0)	2020.08.27