마르코프 결정 과정(Marcov Decision Process: MDP)은 강화학습 문제를 기술하는 수학적 표현방법.
MDP 몇가지 전 단계
- 마르코프 과정(Markov Processes) or 마르코프 연쇄(Markov Chain)으로 불림
- 마르코프 보상 과정(Markov Reward PRocesses: MRP)
- 마르코프 결정 과정(Markov Decision Process: MDP)
마르코프 결정 과정(Marcov Decision Process: MDP)은 강화학습 문제를 기술하는 수학적 표현방법.
MDP 몇가지 전 단계
- 마르코프 과정(Markov Processes) or 마르코프 연쇄(Markov Chain)으로 불림
- 마르코프 보상 과정(Markov Reward PRocesses: MRP)
- 마르코프 결정 과정(Markov Decision Process: MDP)