강화학습

손으로 쓰는 강화학습(Reinforcement Learning) - (6) 정책경사(Gradient Policy, REINFORCE 알고리즘)

H_erb Salt 2020. 10. 8. 14:00