MC(Monte Carlo)/TD(temporal difference) Control 구현
MC(Monte Carlo)/TD(temporal difference) Control 구현¶ 간략화된 정책 이터레이션 사용함 얕은 정책 평가 1번, 정책 개선 1번 번갈아 진행 순서 한 에피소드의 경험을 쌓음 경험한 데이터로 q(s, a) 테이블의 값을 업데이트 하고(정책 평가) 업데이트된 q(s, a) 테이블을 이용하여 $\epsilon-greedy$ 정책을 만들기(정책 개선) In [1]: import random import numpy as np In [2]: class GridWorld(): def __init__(self): self.x=0 self.y=0 def step(self, a): # 0번 액션: 왼쪽, 1번 액션: 위, 2번 액션: 오른쪽, 3번 액션: 아래쪽 if a==0: self..