MC(Monte Carlo)/TD(temporal difference) Prediction 구현¶ 4가지 요소를 구현하여야 함 환경: 에이전트의 액션을 받아 상태변이를 일으키고, 보상을 줌 에이전트: 4방향 랜덤 정책을 이용해 움직임 경험 쌓는 부분: 에이전트가 환경과 상호작용하며 데이터를 축적 학습하는 부분: 쌓인 경험을 통해 테이블을 업데이트 In [1]: import random import numpy as np class GridWorld(): def __init__(self): self.x=0 self.y=0 def step(self, a): # 0번 액션: 왼쪽, 1번 액션: 위, 2번 액션: 오른쪽, 3번 액션: 아래쪽 if a==0: self.move_left() elif a==1: sel..