몬테카를로 3

MC(Monte Carlo)/TD(temporal difference) Control 구현

MC(Monte Carlo)/TD(temporal difference) Control 구현¶ 간략화된 정책 이터레이션 사용함 얕은 정책 평가 1번, 정책 개선 1번 번갈아 진행 순서 한 에피소드의 경험을 쌓음 경험한 데이터로 q(s, a) 테이블의 값을 업데이트 하고(정책 평가) 업데이트된 q(s, a) 테이블을 이용하여 $\epsilon-greedy$ 정책을 만들기(정책 개선) In [1]: import random import numpy as np In [2]: class GridWorld(): def __init__(self): self.x=0 self.y=0 def step(self, a): # 0번 액션: 왼쪽, 1번 액션: 위, 2번 액션: 오른쪽, 3번 액션: 아래쪽 if a==0: self..

강화학습 2023.01.19

MC(Monte Carlo)/TD(temporal difference) Prediction 구현

MC(Monte Carlo)/TD(temporal difference) Prediction 구현¶ 4가지 요소를 구현하여야 함 환경: 에이전트의 액션을 받아 상태변이를 일으키고, 보상을 줌 에이전트: 4방향 랜덤 정책을 이용해 움직임 경험 쌓는 부분: 에이전트가 환경과 상호작용하며 데이터를 축적 학습하는 부분: 쌓인 경험을 통해 테이블을 업데이트 In [1]: import random import numpy as np class GridWorld(): def __init__(self): self.x=0 self.y=0 def step(self, a): # 0번 액션: 왼쪽, 1번 액션: 위, 2번 액션: 오른쪽, 3번 액션: 아래쪽 if a==0: self.move_left() elif a==1: sel..

강화학습 2023.01.19