'몬테카를로' 태그의 글 목록

MC(Monte Carlo)/TD(temporal difference) Control 구현

MC(Monte Carlo)/TD(temporal difference) Control 구현¶ 간략화된 정책 이터레이션 사용함 얕은 정책 평가 1번, 정책 개선 1번 번갈아 진행 순서 한 에피소드의 경험을 쌓음 경험한 데이터로 q(s, a) 테이블의 값을 업데이트 하고(정책 평가) 업데이트된 q(s, a) 테이블을 이용하여 $\epsilon-greedy$ 정책을 만들기(정책 개선) In [1]: import random import numpy as np In [2]: class GridWorld(): def __init__(self): self.x=0 self.y=0 def step(self, a): # 0번 액션: 왼쪽, 1번 액션: 위, 2번 액션: 오른쪽, 3번 액션: 아래쪽 if a==0: self..

강화학습 2023.01.19

MC(Monte Carlo)/TD(temporal difference) Prediction 구현

MC(Monte Carlo)/TD(temporal difference) Prediction 구현¶ 4가지 요소를 구현하여야 함 환경: 에이전트의 액션을 받아 상태변이를 일으키고, 보상을 줌 에이전트: 4방향 랜덤 정책을 이용해 움직임 경험 쌓는 부분: 에이전트가 환경과 상호작용하며 데이터를 축적 학습하는 부분: 쌓인 경험을 통해 테이블을 업데이트 In [1]: import random import numpy as np class GridWorld(): def __init__(self): self.x=0 self.y=0 def step(self, a): # 0번 액션: 왼쪽, 1번 액션: 위, 2번 액션: 오른쪽, 3번 액션: 아래쪽 if a==0: self.move_left() elif a==1: sel..

강화학습 2023.01.19

손으로 쓰는 강화학습(Reinforcement Learning) - (4) Monte-Carlo, Temporal-Difference

Model free 방법론에서의 MC / TD method.

강화학습 2020.09.07

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

데분데싸

몬테카를로 3

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역