데분데싸

  • 홈

temporal difference 1

MC(Monte Carlo)/TD(temporal difference) Prediction 구현

MC(Monte Carlo)/TD(temporal difference) Prediction 구현¶ 4가지 요소를 구현하여야 함 환경: 에이전트의 액션을 받아 상태변이를 일으키고, 보상을 줌 에이전트: 4방향 랜덤 정책을 이용해 움직임 경험 쌓는 부분: 에이전트가 환경과 상호작용하며 데이터를 축적 학습하는 부분: 쌓인 경험을 통해 테이블을 업데이트 In [1]: import random import numpy as np class GridWorld(): def __init__(self): self.x=0 self.y=0 def step(self, a): # 0번 액션: 왼쪽, 1번 액션: 위, 2번 액션: 오른쪽, 3번 액션: 아래쪽 if a==0: self.move_left() elif a==1: sel..

강화학습 2023.01.19
1
프로필사진

  • 분류 전체보기 (67)
    • 기계학습 (30)
      • 인공지능및기계학습개론정리 (9)
      • 밑바닥딥러닝3 오독오독 씹기 (8)
      • 베이지안 (5)
      • 수리통계학 (3)
    • 강화학습 (8)
    • 자연어, 비전 (6)
    • 교육자료 (3)
    • 논문 (1)
    • 빅데이터분석기사정리 (2)
    • 끄적끄적 (16)

최근글과 인기글

  • 최근글
  • 인기글

Tag

강화학습, HMM, 앙상블, 밑바닥부터시작하는딥러닝3, 베이지안, 자연어, Bayesian, 역전파, pymc3, 빅데이터, Monte-Carlo, reinforcement, Modeling, 빅데이터 분석기사, NLP, MCMC, 분석기사, 몬테카를로, 머신러닝, forward,

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.