데분데싸

  • 홈

Q러닝 1

MC(Monte Carlo)/TD(temporal difference) Control 구현

MC(Monte Carlo)/TD(temporal difference) Control 구현¶ 간략화된 정책 이터레이션 사용함 얕은 정책 평가 1번, 정책 개선 1번 번갈아 진행 순서 한 에피소드의 경험을 쌓음 경험한 데이터로 q(s, a) 테이블의 값을 업데이트 하고(정책 평가) 업데이트된 q(s, a) 테이블을 이용하여 $\epsilon-greedy$ 정책을 만들기(정책 개선) In [1]: import random import numpy as np In [2]: class GridWorld(): def __init__(self): self.x=0 self.y=0 def step(self, a): # 0번 액션: 왼쪽, 1번 액션: 위, 2번 액션: 오른쪽, 3번 액션: 아래쪽 if a==0: self..

강화학습 2023.01.19
1
더보기
프로필사진

  • 분류 전체보기 (67)
    • 기계학습 (30)
      • 인공지능및기계학습개론정리 (9)
      • 밑바닥딥러닝3 오독오독 씹기 (8)
      • 베이지안 (5)
      • 수리통계학 (3)
    • 강화학습 (8)
    • 자연어, 비전 (6)
    • 교육자료 (3)
    • 논문 (1)
    • 빅데이터분석기사정리 (2)
    • 끄적끄적 (16)

최근글과 인기글

  • 최근글
  • 인기글

Tag

베이지안, 강화학습, 머신러닝, 앙상블, 빅데이터, Modeling, 자연어, 몬테카를로, Bayesian, pymc3, 역전파, 밑바닥부터시작하는딥러닝3, 분석기사, NLP, HMM, reinforcement, 빅데이터 분석기사, Monte-Carlo, forward, MCMC,

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바