데분데싸

  • 홈

reinforcement 2

손으로 쓰는 강화학습(Reinforcement Learning) - (3) DP(Dynamic Programming)

DP(Dynamic Programming: 동적 계획법) - 복잡한 (큰)문제를 작은 문제로 나눈 후, 작은 문제ㅢ 해법을 조합해 큰 문제의 해답을 구하는 기법의 총칭. 동적 계획법으로 해결할 수 있는 문제는 다음과 같은 특징을 가짐 1. 최적 하위구조(Optimal substructrue) - 큰 문제를 분할한 작은 문제의 최적 값이 큰 문제에서도 최적 값. - Principle of optimality라고도 불림. 2. 중복 하위문제(Overlapping problems) - 큰 문제의 해를 구하기 위해서, 작은 문제의 최적 해를 재사용. - 여러 번의 재사용을 하기 때문에 일반적으로 테이블에 저장해 둠. MDP에서 정의한 bellman 기대/최적 방정식은 두 가지 특성을 만족시킴. 즉, 우리는 DP..

강화학습 2020.08.31

손으로 쓰는 강화학습(Reinforcement Learning) - (2) MP, MRP ~ MDP(feat. Bellman)

마르코프 결정 과정(Marcov Decision Process: MDP)은 강화학습 문제를 기술하는 수학적 표현방법. MDP 몇가지 전 단계 - 마르코프 과정(Markov Processes) or 마르코프 연쇄(Markov Chain)으로 불림 - 마르코프 보상 과정(Markov Reward PRocesses: MRP) - 마르코프 결정 과정(Markov Decision Process: MDP)

강화학습 2020.08.27
1
더보기
프로필사진

  • 분류 전체보기 (67)
    • 기계학습 (30)
      • 인공지능및기계학습개론정리 (9)
      • 밑바닥딥러닝3 오독오독 씹기 (8)
      • 베이지안 (5)
      • 수리통계학 (3)
    • 강화학습 (8)
    • 자연어, 비전 (6)
    • 교육자료 (3)
    • 논문 (1)
    • 빅데이터분석기사정리 (2)
    • 끄적끄적 (16)

최근글과 인기글

  • 최근글
  • 인기글

Tag

MCMC, forward, reinforcement, 분석기사, Bayesian, Modeling, Monte-Carlo, 머신러닝, 몬테카를로, HMM, pymc3, 역전파, 빅데이터 분석기사, 자연어, 앙상블, 강화학습, 베이지안, 빅데이터, 밑바닥부터시작하는딥러닝3, NLP,

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바