손으로 쓰는 강화학습(Reinforcement Learning) - (2) MP, MRP ~ MDP(feat. Bellman) 마르코프 결정 과정(Marcov Decision Process: MDP)은 강화학습 문제를 기술하는 수학적 표현방법. MDP 몇가지 전 단계 - 마르코프 과정(Markov Processes) or 마르코프 연쇄(Markov Chain)으로 불림 - 마르코프 보상 과정(Markov Reward PRocesses: MRP) - 마르코프 결정 과정(Markov Decision Process: MDP) 강화학습 2020.08.27
손으로 쓰는 강화학습(Reinforcement Learning) - (1) 강화학습 정리 이해를 돕고자하는 예쁜 글을 쓰기보단, 스스로 공부한 내용들을 메모하는데 초점을 맞춘다. (뒤죽박죽일 수 있다) 에이전트(Agent)와 환경(Environment) 매 시점 t마다, - 에이전트는 (1) 현재 상태 st를 관측한다. (2) st를 활용하여 적합한 행동 at를 구한 후 그를 환경에 가한다. - 환경은 (3) 행동 at를 반영한다. 그로 인한 다음 상태 st+1 및 보상 rt+1를 에이전트에게 준다. 보상은 하나의 숫자로 표현된 행동에 대한 평가지표 - (예) 길 찾기 문제에서 각 도시 사이의 거리 상태는 문제의 현재 상황을 잘 기술하는 정보 - 길 찾기 문제의 경우에 에이전트의 현재 위치 에이전트(Agent) 구성요소 - 정책(정책함수,.. 강화학습 2020.08.27
MLE(Maximum Likelihood Estimator) vs MAP(Maximum A Posterior) 블로그에 글을 직접 타자로 치는것도 좋지만, 난 이상하게 손으로 직접 글을 쓰면서 공부하는게 좋다. 기계학습/인공지능및기계학습개론정리 2020.08.27
Logistic Regression + Gaussian Naive Bayes - binomial 혹은 multinomial에 적용 가능한 확률론적 분류기(probabilitic classifier) - 로지스틱 회귀는 시그모이드의 특별한 형태 f(x)=11+e−x - 로지스틱 회귀를 역함수 형태로 만들면 로짓 함수(logit function)이라 하며, 이는 f(x)=log(x1−x) 로 표현함. - linear regression에서 첫 항을 더미변수 1로 놓았을 때, ^f(x)=Xθ로 표현함. 여기서, logistic regression을 위한 베르누이 분포의 pmf (우리가 궁극적으로 찾아야 할 식)는 P(y|x)=μ(x)y(1−μ(x))1−y 임 한편, $.. 기계학습/인공지능및기계학습개론정리 2020.08.27
인공지능및기계학습개론 lecture2: regression 구현 구현1. linear regression¶ x의 1차항만 고려하는 선형회귀(Linear Regression) 모형 13개의 Attribute 중 첫 번째 Attribute만 Feature varaible로 활용함 (강의에서 첫 번째 항은 더미데이터처럼 1이라 한 것 기억!) ˆθ=argminθ(f−ˆf)2 >>θ=(XTX)−1XTY y_est(= x_temp * θ): 위에서 구해진 theta로 도출된 예측치 In [1]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns sns.set_style('whitegrid'.. 기계학습/인공지능및기계학습개론정리 2020.07.28