데분데싸

손으로 쓰는 강화학습(Reinforcement Learning) - (2) MP, MRP ~ MDP(feat. Bellman)

마르코프 결정 과정(Marcov Decision Process: MDP)은 강화학습 문제를 기술하는 수학적 표현방법. MDP 몇가지 전 단계 - 마르코프 과정(Markov Processes) or 마르코프 연쇄(Markov Chain)으로 불림 - 마르코프 보상 과정(Markov Reward PRocesses: MRP) - 마르코프 결정 과정(Markov Decision Process: MDP)

강화학습 2020.08.27

손으로 쓰는 강화학습(Reinforcement Learning) - (1)

강화학습 정리 이해를 돕고자하는 예쁜 글을 쓰기보단, 스스로 공부한 내용들을 메모하는데 초점을 맞춘다. (뒤죽박죽일 수 있다) 에이전트(Agent)와 환경(Environment) 매 시점 t마다, - 에이전트는 (1) 현재 상태 $s_t$를 관측한다. (2) $s_t$를 활용하여 적합한 행동 $a_t$를 구한 후 그를 환경에 가한다. - 환경은 (3) 행동 $a_t$를 반영한다. 그로 인한 다음 상태 $s_{t+1}$ 및 보상 $r_{t+1}$를 에이전트에게 준다. 보상은 하나의 숫자로 표현된 행동에 대한 평가지표 - (예) 길 찾기 문제에서 각 도시 사이의 거리 상태는 문제의 현재 상황을 잘 기술하는 정보 - 길 찾기 문제의 경우에 에이전트의 현재 위치 에이전트(Agent) 구성요소 - 정책(정책함수,..

강화학습 2020.08.27

Naive Bayes Classifier + Logistic Regression (parameter approximation)

기계학습/인공지능및기계학습개론정리 2020.08.27

MLE(Maximum Likelihood Estimator) vs MAP(Maximum A Posterior)

블로그에 글을 직접 타자로 치는것도 좋지만, 난 이상하게 손으로 직접 글을 쓰면서 공부하는게 좋다.

기계학습/인공지능및기계학습개론정리 2020.08.27

Logistic Regression + Gaussian Naive Bayes

- binomial 혹은 multinomial에 적용 가능한 확률론적 분류기(probabilitic classifier) - 로지스틱 회귀는 시그모이드의 특별한 형태 $$f(x) = \frac{1}{1+e^{-x}} $$ - 로지스틱 회귀를 역함수 형태로 만들면 로짓 함수(logit function)이라 하며, 이는 $$f(x) = log(\frac{x}{1-x}) $$ 로 표현함. - linear regression에서 첫 항을 더미변수 1로 놓았을 때, $\hat {f(x)} = X\theta$로 표현함. 여기서, logistic regression을 위한 베르누이 분포의 pmf (우리가 궁극적으로 찾아야 할 식)는 $$P(y|x) = \mu (x)^y(1-\mu (x))^{1-y}$$ 임 한편, $..

기계학습/인공지능및기계학습개론정리 2020.08.27

인공지능및기계학습개론 lecture2: regression 구현

구현1. linear regression¶ x의 1차항만 고려하는 선형회귀(Linear Regression) 모형 13개의 Attribute 중 첫 번째 Attribute만 Feature varaible로 활용함 (강의에서 첫 번째 항은 더미데이터처럼 1이라 한 것 기억!) $\hat \theta = argmin_{\theta}(f-\hat f)^2 ~~>> \theta = (X^TX)^{-1}X^TY$ y_est(= x_temp * θ): 위에서 구해진 theta로 도출된 예측치 In [1]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns sns.set_style('whitegrid'..

기계학습/인공지능및기계학습개론정리 2020.07.28

이미지저장용

카테고리 없음 2020.03.18

데분데싸

전체 글 67

티스토리툴바