Processing math: 100%

전체 글 67

손으로 쓰는 강화학습(Reinforcement Learning) - (1)

강화학습 정리 이해를 돕고자하는 예쁜 글을 쓰기보단, 스스로 공부한 내용들을 메모하는데 초점을 맞춘다. (뒤죽박죽일 수 있다) 에이전트(Agent)와 환경(Environment) 매 시점 t마다, - 에이전트는 (1) 현재 상태 st를 관측한다. (2) st를 활용하여 적합한 행동 at를 구한 후 그를 환경에 가한다. - 환경은 (3) 행동 at를 반영한다. 그로 인한 다음 상태 st+1 및 보상 rt+1를 에이전트에게 준다. 보상은 하나의 숫자로 표현된 행동에 대한 평가지표 - (예) 길 찾기 문제에서 각 도시 사이의 거리 상태는 문제의 현재 상황을 잘 기술하는 정보 - 길 찾기 문제의 경우에 에이전트의 현재 위치 에이전트(Agent) 구성요소 - 정책(정책함수,..

강화학습 2020.08.27

Logistic Regression + Gaussian Naive Bayes

- binomial 혹은 multinomial에 적용 가능한 확률론적 분류기(probabilitic classifier) - 로지스틱 회귀는 시그모이드의 특별한 형태 f(x)=11+ex - 로지스틱 회귀를 역함수 형태로 만들면 로짓 함수(logit function)이라 하며, 이는 f(x)=log(x1x) 로 표현함. - linear regression에서 첫 항을 더미변수 1로 놓았을 때, ^f(x)=Xθ로 표현함. 여기서, logistic regression을 위한 베르누이 분포의 pmf (우리가 궁극적으로 찾아야 할 식)는 P(y|x)=μ(x)y(1μ(x))1y 임 한편, $..

인공지능및기계학습개론 lecture2: regression 구현

구현1. linear regression¶ x의 1차항만 고려하는 선형회귀(Linear Regression) 모형 13개의 Attribute 중 첫 번째 Attribute만 Feature varaible로 활용함 (강의에서 첫 번째 항은 더미데이터처럼 1이라 한 것 기억!) ˆθ=argminθ(fˆf)2  >>θ=(XTX)1XTY y_est(= x_temp * θ): 위에서 구해진 theta로 도출된 예측치 In [1]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns sns.set_style('whitegrid'..