분류 전체보기 67

Chapter 2. 자연스러운 코드로(step 11~14)

11. 가변 길이 인수(순전파편)¶ 지금까지 우리는 함수에 입출력 변수가 하나씩인 경우만 생각함 그러나 함수에 따라 여러 변수를 입력받기도 함(반대로 출력이 여러개이기도) 이를 고려하여 DeZero가 가변 길이 입출력을 처리할 수 있도록 확장 11.0 지금까지의 구현¶ In [1]: import numpy as np In [2]: def as_array(x): if np.isscalar(x): return np.array(x) return x def square(x): return Square()(x) def exp(x): return Exp()(x) In [3]: class Variable: def __init__(self, data): if data is not None: # 해당 코드 추가 if n..

빅데이터 분석기사 내용 정리/ 2. 빅데이터 기술 및 제도

1. 빅데이터 플랫폼 (★★)¶(1) 빅데이터 플랫폼의 개념¶ 빅데이터에서 가치를 추출하기 위해 일련의 과정(수집->저장->처리->분석->시각화)를 규격화한 기술 특화된 분석(의료, 환경, 범죄, 자동차 등)을 지원하는 빅데이터 플랫폼이 발전하는 추세 (2) 빅데이터 플랫폼 구성요소¶ 크게 수집, 저장, 분석, 활용 단계로 구성됨 수집 원천 데이터(정형/반정형/비정형) 수집 ETL, 크롤러, EAI 등 저장 정형, 반정형, 비정형 데이터 저장 RDBMS, NoSQL 등 분석 텍스트 분석, 머신러닝, 통계, 데이터 마이닝 SNS분석, 예측 분석 등 활용 데이터 가시화 및 BI, OpenAPI 연계 히스토그램, 인포그래픽 등 (3) 빅데이터 플랫폼 데이터 형식¶ 데이터 형식은 대표적으로 HTML, XML, ..

빅데이터 분석기사 내용 정리/ 1. 빅데이터 개요 및 활용

1. 빅데이터 개요 및 활용¶1. 빅데이터 특징 (★★★)¶(1) 빅데이터 개념¶ DIKW 피라미드 (대정식혜): 대전 식혜 꿀맛 Data(데이터): 객관적 사실로서 다른 데이터와의 상관관계각 없는 가공하기 전의 순수한 수치나 기호 수제비 책을 A사이트에서 35,000원 B사이트 30,000원 판매 Information(정보): 가공, 처리하여 데이터간의 연관관계와 함께 의미가 도출된 데이터 수제비 책은 A 사이트에서 더 싸게 판매 Knowledge(지식): 획득된 다양한 정보를 구조화하여 유의미한 정보로 분류되고 일반화시킨 결과물. 정보에 기반해 찾아진 규칙 A 사이트가 싸게 팔아서 여기서 책을 사야지 Wisdom(지혜): 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 아이디어, 상황이나 맥락에 맞게..

Chapter 1. Auto-grad(자동미분) step 6~9: 수동 역전파/ 역전파 자동화/ 재귀, 반복문/ 파이썬 함수 활용

In [1]: import numpy as np 6. 수동 역전파¶ 이전 단계에서 역전파의 구동원리를 설명함 이번 단계에서는 Variable과 Function 클래스를 확장하여 역전파를 이용한 미분을 구현함 6.1 Variable 클래스 추가 구현¶ 역전파에 대응하는 Variable 클래스를 구현함 이를 위해 통상값(data)과 더불어 그에 대응하는 미분값(grad)도 저장하도록 확장함 새로 추가된 코드에는 음영을 덧씌움 In [2]: class Variable: def __init__(self, data): self.data = data self.grad = None 위와 같이 새로 grad라는 인스턴스 변수를 추가함 인스턴스 변수인 data와 grad는 모두 numpy의 다차원배열(ndarray)이라..

1. Auto Gradient(자동미분): 변수/ 함수/ 수치미분/ 역전파

DeZero¶ 해당 내용의 오리지널 프레임워크 해당 내용은 DeZero를 60단계로 나누어, 조금씩 완성하도록 구성함 1.1 Variable?¶ - 상자에 데이터를 넣는 그림에서, 상자의 역할이 변수 - 상자와 데이터는 별개 - 상자에는 데이터가 들어감(대입 or 할당) - 상자 속을 들여다보면 데이터를 알 수 있음(참조) 1.2 Variable class 구현¶ - 파이썬에서는 클래스의 첫 글자 이름을 보통 대문자로 함(PEP8) - Variable 클래스가 상자가 되도록 구현 In [1]: class Variable: def __init__(self, data): self.data = data 초기화 함수 __init__에 주어진 인수를 인스턴스 변수 data에 대입함. 간단한 코드지만, 이를 통해 ..

Sampling Based Inference(Forward/Rejection/Importance Sampling)

- Learn basic sampling method Understand the concep of Markov chain Monte Carlo Able to apply MCMC to the parameter inference of Bayesian networks Know the mechanism of rejection sampling Know the mechanism of importance sampling - Learn sampling based inference Understand the concept of Metropolis-Hastings algorithm Know the mechanism of Gibbs sampling Forward Sampling in GMM - Sample $z$ from ..

Hidden Markov Model (2. For-Backward Prob. Calculation/ Viterbi Decoding Algorithm)

Detour: Dynamic Programming - Dynamic Programming A general algorithm design technique for solving problems defined by or formulated as recurrences with overlapping sub-instances In this context, Programming == Planning - Main storyline Setting up a recurrence Relating a solution of a larger instance to solutions of some smaller instances Solve small instances once Record solutions in a table Ex..

Hidden Markov Model(1: Joint, Marginal Probability of HMM)

Main Questions on HMM - Given the topology of the bayseian network, HMM, or M $\pi$는 initial state, latent state를 정의할때 쓰이는 parameter a는 어느 state에서 다음 state로 transitional 할 때의 probability b는 어떤 특정 state에서 observation이 generated 되서 나올 probability X는 우리가 가지고 있는 관측값 - 1. Evaluation question - Given $\pi, a, b ,X$ - Find $P(X|M, \pi, a, b)$ - how much is X likely to be observed in the trained model? ..

시퀀스 모델링

시퀀스 모델링¶ 이미 시공간에 정의된 수많은 문제를 해결하는 과정에서 중요한 점은 시간의 개념을 적용한다는 것 자연어 처리에서도 순차적으로 입력을 넣고, 입력에 따라 모델의 은닉 상태가 순차적으로 변하며, 상태에 따라 출력 결과가 순차적으로 반환되는 함수가 필요함 이러한 시간 개념 또는 순서 정보를 사용하여 입력을 학습하는 것을 시퀀셜 모델링이라고 함 신경망뿐만 아니라(은닉 마르코프 모델이나 조건부 랜덤 펄드 등의) 다양한 방법을 통해 이런 문제에 접근할 수 있음 신경망에서는 순환 신경망(RNN)이라는 아키텍처를 통해 효율적으로 문제를 해결할 수 잇음 1. 순환 신경망¶자연어 처리에 RNN을 적용하는 사례¶ 입력: 다수/ 출력: 단일 -> many to one 가장 흔한 예제가 감성 분석과 같은 텍스트 ..

자연어, 비전 2020.11.10

워드 임베딩

단어 임베딩¶ 같은 데이터를 표현할 때 가능한 낮은 차원으로 표현할수록 쉽게 모델링하고 학습할 수 있으므로, 희소벡터보다는 Dense한 벡터로 표현하는게 좋음 1. 차원 축소¶ 더 작은 차원으로 효율적으로 정보를 표현하는 차원 축소의 이유와 방법에 대해 알아보기 PCA(주성분 분석)¶pass 매니폴드 가설¶ 높은 차원에 존재하는 데이터들의 경우, 실제로는 해당 데이터들을 아우르는 낮은 차원의 다양체 역시 존재한다는 가설 저차원의 각 공간의 차원 축은 고차원에서 비선형적으로 표현될 것이며, 데이터의 특징을 각각 표현함 딥러닝이 잘 동작한 이유¶ 대부분의 딥러닝이 문제를 풀기 위해 차원 축소를 수행하는 과정은, 데이터가 존재하는 고차원상에서 매니폴드를 찾는 과정 PCA 등과 달리 선형적인 방식에 비해 딥러닝..

자연어, 비전 2020.11.10