전체 글 67

단어 유사도 정리

1. 단어의 의미¶단어와 의미의 관계¶ 단어는 겉으로 보이는 형태인 표제어 안에 여러 의미를 담고 있음 한 가지 형태의 단어에 여러 의미가 포함되어 생기는 '중의성'문제는 자연어 처리에서 매우 중요한 위치를 가짐 동형어와 다의어¶ 형태는 같으나 뜻이 서로 다른 단어를 동형어라고 함(예: 차) 동형어와 다의어의 차이점은, 다의어의 경우 한 형태의 단어가 여러 의미를 지니면서도 그 의미들이 서로 관련이 있는 듯을 갖는다는 것 그와 달리, 동형어는 아예 어원이 다른 의미들이 같은 형태를 띄는 단어 이렇게 한 형태 내에서 여러 의미를 지니는 동형어 또는 다의어의 경우에는 단어 중의성 해소(WSD)라는 방법을 통해 단어의 의미를 더 명확히 하는 과정이 필요함. 단어의 중의성을 해소하고자 주변 문맥을 통해 원래 단..

자연어, 비전 2020.11.09

자연어 처리를 위한 전처리 과정 정리

전처리 과정 개요¶ 코퍼스 수집 정제 문장 단위 분절 분절 병렬 코퍼스 정렬(생략가능) 서브워드 분절 에 관해 차례차례 알아보자 1. 코퍼스 수집¶pass 2. 정제¶ 원하는 업무와 문제에 따라, 또는 응용 분야에 따라 필요한 정제의 수준이나 깊이가 다름 ex) 음성인식: 사람의 음성을 그대로 받아적어야 하므로 괄호 또는 별표와 같은 특수 문자들을 포함해서는 안됨. 전화번호나 이메일주소, 신용카드 번호와 같은 개인정보나 민감한 정보들은 제거하거나 변조해서 모델링해야 할 수도 있음 전각문자 제거¶ 대부분의 중국어와 일본어 문서, 그리고 일부 한국어 문서의 숫자, 영자, 기호가 전각문자일 때가 있음. 이러한 경우 일반적으로 사용되는 반각문자로 변환해주는 작업이 필요함 대소문자 통일¶ 일부 영어 코퍼스에서는 ..

자연어, 비전 2020.11.06

Bayesian Network

- Graphical Model 중에서도 큰 부분을 차지하는게 bayesian network! - 베이지안 네트워크 또한 확률 변수들 사이의 관계를 표현하는 것 Bayesian Network - A graphical notation of Random variables Conditional independence To obtain a compact representation of the full joint distributions - Syntax A acyclie and directed graph (사이클이 없는 방향성이 있는 graph) A set of nodes A random variable A conditional distribution given its parents $P(X_i | Parents..

선형대수 개념잡기 추천 동영상(feat. 무에서 유가 어려운 이유(탈모 치료가 힘든 이유?)

www.youtube.com/playlist?list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab Essence of linear algebra A geometric understanding of matrices, determinants, eigen-stuffs and more. www.youtube.com 굉장히 좋은 동영상을 발견했다. 눈으로 보면서 동영상을 보니까 더욱 이해가 잘된다. 항상 보면서 헷갈렸던 개념들을 복습하기 좋은 컨텐츠! 공감의 따봉 박아줬다. 동영상 내용을 하나씩 살펴보고 있는데, 재밌는 내용이 있고 거기에 관한 잡생각이 떠올라 추가로 정리한다...! 선형대수를 정형화된 계산법이 아니라 기하학적인 측면으로 접근한 계산법이라 기존의 알고있던 내용들도 감회가 새롭게 ..

끄적끄적 2020.10.28

<DIP 제2회 대구 빅데이터 분석 경진대회 기록>

현재 팀원들과 함께 제2회 대구 빅데이터 분석 경진대회에 참여하였다. 팀명은 우리빼고 딴거 다 영~파이다(.....)(대구사투리) 란 뜻에서 0$\pi$ 로 지었다... (내가 강력히 주장했다) 가나다 순으로 올리다 보니 팀명이 제일 위에 있다. 아마 발표도 가장 빨리 했을 듯. 분석은 불법주정차 관련 분석 + 관련 자료에 관한 최적경로설정 두가지를 문제로 정의하고, 이를 해결하기 위한 분석으로 선정했다. 두 가지를 동시에 진행하는 게 부담이 조금 되긴 했지만, 이렇게 조합을 해야 어느정도 만족할만한 완성도를 뽑아 낼 수 있을 것 같았다. 최적 경로 설정(VRP)문제는 현재 공부중인 강화학습을 적용하여 문제 해결에 실마리를 얻을 수 있을 것 같아서 충분히 가능하지 않을까? 싶었지만 잘못된 생각 이었다....

끄적끄적 2020.10.20

손으로 쓰는 강화학습(Reinforcement Learning) - (3) DP(Dynamic Programming)

DP(Dynamic Programming: 동적 계획법) - 복잡한 (큰)문제를 작은 문제로 나눈 후, 작은 문제ㅢ 해법을 조합해 큰 문제의 해답을 구하는 기법의 총칭. 동적 계획법으로 해결할 수 있는 문제는 다음과 같은 특징을 가짐 1. 최적 하위구조(Optimal substructrue) - 큰 문제를 분할한 작은 문제의 최적 값이 큰 문제에서도 최적 값. - Principle of optimality라고도 불림. 2. 중복 하위문제(Overlapping problems) - 큰 문제의 해를 구하기 위해서, 작은 문제의 최적 해를 재사용. - 여러 번의 재사용을 하기 때문에 일반적으로 테이블에 저장해 둠. MDP에서 정의한 bellman 기대/최적 방정식은 두 가지 특성을 만족시킴. 즉, 우리는 DP..

강화학습 2020.08.31