NLP 2

단어 유사도 정리

1. 단어의 의미¶단어와 의미의 관계¶ 단어는 겉으로 보이는 형태인 표제어 안에 여러 의미를 담고 있음 한 가지 형태의 단어에 여러 의미가 포함되어 생기는 '중의성'문제는 자연어 처리에서 매우 중요한 위치를 가짐 동형어와 다의어¶ 형태는 같으나 뜻이 서로 다른 단어를 동형어라고 함(예: 차) 동형어와 다의어의 차이점은, 다의어의 경우 한 형태의 단어가 여러 의미를 지니면서도 그 의미들이 서로 관련이 있는 듯을 갖는다는 것 그와 달리, 동형어는 아예 어원이 다른 의미들이 같은 형태를 띄는 단어 이렇게 한 형태 내에서 여러 의미를 지니는 동형어 또는 다의어의 경우에는 단어 중의성 해소(WSD)라는 방법을 통해 단어의 의미를 더 명확히 하는 과정이 필요함. 단어의 중의성을 해소하고자 주변 문맥을 통해 원래 단..

자연어, 비전 2020.11.09

자연어 처리를 위한 전처리 과정 정리

전처리 과정 개요¶ 코퍼스 수집 정제 문장 단위 분절 분절 병렬 코퍼스 정렬(생략가능) 서브워드 분절 에 관해 차례차례 알아보자 1. 코퍼스 수집¶pass 2. 정제¶ 원하는 업무와 문제에 따라, 또는 응용 분야에 따라 필요한 정제의 수준이나 깊이가 다름 ex) 음성인식: 사람의 음성을 그대로 받아적어야 하므로 괄호 또는 별표와 같은 특수 문자들을 포함해서는 안됨. 전화번호나 이메일주소, 신용카드 번호와 같은 개인정보나 민감한 정보들은 제거하거나 변조해서 모델링해야 할 수도 있음 전각문자 제거¶ 대부분의 중국어와 일본어 문서, 그리고 일부 한국어 문서의 숫자, 영자, 기호가 전각문자일 때가 있음. 이러한 경우 일반적으로 사용되는 반각문자로 변환해주는 작업이 필요함 대소문자 통일¶ 일부 영어 코퍼스에서는 ..

자연어, 비전 2020.11.06