전처리 과정 개요¶ 코퍼스 수집 정제 문장 단위 분절 분절 병렬 코퍼스 정렬(생략가능) 서브워드 분절 에 관해 차례차례 알아보자 1. 코퍼스 수집¶pass 2. 정제¶ 원하는 업무와 문제에 따라, 또는 응용 분야에 따라 필요한 정제의 수준이나 깊이가 다름 ex) 음성인식: 사람의 음성을 그대로 받아적어야 하므로 괄호 또는 별표와 같은 특수 문자들을 포함해서는 안됨. 전화번호나 이메일주소, 신용카드 번호와 같은 개인정보나 민감한 정보들은 제거하거나 변조해서 모델링해야 할 수도 있음 전각문자 제거¶ 대부분의 중국어와 일본어 문서, 그리고 일부 한국어 문서의 숫자, 영자, 기호가 전각문자일 때가 있음. 이러한 경우 일반적으로 사용되는 반각문자로 변환해주는 작업이 필요함 대소문자 통일¶ 일부 영어 코퍼스에서는 ..