데분데싸

  • 홈

nltk 1

자연어 처리를 위한 전처리 과정 정리

전처리 과정 개요¶ 코퍼스 수집 정제 문장 단위 분절 분절 병렬 코퍼스 정렬(생략가능) 서브워드 분절 에 관해 차례차례 알아보자 1. 코퍼스 수집¶pass 2. 정제¶ 원하는 업무와 문제에 따라, 또는 응용 분야에 따라 필요한 정제의 수준이나 깊이가 다름 ex) 음성인식: 사람의 음성을 그대로 받아적어야 하므로 괄호 또는 별표와 같은 특수 문자들을 포함해서는 안됨. 전화번호나 이메일주소, 신용카드 번호와 같은 개인정보나 민감한 정보들은 제거하거나 변조해서 모델링해야 할 수도 있음 전각문자 제거¶ 대부분의 중국어와 일본어 문서, 그리고 일부 한국어 문서의 숫자, 영자, 기호가 전각문자일 때가 있음. 이러한 경우 일반적으로 사용되는 반각문자로 변환해주는 작업이 필요함 대소문자 통일¶ 일부 영어 코퍼스에서는 ..

자연어, 비전 2020.11.06
1
더보기
프로필사진

  • 분류 전체보기 (67)
    • 기계학습 (30)
      • 인공지능및기계학습개론정리 (9)
      • 밑바닥딥러닝3 오독오독 씹기 (8)
      • 베이지안 (5)
      • 수리통계학 (3)
    • 강화학습 (8)
    • 자연어, 비전 (6)
    • 교육자료 (3)
    • 논문 (1)
    • 빅데이터분석기사정리 (2)
    • 끄적끄적 (16)

최근글과 인기글

  • 최근글
  • 인기글

Tag

Monte-Carlo, 앙상블, 역전파, 몬테카를로, Bayesian, 분석기사, 베이지안, 밑바닥부터시작하는딥러닝3, forward, 빅데이터, MCMC, reinforcement, 빅데이터 분석기사, 강화학습, NLP, 자연어, pymc3, 머신러닝, Modeling, HMM,

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바