텍스트전처리

텍스트 전처리 KeyWord 토큰화 , 불용어제거 자연어처리 관련 용어 코퍼스(Corpus, 말뭉치)란 특정한 목적을 가지고 수집한 텍스트 데이터를 말합니다. 문서(Document)란 문장(Sentence)들의 집합입니다 문장(Sentence)이란 여러개의 토큰(단어, 형태소 등)으로 구성된 문자열 입니다. 마침표, 느낌표 같은 기호로 주로 구분됩니다. 어휘집합(Vocabulary)는 코퍼스에 있는 모든 문서, 문장을 토큰화한 후 중복을 제거한 토큰의 집합을 말합니다. NLP pipeline 1. 통계기반, 말뭉치 이용 #말뭉치 전처리 text = "Hello world! nice to meet you! python is nice language!" #문자열을 소문자로 통일하기 text = text.lo..
ERE
'텍스트전처리' 태그의 글 목록