Deep Learning/Natural Language Processing

자연어처리(NLP)/ 텍스트 전처리/ 토큰화(tokenizer), 불용어처리(Stop word) / Spacy in Python

2021.04.14· Deep Learning/Natural Language Processing

텍스트 전처리 KeyWord 토큰화 , 불용어제거 자연어처리 관련 용어 코퍼스(Corpus, 말뭉치)란 특정한 목적을 가지고 수집한 텍스트 데이터를 말합니다. 문서(Document)란 문장(Sentence)들의 집합입니다 문장(Sentence)이란 여러개의 토큰(단어, 형태소 등)으로 구성된 문자열 입니다. 마침표, 느낌표 같은 기호로 주로 구분됩니다. 어휘집합(Vocabulary)는 코퍼스에 있는 모든 문서, 문장을 토큰화한 후 중복을 제거한 토큰의 집합을 말합니다. NLP pipeline 1. 통계기반, 말뭉치 이용 #말뭉치 전처리 text = "Hello world! nice to meet you! python is nice language!" #문자열을 소문자로 통일하기 text = text.lo..

AI논문은 어떻게 쓰는 거지??/가이드라인/Related Work/ICCV/Fine-Grained Action Retrieval Through Multiple Parts-of-Speech Embeddings

2021.04.09· Deep Learning/Natural Language Processing

처음으로 AI관련된 논문을 준비하고 있다. 논문이라는 것이 말하고자 하는 바는 굉장히 비슷하지만, 세세한 틀은 각 분야마다 상당히 다르게 느껴지는 것 같다. 그래서 내가 먼저 하고자 했던 것은! 논문의 흐름이 어떻게 되나?!! 이걸 먼저 생각해 보기로 하였다. 참고한 논문은 Fine-Grained Action Retrieval Through Multiple Parts-of-Speech Embeddings 2019년 ICCV에 실린 논문이다. 주요 내용은 품사 임베딩을 통한 작업 추출이다. 한마디로 얘기해서 영상에 보이는 모션을 텍스트로 추출해주는 기술을 담은 논문이다. Abstract 1.우리가 해결하고자 하는 점 We address the problem of cross-modal fine-grained..

티스토리툴바