본문 바로가기
파이썬

파이썬 NLTK에서 문자열 문장을 어떻게 토큰 화합니까?

by º기록 2021. 1. 25.
반응형

저는 nltk를 사용하고 있으므로 nltk.books의 기본 텍스트와 같은 사용자 지정 텍스트를 만들고 싶습니다. 그러나 나는 다음과 같은 방법을 얻었습니다.

my_text = ['This', 'is', 'my', 'text']

내 "텍스트"를 다음과 같이 입력하는 방법을 찾고 싶습니다.

my_text = "This is my text, this is a nice way to input text."

어떤 방법, 파이썬 또는 nltk에서 이것을 할 수 있습니다. 그리고 더 중요한 것은 어떻게 구두점 기호를 무시할 수 있습니까?

 

해결 방법

 


>>> import nltk
>>> sentence = """At eight o'clock on Thursday morning
... Arthur didn't feel very good."""
>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['At', 'eight', "o'clock", 'on', 'Thursday', 'morning',
'Arthur', 'did', "n't", 'feel', 'very', 'good', '.']

 

참조 페이지 https://stackoverflow.com/questions/15057945

 

 

반응형

댓글