본문 바로가기
파이썬

파이썬 What to download in order to make nltk.tokenize.word_tokenize work?

by º기록 2020. 11. 4.
반응형

내 계정이 공간 할당량에 의해 매우 제한되는 클러스터에서 nltk.tokenize.word_tokenize 를 사용할 것입니다. 집에서 모든 nltk 리소스를 nltk.download () 로 다운로드했지만 알아 낸대로 2.5GB가 소요됩니다.

이것은 나에게 약간 과잉 인 것 같습니다. nltk.tokenize.word_tokenize 에 대한 최소 (또는 거의 최소) 종속성이 무엇인지 제안 해 주시겠습니까? 지금까지 nltk.download ( 'punkt') 를 보았지만 그것이 충분한 지, 크기가 얼마인지 잘 모르겠습니다. 작동하려면 정확히 무엇을 실행해야합니까?

 

해결 방법

 

당신이 옳습니다. Punkt Tokenizer 모델이 필요합니다. 13MB가 있으며 nltk.download ( 'punkt') 가 트릭을 수행합니다.

 

참조 페이지 https://stackoverflow.com/questions/37101114

 

 

반응형

댓글