반응형
내 계정이 공간 할당량에 의해 매우 제한되는 클러스터에서 nltk.tokenize.word_tokenize
를 사용할 것입니다. 집에서 모든 nltk
리소스를 nltk.download ()
로 다운로드했지만 알아 낸대로 2.5GB가 소요됩니다.
이것은 나에게 약간 과잉 인 것 같습니다. nltk.tokenize.word_tokenize
에 대한 최소 (또는 거의 최소) 종속성이 무엇인지 제안 해 주시겠습니까? 지금까지 nltk.download ( 'punkt')
를 보았지만 그것이 충분한 지, 크기가 얼마인지 잘 모르겠습니다. 작동하려면 정확히 무엇을 실행해야합니까?
해결 방법
당신이 옳습니다. Punkt Tokenizer 모델이 필요합니다. 13MB가 있으며 nltk.download ( 'punkt')
가 트릭을 수행합니다.
참조 페이지 https://stackoverflow.com/questions/37101114
반응형
'파이썬' 카테고리의 다른 글
파이썬 숫자 열 정렬 (표 형식으로 출력 인쇄) (0) | 2020.11.04 |
---|---|
파이썬 How to upload a file to Google Cloud Storage on Python 3? (0) | 2020.11.04 |
파이썬 Compare 2 excel files using Python (0) | 2020.11.04 |
파이썬 사전에서 무작위로 하나의 키를 선택하는 방법 (0) | 2020.11.04 |
파이썬 Python에서 CSV에서 배열로 변환 (0) | 2020.11.04 |
댓글