파이썬 What to download in order to make nltk.tokenize.word

내 계정이 공간 할당량에 의해 매우 제한되는 클러스터에서 nltk.tokenize.word_tokenize 를 사용할 것입니다. 집에서 모든 nltk 리소스를 nltk.download () 로 다운로드했지만 알아 낸대로 2.5GB가 소요됩니다.

이것은 나에게 약간 과잉 인 것 같습니다. nltk.tokenize.word_tokenize 에 대한 최소 (또는 거의 최소) 종속성이 무엇인지 제안 해 주시겠습니까? 지금까지 nltk.download ( 'punkt') 를 보았지만 그것이 충분한 지, 크기가 얼마인지 잘 모르겠습니다. 작동하려면 정확히 무엇을 실행해야합니까?

해결 방법

당신이 옳습니다. Punkt Tokenizer 모델이 필요합니다. 13MB가 있으며 nltk.download ( 'punkt') 가 트릭을 수행합니다.

참조 페이지 https://stackoverflow.com/questions/37101114

'파이썬' 카테고리의 다른 글

파이썬 숫자 열 정렬 (표 형식으로 출력 인쇄) (0)	2020.11.04
파이썬 How to upload a file to Google Cloud Storage on Python 3? (0)	2020.11.04
파이썬 Compare 2 excel files using Python (0)	2020.11.04
파이썬 사전에서 무작위로 하나의 키를 선택하는 방법 (0)	2020.11.04
파이썬 Python에서 CSV에서 배열로 변환 (0)	2020.11.04

프로그램 샘플 소스

파이썬 What to download in order to make nltk.tokenize.word_tokenize work?

해결 방법

'파이썬' 카테고리의 다른 글

댓글

티스토리툴바

파이썬 What to download in order to make nltk.tokenize.word_tokenize work?

해결 방법

'파이썬' 카테고리의 다른 글

관련글

댓글

티스토리툴바