먼저 훈련 말뭉치의 각 단어를 해당 어간으로 수정 한 다음 새 말뭉치에 대해서만 훈련하여 품사 태그 지정 프로젝트에 NLTK WordNet Lemmatizer를 사용하고 있습니다. 그러나 lemmatizer가 예상대로 작동하지 않는다는 것을 알았습니다.
예를 들어  loves 라는 단어는 올바른  love 로 표현되지만  loving 이라는 단어는 이후에도  loves 로 남아 있습니다. lemmatization. 여기서  loving 은 "I 'm loving it"문장에서와 같습니다.
 love 가  loving 이라는 단어의 어간이 아닙니까? 유사하게, 다른 많은 'ing'형태는 lemmatization 후에 그대로 남아 있습니다. 이것이 올바른 동작입니까?
정확한 다른 lemmatizer는 무엇입니까? (NLTK에있을 필요 없음) 단어 어간을 결정할 때 단어의 품사 태그도 고려하는 형태 분석기 또는 레마 타이 저가 있습니까? 예를 들어,  killing 이 동사로 사용되는 경우  killing 이라는 단어에는 어간으로  kill 이 있어야하지만  killing < / code>가 명사로 사용되는 경우 어간으로 사용됩니다 ( 살인은 xyz에 의해 수행되었습니다 에서와 같이).
해결 방법
WordNet lemmatizer는 POS 태그를 사용 하지만 마술처럼 결정하지는 않습니다.
>>> nltk.stem.WordNetLemmatizer().lemmatize('loving')
'loving'
>>> nltk.stem.WordNetLemmatizer().lemmatize('loving', 'v')
u'love'
POS 태그가 없으면 공급하는 모든 것이 명사라고 가정합니다. 그래서 여기에서는 "사랑하는"명사 ( "달콤한 사랑"에서와 같이)를 전달한다고 생각합니다.
참조 페이지 https://stackoverflow.com/questions/25534214
'파이썬' 카테고리의 다른 글
| 파이썬 PIP는 Windows 8에서 Python 3 모듈 / 패키지를 어디에 저장합니까? (0) | 2020.12.09 | 
|---|---|
| 파이썬 별도의 변수 사전을 만드는 더 간단한 방법? (0) | 2020.12.09 | 
| 파이썬 Hidden features of PyCharm (0) | 2020.12.09 | 
| 파이썬 Turn off axes in subplots (0) | 2020.12.09 | 
| 파이썬 Python urllib urlopen이 작동하지 않습니다. (0) | 2020.12.09 | 
댓글