먼저 훈련 말뭉치의 각 단어를 해당 어간으로 수정 한 다음 새 말뭉치에 대해서만 훈련하여 품사 태그 지정 프로젝트에 NLTK WordNet Lemmatizer를 사용하고 있습니다. 그러나 lemmatizer가 예상대로 작동하지 않는다는 것을 알았습니다.
예를 들어 loves
라는 단어는 올바른 love
로 표현되지만 loving
이라는 단어는 이후에도 loves
로 남아 있습니다. lemmatization. 여기서 loving
은 "I 'm loving it"문장에서와 같습니다.
love
가 loving
이라는 단어의 어간이 아닙니까? 유사하게, 다른 많은 'ing'형태는 lemmatization 후에 그대로 남아 있습니다. 이것이 올바른 동작입니까?
정확한 다른 lemmatizer는 무엇입니까? (NLTK에있을 필요 없음) 단어 어간을 결정할 때 단어의 품사 태그도 고려하는 형태 분석기 또는 레마 타이 저가 있습니까? 예를 들어, killing
이 동사로 사용되는 경우 killing
이라는 단어에는 어간으로 kill
이 있어야하지만 killing < / code>가 명사로 사용되는 경우 어간으로 사용됩니다 (
살인은 xyz에 의해 수행되었습니다
에서와 같이).
해결 방법
WordNet lemmatizer는 POS 태그를 사용 하지만 마술처럼 결정하지는 않습니다.
>>> nltk.stem.WordNetLemmatizer().lemmatize('loving')
'loving'
>>> nltk.stem.WordNetLemmatizer().lemmatize('loving', 'v')
u'love'
POS 태그가 없으면 공급하는 모든 것이 명사라고 가정합니다. 그래서 여기에서는 "사랑하는"명사 ( "달콤한 사랑"에서와 같이)를 전달한다고 생각합니다.
참조 페이지 https://stackoverflow.com/questions/25534214
'파이썬' 카테고리의 다른 글
파이썬 PIP는 Windows 8에서 Python 3 모듈 / 패키지를 어디에 저장합니까? (0) | 2020.12.09 |
---|---|
파이썬 별도의 변수 사전을 만드는 더 간단한 방법? (0) | 2020.12.09 |
파이썬 Hidden features of PyCharm (0) | 2020.12.09 |
파이썬 Turn off axes in subplots (0) | 2020.12.09 |
파이썬 Python urllib urlopen이 작동하지 않습니다. (0) | 2020.12.09 |
댓글