본문 바로가기
파이썬

파이썬 NLTK WordNet Lemmatizer : 단어의 모든 굴절을 정리해야하지 않습니까?

by º기록 2020. 12. 9.
반응형

먼저 훈련 말뭉치의 각 단어를 해당 어간으로 수정 한 다음 새 말뭉치에 대해서만 훈련하여 품사 태그 지정 프로젝트에 NLTK WordNet Lemmatizer를 사용하고 있습니다. 그러나 lemmatizer가 예상대로 작동하지 않는다는 것을 알았습니다.

예를 들어 loves 라는 단어는 올바른 love 로 표현되지만 loving 이라는 단어는 이후에도 loves 로 남아 있습니다. lemmatization. 여기서 loving 은 "I 'm loving it"문장에서와 같습니다.

love loving 이라는 단어의 어간이 아닙니까? 유사하게, 다른 많은 'ing'형태는 lemmatization 후에 그대로 남아 있습니다. 이것이 올바른 동작입니까?

정확한 다른 lemmatizer는 무엇입니까? (NLTK에있을 필요 없음) 단어 어간을 결정할 때 단어의 품사 태그도 고려하는 형태 분석기 또는 레마 타이 저가 있습니까? 예를 들어, killing 이 동사로 사용되는 경우 killing 이라는 단어에는 어간으로 kill 이 있어야하지만 killing < / code>가 명사로 사용되는 경우 어간으로 사용됩니다 ( 살인은 xyz에 의해 수행되었습니다 에서와 같이).

 

해결 방법

 

WordNet lemmatizer는 POS 태그를 사용 하지만 마술처럼 결정하지는 않습니다.

>>> nltk.stem.WordNetLemmatizer().lemmatize('loving')
'loving'
>>> nltk.stem.WordNetLemmatizer().lemmatize('loving', 'v')
u'love'

POS 태그가 없으면 공급하는 모든 것이 명사라고 가정합니다. 그래서 여기에서는 "사랑하는"명사 ( "달콤한 사랑"에서와 같이)를 전달한다고 생각합니다.

 

참조 페이지 https://stackoverflow.com/questions/25534214

 

 

반응형

댓글