Технологии внедрения Python Sense Sense Distigiguation (WSD):
Алгоритмы Леска
Максимизация сходства (см. Также Pedersen et al. (2003))
Примечание : PYWSD поддерживает только Python 3 сейчас ( pywsd>=1.2.0 ). Если вы используете Python 2, последняя возможная версия - pywsd==1.1.7 .
pip install -U nltk
python -m nltk.downloader 'popular'
pip install -U pywsd
$ python
> >> from pywsd . lesk import simple_lesk
> >> sent = 'I went to the bank to deposit my money'
> >> ambiguous = 'bank'
> >> answer = simple_lesk ( sent , ambiguous , pos = 'n' )
> >> print answer
Synset ( 'depository_financial_institution.n.01' )
> >> print answer . definition ()
'a financial institution that accepts deposits and channels the money into lending activities'Для всех слов WSD, попробуйте:
> >> from pywsd import disambiguate
> >> from pywsd . similarity import max_similarity as maxsim
> >> disambiguate ( 'I went to the bank to deposit my money' )
[( 'I' , None ), ( 'went' , Synset ( 'run_low.v.01' )), ( 'to' , None ), ( 'the' , None ), ( 'bank' , Synset ( 'depository_financial_institution.n.01' )), ( 'to' , None ), ( 'deposit' , Synset ( 'deposit.v.02' )), ( 'my' , None ), ( 'money' , Synset ( 'money.n.03' ))]
> >> disambiguate ( 'I went to the bank to deposit my money' , algorithm = maxsim , similarity_option = 'wup' , keepLemmas = True )
[( 'I' , 'i' , None ), ( 'went' , u'go' , Synset ( 'sound.v.02' )), ( 'to' , 'to' , None ), ( 'the' , 'the' , None ), ( 'bank' , 'bank' , Synset ( 'bank.n.06' )), ( 'to' , 'to' , None ), ( 'deposit' , 'deposit' , Synset ( 'deposit.v.02' )), ( 'my' , 'my' , None ), ( 'money' , 'money' , Synset ( 'money.n.01' ))]Для чтения предварительно вычисленных подписей на синсет:
> >> from pywsd . lesk import cached_signatures
> >> cached_signatures [ 'dog.n.01' ][ 'simple' ]
set ([ u'canid' , u'belgian_griffon' , u'breed' , u'barker' , ... , u'genus' , u'newfoundland' ])
> >> cached_signatures [ 'dog.n.01' ][ 'adapted' ]
set ([ u'canid' , u'belgian_griffon' , u'breed' , u'leonberg' , ... , u'newfoundland' , u'pack' ])
> >> from nltk . corpus import wordnet as wn
> >> wn . synsets ( 'dog' )[ 0 ]
Synset ( 'dog.n.01' )
> >> dog = wn . synsets ( 'dog' )[ 0 ]
> >> dog . name ()
u'dog.n.01'
> >> cached_signatures [ dog . name ()][ 'simple' ]
set ([ u'canid' , u'belgian_griffon' , u'breed' , u'barker' , ... , u'genus' , u'newfoundland' ]) Цитировать pywsd :
Лилинг загара. 2014. PYWSD: Python Реализации технологий неоднозначности Word Sense (WSD) [Программное обеспечение]. Получено с https://github.com/alvations/pywsd
В bibtex :
@misc{pywsd14,
author = {Liling Tan},
title = {Pywsd: Python Implementations of Word Sense Disambiguation (WSD) Technologies [software]},
howpublished = {https://github.com/alvations/pywsd},
year = {2014}
}
Майкл Леск. 1986. Автоматическое устранение чувств. В материалах 5 -й ежегодной Международной конференции по системной документации (Sigdoc '86), Вирджиния Дебюс (ред.). ACM, Нью-Йорк, Нью-Йорк, США, 24-26. Doi = 10.1145/318723.318728 http://doi.acm.org/10.1145/318723.318728
SATANJEEV BANERJEE и TED PEDERSEN. 2002. Адаптированный алгоритм LESK для устранения неоднозначности смысла с использованием Wordnet. В материалах Третьей Международной конференции по вычислительной лингвистике и интеллектуальной обработке текста (CICLING '02), Александр Ф. Гелбух (ред.). Springer-Verlag, Лондон, Великобритания, Великобритания, 136-145.
SATANJEEV BANERJEE и TED PEDERSEN. 2003. Расширенные глянцевые перекрытия как мера семантической родственности. В материалах восемнадцатой международной совместной конференции по искусственному интеллекту, страницы 805–810, Acapulco.
Джей Дж. Цзян и Дэвид В. Конрат. 1997. Семантическое сходство на основе статистики корпуса и лексической таксономии. В материалах Международной конференции по исследованиям в области вычислительной лингвистики, Тайвань.
Клаудия Ликок и Мартин Чодорова. 1998. Сочетание локального контекста и сходства слов для идентификации смысла. В Феллбаум 1998, с. 265–283.
Ли, Юн Кеок, Хви Ту нг и Ти Киа Чиа. «Справочное смысл слова неоднозначности с помощью векторных машин поддержки и многочисленных источников знаний». Senseval-3: Третий международный семинар по оценке систем для семантического анализа текста. 2004.
ДеКан Лин. 1998. Информационное теоретическое определение сходства. В материалах 15 -й Международной конференции по машинному обучению, Мэдисон, Висконсин.
Линлин Ли, Бенджамин Рот и Кэролайн Спорлдер. 2010. Тематические модели для неоднозначности слова и обнаружения идиомы на основе токков. 48 -е ежегодное собрание Ассоциации вычислительной лингвистики (ACL). Упсала, Швеция.
Андреа Моро, Роберто Навигли, Франческо Мария Туччи и Ребекка Дж. Пасноно. 2014. Аннотирование корпуса MASC с Babelnet. В материалах Девятой Международной конференции по языковым ресурсам и оценке (Lrec'14). Рейкьявик, Исландия.
Чжи Чжун и Хви Ту нг. 2010. Это имеет смысл: широкооттрайная система устранения неоднозначности для бесплатного текста. В материалах демонстраций системы ACL 2010 (ACLDEMOS '10). Ассоциация вычислительной лингвистики, Струдсбург, Пенсильвания, США, 78-83.
Стивен Берд, Эван Кляйн и Эдвард Лопер. 2009. Обработка естественного языка с Python (1 -е изд.). O'Reilly Media, Inc ..
Eneko Agirre и Aitor Soroa. 2009. Персонализация PageRank для слова, невоотомство. Материалы 12-й конференции Европейской главы Ассоциации вычислительной лингвистики (ECL-2009). Афины, Греция.