Implémentations Python des technologies de désambiguïsation des mots (WSD):
Algorithmes EK
Maximiser la similitude (voir également Pedersen et al. (2003))
Remarque : PYWSD prend en charge uniquement Python 3 ( pywsd>=1.2.0 ). Si vous utilisez Python 2, la dernière version possible est pywsd==1.1.7 .
pip install -U nltk
python -m nltk.downloader 'popular'
pip install -U pywsd
$ python
> >> from pywsd . lesk import simple_lesk
> >> sent = 'I went to the bank to deposit my money'
> >> ambiguous = 'bank'
> >> answer = simple_lesk ( sent , ambiguous , pos = 'n' )
> >> print answer
Synset ( 'depository_financial_institution.n.01' )
> >> print answer . definition ()
'a financial institution that accepts deposits and channels the money into lending activities'Pour le WSD de tout-mot, essayez:
> >> from pywsd import disambiguate
> >> from pywsd . similarity import max_similarity as maxsim
> >> disambiguate ( 'I went to the bank to deposit my money' )
[( 'I' , None ), ( 'went' , Synset ( 'run_low.v.01' )), ( 'to' , None ), ( 'the' , None ), ( 'bank' , Synset ( 'depository_financial_institution.n.01' )), ( 'to' , None ), ( 'deposit' , Synset ( 'deposit.v.02' )), ( 'my' , None ), ( 'money' , Synset ( 'money.n.03' ))]
> >> disambiguate ( 'I went to the bank to deposit my money' , algorithm = maxsim , similarity_option = 'wup' , keepLemmas = True )
[( 'I' , 'i' , None ), ( 'went' , u'go' , Synset ( 'sound.v.02' )), ( 'to' , 'to' , None ), ( 'the' , 'the' , None ), ( 'bank' , 'bank' , Synset ( 'bank.n.06' )), ( 'to' , 'to' , None ), ( 'deposit' , 'deposit' , Synset ( 'deposit.v.02' )), ( 'my' , 'my' , None ), ( 'money' , 'money' , Synset ( 'money.n.01' ))]Pour lire les signatures pré-calculées par synSset:
> >> from pywsd . lesk import cached_signatures
> >> cached_signatures [ 'dog.n.01' ][ 'simple' ]
set ([ u'canid' , u'belgian_griffon' , u'breed' , u'barker' , ... , u'genus' , u'newfoundland' ])
> >> cached_signatures [ 'dog.n.01' ][ 'adapted' ]
set ([ u'canid' , u'belgian_griffon' , u'breed' , u'leonberg' , ... , u'newfoundland' , u'pack' ])
> >> from nltk . corpus import wordnet as wn
> >> wn . synsets ( 'dog' )[ 0 ]
Synset ( 'dog.n.01' )
> >> dog = wn . synsets ( 'dog' )[ 0 ]
> >> dog . name ()
u'dog.n.01'
> >> cached_signatures [ dog . name ()][ 'simple' ]
set ([ u'canid' , u'belgian_griffon' , u'breed' , u'barker' , ... , u'genus' , u'newfoundland' ]) Pour citer pywsd :
Bronzage liant. 2014. PYWSD: Implémentations Python des technologies de désambiguïsation des mots (WSD) [logiciel]. Extrait de https://github.com/alvations/pywsd
Dans bibtex :
@misc{pywsd14,
author = {Liling Tan},
title = {Pywsd: Python Implementations of Word Sense Disambiguation (WSD) Technologies [software]},
howpublished = {https://github.com/alvations/pywsd},
year = {2014}
}
Michael Lesk. 1986. Désambiguation du sens automatique à l'aide de dictionnaires lisibles par la machine: comment dire un cône de pin à partir d'un cône de crème glacée. Dans les actes de la 5e conférence internationale annuelle sur la documentation des systèmes (Sigdoc '86), Virginia Debuys (éd.). ACM, New York, NY, États-Unis, 24-26. Doi = 10.1145 / 318723.318728 http://doi.acm.org/10.1145/318723.318728
Satanjeev Banerjee et Ted Pedersen. 2002. Un algorithme de lesk adapté pour la désambiguïsation du sens des mots à l'aide de WordNet. Dans les actes de la troisième conférence internationale sur la linguistique informatique et le traitement intelligent du texte (Cicling '02), Alexander F. Gelbukh (éd.). Springer-Verlag, Londres, Royaume-Uni, Royaume-Uni, 136-145.
Satanjeev Banerjee et Ted Pedersen. 2003. Le brillant étendu se chevauche comme mesure de la parenté sémantique. Dans les actes de la dix-huitième conférence conjointe internationale sur l'intelligence artificielle, pages 805–810, Acapulco.
Jay J. Jiang et David W. Conrath. 1997. Similité sémantique basée sur les statistiques du corpus et la taxonomie lexicale. Dans les actes de la Conférence internationale sur la recherche en linguistique informatique, Taïwan.
Claudia Leacock et Martin Chodorow. 1998. Combinaison du contexte local et de la similitude WordNet pour l'identification du sens des mots. Dans Fellbaum 1998, pp. 265-283.
Lee, Yoong Keok, Hwee Tou ng et Tee Kiah Chia. "La désambiguïté du sens des mots supervisé avec des machines vectorielles de support et plusieurs sources de connaissances." SenseVal-3: Troisième atelier international sur l'évaluation des systèmes pour l'analyse sémantique du texte. 2004.
Dekang Lin. 1998. Une définition théorique de l'information de la similitude. Dans les actes de la 15e Conférence internationale sur l'apprentissage automatique, Madison, WI.
Linlin Li, Benjamin Roth et Caroline Sporleder. 2010. Modèles de sujet pour la désambiguïsation des mots et la détection de l'idiome basée sur les jetons. La 48e réunion annuelle de l'Association for Computational Linguistics (LCA). Uppsala, Suède.
Andrea Moro, Roberto Navigli, Francesco Maria Tucci et Rebecca J. Passonneau. 2014. Annotation du Masc Corpus avec Babelnet. Dans les actes de la neuvième conférence internationale sur les ressources linguistiques et l'évaluation (LREC'14). Reykjavik, Islande.
Zhi Zhong et Hwee Tou ng. 2010. Il a du sens: un système de désambiguïsation de sens des mots à large couverture pour le texte libre. Dans les actes des démonstrations du système ACL 2010 (ACLDEMOS '10). Association for Computational Linguistics, Stroudsburg, PA, États-Unis, 78-83.
Steven Bird, Ewan Klein et Edward Loper. 2009. Traitement du langage naturel avec Python (1ère éd.). O'Reilly Media, Inc ..
Eneko Agirre et Aitor Soroa. 2009. Personnalisation du pagerank pour la désambiguïsation du sens des mots. Actes de la 12e conférence du chapitre européen de l'Association de linguistique informatique (EACL-2009). Athènes, Grèce.