Python -Implementierungen von Word Sense Disambiguation (WSD) -Technologien:
Lesk -Algorithmen
Maximierung der Ähnlichkeit (siehe auch Pedersen et al. (2003))
Hinweis : PYWSD unterstützt jetzt nur Python 3 ( pywsd>=1.2.0 ). Wenn Sie Python 2 verwenden, ist die letzte mögliche Version pywsd==1.1.7 .
pip install -U nltk
python -m nltk.downloader 'popular'
pip install -U pywsd
$ python
> >> from pywsd . lesk import simple_lesk
> >> sent = 'I went to the bank to deposit my money'
> >> ambiguous = 'bank'
> >> answer = simple_lesk ( sent , ambiguous , pos = 'n' )
> >> print answer
Synset ( 'depository_financial_institution.n.01' )
> >> print answer . definition ()
'a financial institution that accepts deposits and channels the money into lending activities'Versuchen Sie für All-Words WSD:
> >> from pywsd import disambiguate
> >> from pywsd . similarity import max_similarity as maxsim
> >> disambiguate ( 'I went to the bank to deposit my money' )
[( 'I' , None ), ( 'went' , Synset ( 'run_low.v.01' )), ( 'to' , None ), ( 'the' , None ), ( 'bank' , Synset ( 'depository_financial_institution.n.01' )), ( 'to' , None ), ( 'deposit' , Synset ( 'deposit.v.02' )), ( 'my' , None ), ( 'money' , Synset ( 'money.n.03' ))]
> >> disambiguate ( 'I went to the bank to deposit my money' , algorithm = maxsim , similarity_option = 'wup' , keepLemmas = True )
[( 'I' , 'i' , None ), ( 'went' , u'go' , Synset ( 'sound.v.02' )), ( 'to' , 'to' , None ), ( 'the' , 'the' , None ), ( 'bank' , 'bank' , Synset ( 'bank.n.06' )), ( 'to' , 'to' , None ), ( 'deposit' , 'deposit' , Synset ( 'deposit.v.02' )), ( 'my' , 'my' , None ), ( 'money' , 'money' , Synset ( 'money.n.01' ))]Vorbereitete Signaturen pro Synset lesen:
> >> from pywsd . lesk import cached_signatures
> >> cached_signatures [ 'dog.n.01' ][ 'simple' ]
set ([ u'canid' , u'belgian_griffon' , u'breed' , u'barker' , ... , u'genus' , u'newfoundland' ])
> >> cached_signatures [ 'dog.n.01' ][ 'adapted' ]
set ([ u'canid' , u'belgian_griffon' , u'breed' , u'leonberg' , ... , u'newfoundland' , u'pack' ])
> >> from nltk . corpus import wordnet as wn
> >> wn . synsets ( 'dog' )[ 0 ]
Synset ( 'dog.n.01' )
> >> dog = wn . synsets ( 'dog' )[ 0 ]
> >> dog . name ()
u'dog.n.01'
> >> cached_signatures [ dog . name ()][ 'simple' ]
set ([ u'canid' , u'belgian_griffon' , u'breed' , u'barker' , ... , u'genus' , u'newfoundland' ]) pywsd zitieren:
Liling Bräune. 2014. PYWSD: Python -Implementierungen von Word Sense Disambiguation (WSD) -Technologien [Software]. Abgerufen von https://github.com/alvations/pywsd
In bibtex :
@misc{pywsd14,
author = {Liling Tan},
title = {Pywsd: Python Implementations of Word Sense Disambiguation (WSD) Technologies [software]},
howpublished = {https://github.com/alvations/pywsd},
year = {2014}
}
Michael Lesk. 1986. Automatische Sense -Disambiguation mit maschinenlesbaren Wörterbüchern: Wie man einen Kiefernkegel von einem Eiskegel erzählt. In Proceedings der 5. jährlichen internationalen Konferenz über Systemdokumentation (Sigdoc '86), Virginia Debuys (Hrsg.). ACM, New York, NY, USA, 24-26. Doi = 10.1145/318723.318728 http://doi.acm.org/10.1145/318723.318728
Satanjeev Banerjee und Ted Pedersen. 2002. Ein angepasster Lesk -Algorithmus zur Disambiguation von WordNet. In Proceedings der dritten internationalen Konferenz über Computerlinguistik und intelligente Textverarbeitung (Cicling '02), Alexander F. Gelbukh (Hrsg.). Springer-Verlag, London, Großbritannien, Großbritannien, 136-145.
Satanjeev Banerjee und Ted Pedersen. 2003. Erweiterte Glanzlapper überlappt als Maß für die semantische Verwandtschaft. In Proceedings der achtzehnten Internationalen gemeinsamen Konferenz über künstliche Intelligenz, Seiten 805–810, Acapulco.
Jay J. Jiang und David W. Conrath. 1997. Semantische Ähnlichkeit basierend auf Corpus -Statistiken und lexikalischer Taxonomie. In Proceedings of International Conference on Research in Computational Linguistics, Taiwan.
Claudia Leacock und Martin Chodorow. 1998. Kombination lokaler Kontext und WordNet -Ähnlichkeit zur Identifizierung von Wort Sinnes. In Fellbaum 1998, S. 265–283.
Lee, Yoong Keok, Hwee Tou Ng und Tee Kiah Chia. "Beaufsichtigtes Wort Sinnverdünnung mit Unterstützungsvektorautomaten und mehreren Wissensquellen." Senseval-3: Dritter internationaler Workshop zur Bewertung von Systemen zur semantischen Textanalyse. 2004.
Dekang Lin. 1998. Eine Informations-theoretische Definition von Ähnlichkeit. In Proceedings der 15. Internationalen Konferenz über maschinelles Lernen, Madison, WI.
Linlin Li, Benjamin Roth und Caroline Sporleder. 2010. Themenmodelle für die Disambiguation von Wort Sinn und die Erkennung von Tokenbasis. Die 48. Jahrestagung des Vereins für Computerlinguistik (ACL). Uppsala, Schweden.
Andrea Moro, Roberto Navigli, Francesco Maria Tucci und Rebecca J. Passonneau. 2014. Annotiert das MASC -Korpus mit Babelnet. In Proceedings der neunten internationalen Konferenz über Sprachressourcen und -bewertungen (LREC'14). Reykjavik, Island.
Zhi Zhong und hwee tou ng. 2010. Es macht Sinn: Ein Wald-Word-Sinnes-Disambiguationssystem für freien Text. In Proceedings of the ACL 2010 -Systemdemonstrationen (ACLDEMOS '10). Association for Computational Linguistics, Stroudsburg, PA, USA, 78-83.
Steven Bird, Ewan Klein und Edward Loper. 2009. Verarbeitung natürlicher Sprache mit Python (1. Aufl.). O'Reilly Media, Inc.
Eneko Agirre und Aitor Soroa. 2009. PageRank für Wortgefühl personalisieren. Proceedings der 12. Konferenz des Europäischen Kapitels des Vereins für Computational Linguistics (EACL-2009). Athen, Griechenland.