pywsd Téléchargement - Téléchargement du code source pywsd

pywsd

Autre code source

1.0.0

Télécharger

pywsd

Implémentations Python des technologies de désambiguïsation des mots (WSD):

Algorithmes EK
- Lesk original (Lesk, 1986)
- Lesk adapté / étendu (Banerjee et Pederson, 2002/2003)
- Lesk simples (avec définition, exemple (s) et hyper + hyponymes)
- Cosinus Lesk (utilisez des cosinus pour calculer les chevauchements au lieu d'utiliser des comptes bruts)
Maximiser la similitude (voir également Pedersen et al. (2003))
- Similitude de chemin (Wu-Palmer, 1994; Leacock et Chodorow, 1998)
- Contenu de l'information (Resnik, 1995; Jiang et Corath, 1997; Lin, 1998)

Référence
- Sens aléatoire
- Premier sens NLTK
- Le plus élevé du lemme compte

Remarque : PYWSD prend en charge uniquement Python 3 ( pywsd>=1.2.0 ). Si vous utilisez Python 2, la dernière version possible est pywsd==1.1.7 .

Installer

 pip install -U nltk
python -m nltk.downloader 'popular'
pip install -U pywsd

Usage

$ python
> >> from pywsd . lesk import simple_lesk
> >> sent = 'I went to the bank to deposit my money'
> >> ambiguous = 'bank'
> >> answer = simple_lesk ( sent , ambiguous , pos = 'n' )
> >> print answer
Synset ( 'depository_financial_institution.n.01' )
> >> print answer . definition ()
'a financial institution that accepts deposits and channels the money into lending activities'

Pour le WSD de tout-mot, essayez:

 > >> from pywsd import disambiguate
> >> from pywsd . similarity import max_similarity as maxsim
> >> disambiguate ( 'I went to the bank to deposit my money' )
[( 'I' , None ), ( 'went' , Synset ( 'run_low.v.01' )), ( 'to' , None ), ( 'the' , None ), ( 'bank' , Synset ( 'depository_financial_institution.n.01' )), ( 'to' , None ), ( 'deposit' , Synset ( 'deposit.v.02' )), ( 'my' , None ), ( 'money' , Synset ( 'money.n.03' ))]
> >> disambiguate ( 'I went to the bank to deposit my money' , algorithm = maxsim , similarity_option = 'wup' , keepLemmas = True )
[( 'I' , 'i' , None ), ( 'went' , u'go' , Synset ( 'sound.v.02' )), ( 'to' , 'to' , None ), ( 'the' , 'the' , None ), ( 'bank' , 'bank' , Synset ( 'bank.n.06' )), ( 'to' , 'to' , None ), ( 'deposit' , 'deposit' , Synset ( 'deposit.v.02' )), ( 'my' , 'my' , None ), ( 'money' , 'money' , Synset ( 'money.n.01' ))]

Pour lire les signatures pré-calculées par synSset:

 > >> from pywsd . lesk import cached_signatures
> >> cached_signatures [ 'dog.n.01' ][ 'simple' ]
set ([ u'canid' , u'belgian_griffon' , u'breed' , u'barker' , ... , u'genus' , u'newfoundland' ])
> >> cached_signatures [ 'dog.n.01' ][ 'adapted' ]
set ([ u'canid' , u'belgian_griffon' , u'breed' , u'leonberg' , ... , u'newfoundland' , u'pack' ])

> >> from nltk . corpus import wordnet as wn
> >> wn . synsets ( 'dog' )[ 0 ]
Synset ( 'dog.n.01' )
> >> dog = wn . synsets ( 'dog' )[ 0 ]
> >> dog . name ()
u'dog.n.01'
> >> cached_signatures [ dog . name ()][ 'simple' ]
set ([ u'canid' , u'belgian_griffon' , u'breed' , u'barker' , ... , u'genus' , u'newfoundland' ])

Citer

Pour citer pywsd :

Bronzage liant. 2014. PYWSD: Implémentations Python des technologies de désambiguïsation des mots (WSD) [logiciel]. Extrait de https://github.com/alvations/pywsd

Dans bibtex :

 @misc{pywsd14,
author =   {Liling Tan},
title =    {Pywsd: Python Implementations of Word Sense Disambiguation (WSD) Technologies [software]},
howpublished = {https://github.com/alvations/pywsd},
year = {2014}
}

Références

Michael Lesk. 1986. Désambiguation du sens automatique à l'aide de dictionnaires lisibles par la machine: comment dire un cône de pin à partir d'un cône de crème glacée. Dans les actes de la 5e conférence internationale annuelle sur la documentation des systèmes (Sigdoc '86), Virginia Debuys (éd.). ACM, New York, NY, États-Unis, 24-26. Doi = 10.1145 / 318723.318728 http://doi.acm.org/10.1145/318723.318728
Satanjeev Banerjee et Ted Pedersen. 2002. Un algorithme de lesk adapté pour la désambiguïsation du sens des mots à l'aide de WordNet. Dans les actes de la troisième conférence internationale sur la linguistique informatique et le traitement intelligent du texte (Cicling '02), Alexander F. Gelbukh (éd.). Springer-Verlag, Londres, Royaume-Uni, Royaume-Uni, 136-145.
Satanjeev Banerjee et Ted Pedersen. 2003. Le brillant étendu se chevauche comme mesure de la parenté sémantique. Dans les actes de la dix-huitième conférence conjointe internationale sur l'intelligence artificielle, pages 805–810, Acapulco.
Jay J. Jiang et David W. Conrath. 1997. Similité sémantique basée sur les statistiques du corpus et la taxonomie lexicale. Dans les actes de la Conférence internationale sur la recherche en linguistique informatique, Taïwan.
Claudia Leacock et Martin Chodorow. 1998. Combinaison du contexte local et de la similitude WordNet pour l'identification du sens des mots. Dans Fellbaum 1998, pp. 265-283.
Lee, Yoong Keok, Hwee Tou ng et Tee Kiah Chia. "La désambiguïté du sens des mots supervisé avec des machines vectorielles de support et plusieurs sources de connaissances." SenseVal-3: Troisième atelier international sur l'évaluation des systèmes pour l'analyse sémantique du texte. 2004.
Dekang Lin. 1998. Une définition théorique de l'information de la similitude. Dans les actes de la 15e Conférence internationale sur l'apprentissage automatique, Madison, WI.
Linlin Li, Benjamin Roth et Caroline Sporleder. 2010. Modèles de sujet pour la désambiguïsation des mots et la détection de l'idiome basée sur les jetons. La 48e réunion annuelle de l'Association for Computational Linguistics (LCA). Uppsala, Suède.
Andrea Moro, Roberto Navigli, Francesco Maria Tucci et Rebecca J. Passonneau. 2014. Annotation du Masc Corpus avec Babelnet. Dans les actes de la neuvième conférence internationale sur les ressources linguistiques et l'évaluation (LREC'14). Reykjavik, Islande.
Zhi Zhong et Hwee Tou ng. 2010. Il a du sens: un système de désambiguïsation de sens des mots à large couverture pour le texte libre. Dans les actes des démonstrations du système ACL 2010 (ACLDEMOS '10). Association for Computational Linguistics, Stroudsburg, PA, États-Unis, 78-83.
Steven Bird, Ewan Klein et Edward Loper. 2009. Traitement du langage naturel avec Python (1ère éd.). O'Reilly Media, Inc ..
Eneko Agirre et Aitor Soroa. 2009. Personnalisation du pagerank pour la désambiguïsation du sens des mots. Actes de la 12e conférence du chapitre européen de l'Association de linguistique informatique (EACL-2009). Athènes, Grèce.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-04-16
taille 26.06MB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout