Téléchargement wikipedia2vec - Téléchargement du code source wikipedia2vec

wikipedia2vec

Autre code source

v2.0.0

Télécharger

Wikipedia2vec

tests

Wikipedia2Vec est un outil utilisé pour obtenir des intégres (ou des représentations vectorielles) de mots et d'entités (c'est-à-dire des concepts qui ont des pages correspondantes dans Wikipedia) de Wikipedia. Il est développé et maintenu par Studio Oousia.

Cet outil vous permet d'apprendre simultanément des intégres de mots et d'entités, et place des mots et des entités similaires proches les uns des autres dans un espace vectoriel continu. Les intégres peuvent être facilement formés par une seule commande avec un vidage Wikipedia accessible au public en entrée.

Cet outil met en œuvre le modèle de saut-gramme conventionnel pour apprendre les intérêts des mots, et son extension proposée dans Yamada et al. (2016) pour apprendre les intérêts d'entités.

Une comparaison empirique entre Wikipedia2VEC et les outils d'incorporation existante (c.-à-d. FastText, Gensim, RDF2VEC et Wiki2Vec) est disponible ici.

La documentation est disponible en ligne sur http://wikipedia2ve.github.io/.

Utilisation de base

Wikipedia2Vec peut être installé via PYPI:

% pip install wikipedia2vec

Avec cet outil, les intégres peuvent être apprises en exécutant une commande de train avec un vidage Wikipedia comme entrée. Par exemple, les commandes suivantes téléchargent le dernier décharge et apprentissage de Wikipedia anglais à partir de ce dépotoir:

% wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
% wikipedia2vec train enwiki-latest-pages-articles.xml.bz2 MODEL_FILE

Ensuite, les incorporations apprises sont écrites sur Model_file . Notez que cette commande peut prendre de nombreux paramètres facultatifs. Veuillez vous référer à notre documentation pour plus de détails.

Incorporation pré-entraînée

Des intégres pré-entraînés pour 12 langues (c.-à-d. En anglais, arabe, chinois, néerlandais, français, allemand, italien, japonais, polonais, portugais, russe et espagnol) peuvent être téléchargés à partir de cette page.

Cas d'utilisation

Wikipedia2Vec a été appliqué aux tâches suivantes:

Entité Linking: Yamada et al., 2016, Eshel et al., 2017, Chen et al., 2019, Poerner et al., 2020, Van Hulst et al., 2020.
Nommé la reconnaissance de l'entité: Sato et al., 2017, Lara-Clares et Garcia-Serrano, 2019.
Question Répondre: Yamada et al., 2017, Poerner et al., 2020.
Typage des entités: Yamada et al., 2018.
Classification du texte: Yamada et al., 2018, Yamada et Shindo, 2019, Alam et al., 2020.
Classification des relations: Poerner et al., 2020.
Détection de paraphrase: Duong et al., 2018.
Achèvement des graphiques de connaissances: Shah et al., 2019, Shah et al., 2020.
Détection de fausses nouvelles: Singh et al., 2019, Ghosal et al., 2020.
Analyse des films: Papalampidi et al., 2019.
Nouvelle découverte d'entités: Zhang et al., 2020.
Retriel entité: Gerritse et al., 2020.
Détection profonde de Fake: Zhong et al., 2020.
Recherche d'informations conversationnelles: Rodriguez et al., 2020.
Expansion de la requête: Rosin et al., 2020.

Références

Si vous utilisez Wikipedia2Vec dans une publication scientifique, veuillez citer l'article suivant:

Ikuya Yamada, Akari Asai, Jin Sakuma, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji, Yuji Matsumoto, Wikipedia2vec: une boîte à outils efficace pour apprendre et visualiser les incorporations de mots et d'entités de Wikipedia.

 @inproceedings{yamada2020wikipedia2vec,
  title = "{W}ikipedia2{V}ec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from {W}ikipedia",
  author={Yamada, Ikuya and Asai, Akari and Sakuma, Jin and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu and Matsumoto, Yuji},
  booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations},
  year = {2020},
  publisher = {Association for Computational Linguistics},
  pages = {23--30}
}

Le modèle d'incorporation a été initialement proposé dans l'article suivant:

Ikuya Yamada, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji, apprentissage conjoint de l'incorporation de mots et d'entités pour la désambiguïsation de l'entité nommée.

 @inproceedings{yamada2016joint,
  title={Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation},
  author={Yamada, Ikuya and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu},
  booktitle={Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning},
  year={2016},
  publisher={Association for Computational Linguistics},
  pages={250--259}
}

Le modèle de classification de texte implémenté dans cet exemple a été proposé dans l'article suivant:

Ikuya Yamada, Hiroyuki Shindo, modèle de sac d'entretien attentif neural pour la classification du texte.

 @article{yamada2019neural,
  title={Neural Attentive Bag-of-Entities Model for Text Classification},
  author={Yamada, Ikuya and Shindo, Hiroyuki},
  booktitle={Proceedings of The 23th SIGNLL Conference on Computational Natural Language Learning},
  year={2019},
  publisher={Association for Computational Linguistics},
  pages = {563--573}
}

Licence

Licence Apache 2.0

Développer

Informations supplémentaires

Version v2.0.0
Type Autre code source
Date de mise à jour 2025-04-18
taille 747.51KB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout