
Wikipedia2Vec est un outil utilisé pour obtenir des intégres (ou des représentations vectorielles) de mots et d'entités (c'est-à-dire des concepts qui ont des pages correspondantes dans Wikipedia) de Wikipedia. Il est développé et maintenu par Studio Oousia.
Cet outil vous permet d'apprendre simultanément des intégres de mots et d'entités, et place des mots et des entités similaires proches les uns des autres dans un espace vectoriel continu. Les intégres peuvent être facilement formés par une seule commande avec un vidage Wikipedia accessible au public en entrée.
Cet outil met en œuvre le modèle de saut-gramme conventionnel pour apprendre les intérêts des mots, et son extension proposée dans Yamada et al. (2016) pour apprendre les intérêts d'entités.
Une comparaison empirique entre Wikipedia2VEC et les outils d'incorporation existante (c.-à-d. FastText, Gensim, RDF2VEC et Wiki2Vec) est disponible ici.
La documentation est disponible en ligne sur http://wikipedia2ve.github.io/.
Wikipedia2Vec peut être installé via PYPI:
% pip install wikipedia2vecAvec cet outil, les intégres peuvent être apprises en exécutant une commande de train avec un vidage Wikipedia comme entrée. Par exemple, les commandes suivantes téléchargent le dernier décharge et apprentissage de Wikipedia anglais à partir de ce dépotoir:
% wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
% wikipedia2vec train enwiki-latest-pages-articles.xml.bz2 MODEL_FILEEnsuite, les incorporations apprises sont écrites sur Model_file . Notez que cette commande peut prendre de nombreux paramètres facultatifs. Veuillez vous référer à notre documentation pour plus de détails.
Des intégres pré-entraînés pour 12 langues (c.-à-d. En anglais, arabe, chinois, néerlandais, français, allemand, italien, japonais, polonais, portugais, russe et espagnol) peuvent être téléchargés à partir de cette page.
Wikipedia2Vec a été appliqué aux tâches suivantes:
Si vous utilisez Wikipedia2Vec dans une publication scientifique, veuillez citer l'article suivant:
Ikuya Yamada, Akari Asai, Jin Sakuma, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji, Yuji Matsumoto, Wikipedia2vec: une boîte à outils efficace pour apprendre et visualiser les incorporations de mots et d'entités de Wikipedia.
@inproceedings{yamada2020wikipedia2vec,
title = "{W}ikipedia2{V}ec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from {W}ikipedia",
author={Yamada, Ikuya and Asai, Akari and Sakuma, Jin and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu and Matsumoto, Yuji},
booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations},
year = {2020},
publisher = {Association for Computational Linguistics},
pages = {23--30}
}
Le modèle d'incorporation a été initialement proposé dans l'article suivant:
Ikuya Yamada, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji, apprentissage conjoint de l'incorporation de mots et d'entités pour la désambiguïsation de l'entité nommée.
@inproceedings{yamada2016joint,
title={Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation},
author={Yamada, Ikuya and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu},
booktitle={Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning},
year={2016},
publisher={Association for Computational Linguistics},
pages={250--259}
}
Le modèle de classification de texte implémenté dans cet exemple a été proposé dans l'article suivant:
Ikuya Yamada, Hiroyuki Shindo, modèle de sac d'entretien attentif neural pour la classification du texte.
@article{yamada2019neural,
title={Neural Attentive Bag-of-Entities Model for Text Classification},
author={Yamada, Ikuya and Shindo, Hiroyuki},
booktitle={Proceedings of The 23th SIGNLL Conference on Computational Natural Language Learning},
year={2019},
publisher={Association for Computational Linguistics},
pages = {563--573}
}
Licence Apache 2.0