
Wikipedia2VEC ist ein Werkzeug, mit dem Ausbettungen (oder Vektordarstellungen) von Wörtern und Entitäten (dh Konzepte mit entsprechenden Seiten in Wikipedia) aus Wikipedia erhalten werden. Es wurde von Studio Ousia entwickelt und aufrechterhalten.
Mit diesem Tool können Sie gleichzeitig Einbettungen von Wörtern und Entitäten lernen und in einem kontinuierlichen Vektorraum ähnliche Wörter und Entitäten nahe beieinander platzieren. Einbettungen können leicht durch einen einzigen Befehl mit einem öffentlich verfügbaren Wikipedia -Dump als Eingabe geschult werden.
Dieses Tool implementiert das herkömmliche Skip-Gramm-Modell, um die Einbettungen von Wörtern und seine Erweiterung in Yamada et al. (2016) die Einbettungen von Entitäten zu lernen.
Ein empirischer Vergleich zwischen Wikipedia2VEC und vorhandenen Einbettungswerkzeugen (dh FastText, Gensim, RDF2VEC und Wiki2VEC) ist hier verfügbar.
Die Dokumentation finden Sie online unter http://wikipedia2vec.github.io/.
Wikipedia2VEC kann über PYPI installiert werden:
% pip install wikipedia2vecMit diesem Tool können Einbettungen gelernt werden, indem ein Zugbefehl mit einem Wikipedia -Dump als Eingabe ausgeführt wird. Die folgenden Befehle laden beispielsweise den neuesten englischen Wikipedia -Dump herunter und lernen Einbettungen aus dieser Dump:
% wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
% wikipedia2vec train enwiki-latest-pages-articles.xml.bz2 MODEL_FILEAnschließend werden die gelehrten Einbettungen in model_file geschrieben. Beachten Sie, dass dieser Befehl viele optionale Parameter annehmen kann. Weitere Informationen finden Sie in unserer Dokumentation.
Vorbereitete Einbettungen für 12 Sprachen (dh Englisch, Arabisch, Chinesisch, Niederländisch, Französisch, Deutsch, Italienisch, Japanisch, Polnisch, Portugiesisch, Russisch und Spanisch) können von dieser Seite heruntergeladen werden.
Wikipedia2VEC wurde auf die folgenden Aufgaben angewendet:
Wenn Sie Wikipedia2VEC in einer wissenschaftlichen Veröffentlichung verwenden, geben Sie bitte das folgende Papier an:
Ikuya Yamada, Akari Asai, Jin Sakuma, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji, Yuji Matsumoto, Wikipedia2Vec: Ein effizientes Toolkit zum Lernen und Visualisierung der Einbettungen von Wörtern und Entitäten von Wörtern aus Wikipien aus Wikipien aus Wikipedien.
@inproceedings{yamada2020wikipedia2vec,
title = "{W}ikipedia2{V}ec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from {W}ikipedia",
author={Yamada, Ikuya and Asai, Akari and Sakuma, Jin and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu and Matsumoto, Yuji},
booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations},
year = {2020},
publisher = {Association for Computational Linguistics},
pages = {23--30}
}
Das Einbettungsmodell wurde ursprünglich im folgenden Papier vorgeschlagen:
Ikuya Yamada, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji, gemeinsames Erlernen der Einbettung von Wörtern und Entitäten für die namens Disambiguation.
@inproceedings{yamada2016joint,
title={Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation},
author={Yamada, Ikuya and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu},
booktitle={Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning},
year={2016},
publisher={Association for Computational Linguistics},
pages={250--259}
}
Das in diesem Beispiel implementierte Textklassifizierungsmodell wurde in der folgenden Arbeit vorgeschlagen:
Ikuya Yamada, Hiroyuki Shindo, neuronale aufmerksame Tasche der Entfernung für die Textklassifizierung.
@article{yamada2019neural,
title={Neural Attentive Bag-of-Entities Model for Text Classification},
author={Yamada, Ikuya and Shindo, Hiroyuki},
booktitle={Proceedings of The 23th SIGNLL Conference on Computational Natural Language Learning},
year={2019},
publisher={Association for Computational Linguistics},
pages = {563--573}
}
Apache -Lizenz 2.0