wikipedia2vec Download - wikipedia2vec Quellcode Download

wikipedia2vec

Anderer Quellcode

v2.0.0

Herunterladen

Wikipedia2Vec

Tests

Wikipedia2VEC ist ein Werkzeug, mit dem Ausbettungen (oder Vektordarstellungen) von Wörtern und Entitäten (dh Konzepte mit entsprechenden Seiten in Wikipedia) aus Wikipedia erhalten werden. Es wurde von Studio Ousia entwickelt und aufrechterhalten.

Mit diesem Tool können Sie gleichzeitig Einbettungen von Wörtern und Entitäten lernen und in einem kontinuierlichen Vektorraum ähnliche Wörter und Entitäten nahe beieinander platzieren. Einbettungen können leicht durch einen einzigen Befehl mit einem öffentlich verfügbaren Wikipedia -Dump als Eingabe geschult werden.

Dieses Tool implementiert das herkömmliche Skip-Gramm-Modell, um die Einbettungen von Wörtern und seine Erweiterung in Yamada et al. (2016) die Einbettungen von Entitäten zu lernen.

Ein empirischer Vergleich zwischen Wikipedia2VEC und vorhandenen Einbettungswerkzeugen (dh FastText, Gensim, RDF2VEC und Wiki2VEC) ist hier verfügbar.

Die Dokumentation finden Sie online unter http://wikipedia2vec.github.io/.

Grundnutzung

Wikipedia2VEC kann über PYPI installiert werden:

% pip install wikipedia2vec

Mit diesem Tool können Einbettungen gelernt werden, indem ein Zugbefehl mit einem Wikipedia -Dump als Eingabe ausgeführt wird. Die folgenden Befehle laden beispielsweise den neuesten englischen Wikipedia -Dump herunter und lernen Einbettungen aus dieser Dump:

% wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
% wikipedia2vec train enwiki-latest-pages-articles.xml.bz2 MODEL_FILE

Anschließend werden die gelehrten Einbettungen in model_file geschrieben. Beachten Sie, dass dieser Befehl viele optionale Parameter annehmen kann. Weitere Informationen finden Sie in unserer Dokumentation.

Vorbereitete Einbettungen

Vorbereitete Einbettungen für 12 Sprachen (dh Englisch, Arabisch, Chinesisch, Niederländisch, Französisch, Deutsch, Italienisch, Japanisch, Polnisch, Portugiesisch, Russisch und Spanisch) können von dieser Seite heruntergeladen werden.

Anwendungsfälle

Wikipedia2VEC wurde auf die folgenden Aufgaben angewendet:

Entitätsverbindung: Yamada et al., 2016, Eshel et al., 2017, Chen et al., 2019, Poerner et al., 2020, Van Hulst et al., 2020.
Bezeichnung der Entitätserkennung: Sato et al., 2017, Lara-Clares und Garcia-Serrano, 2019.
Frage Beantwortung: Yamada et al., 2017, Poerner et al., 2020.
Entität Typisierung: Yamada et al., 2018.
Textklassifizierung: Yamada et al., 2018, Yamada und Shindo, 2019, Alam et al., 2020.
Beziehungklassifizierung: Poerner et al., 2020.
Paraphrase -Erkennung: Duong et al., 2018.
Fertigstellung des Wissensgrafiks: Shah et al., 2019, Shah et al., 2020.
Gefälschte Nachrichtenerkennung: Singh et al., 2019, Ghosal et al., 2020.
Plot -Analyse von Filmen: Papalampidi et al., 2019.
Neuartige Entität Entdeckung: Zhang et al., 2020.
Entitätsabruf: Gerritse et al., 2020.
DeepFake -Erkennung: Zhong et al., 2020.
Konversationsinformationen suchen: Rodriguez et al., 2020.
Abfrageerweiterung: Rosin et al., 2020.

Referenzen

Wenn Sie Wikipedia2VEC in einer wissenschaftlichen Veröffentlichung verwenden, geben Sie bitte das folgende Papier an:

Ikuya Yamada, Akari Asai, Jin Sakuma, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji, Yuji Matsumoto, Wikipedia2Vec: Ein effizientes Toolkit zum Lernen und Visualisierung der Einbettungen von Wörtern und Entitäten von Wörtern aus Wikipien aus Wikipien aus Wikipedien.

 @inproceedings{yamada2020wikipedia2vec,
  title = "{W}ikipedia2{V}ec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from {W}ikipedia",
  author={Yamada, Ikuya and Asai, Akari and Sakuma, Jin and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu and Matsumoto, Yuji},
  booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations},
  year = {2020},
  publisher = {Association for Computational Linguistics},
  pages = {23--30}
}

Das Einbettungsmodell wurde ursprünglich im folgenden Papier vorgeschlagen:

Ikuya Yamada, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji, gemeinsames Erlernen der Einbettung von Wörtern und Entitäten für die namens Disambiguation.

 @inproceedings{yamada2016joint,
  title={Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation},
  author={Yamada, Ikuya and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu},
  booktitle={Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning},
  year={2016},
  publisher={Association for Computational Linguistics},
  pages={250--259}
}

Das in diesem Beispiel implementierte Textklassifizierungsmodell wurde in der folgenden Arbeit vorgeschlagen:

Ikuya Yamada, Hiroyuki Shindo, neuronale aufmerksame Tasche der Entfernung für die Textklassifizierung.

 @article{yamada2019neural,
  title={Neural Attentive Bag-of-Entities Model for Text Classification},
  author={Yamada, Ikuya and Shindo, Hiroyuki},
  booktitle={Proceedings of The 23th SIGNLL Conference on Computational Natural Language Learning},
  year={2019},
  publisher={Association for Computational Linguistics},
  pages = {563--573}
}