
Wikipedia2vec adalah alat yang digunakan untuk mendapatkan embeddings (atau representasi vektor) dari kata -kata dan entitas (yaitu, konsep yang memiliki halaman yang sesuai di Wikipedia) dari Wikipedia. Ini dikembangkan dan dikelola oleh Studio Ousia.
Alat ini memungkinkan Anda untuk mempelajari embedding kata dan entitas secara bersamaan, dan menempatkan kata -kata dan entitas serupa yang dekat satu sama lain dalam ruang vektor yang berkelanjutan. Embeddings dapat dengan mudah dilatih dengan satu perintah dengan dump wikipedia yang tersedia untuk umum sebagai input.
Alat ini mengimplementasikan model skip-gram konvensional untuk mempelajari embedding kata, dan ekstensi yang diusulkan dalam Yamada et al. (2016) untuk mempelajari embedding entitas.
Perbandingan empiris antara Wikipedia2Vec dan alat embedding yang ada (yaitu, FastText, GensiM, RDF2VEC, dan Wiki2Vec) tersedia di sini.
Dokumentasi tersedia online di http://wikipedia2vec.github.io/.
Wikipedia2vec dapat diinstal melalui pypi:
% pip install wikipedia2vecDengan alat ini, embeddings dapat dipelajari dengan menjalankan perintah kereta dengan dump wikipedia sebagai input. Misalnya, perintah berikut mengunduh dump wikipedia bahasa Inggris terbaru dan belajar embeddings dari dump ini:
% wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
% wikipedia2vec train enwiki-latest-pages-articles.xml.bz2 MODEL_FILEKemudian, embeddings yang dipelajari ditulis ke model_file . Perhatikan bahwa perintah ini dapat mengambil banyak parameter opsional. Silakan merujuk ke dokumentasi kami untuk perincian lebih lanjut.
Embeddings pretrained untuk 12 bahasa (yaitu, Inggris, Arab, Cina, Belanda, Prancis, Jerman, Italia, Jepang, Polandia, Portugis, Rusia, dan Spanyol) dapat diunduh dari halaman ini.
Wikipedia2vec telah diterapkan pada tugas -tugas berikut:
Jika Anda menggunakan wikipedia2vec dalam publikasi ilmiah, silakan kutip makalah berikut:
Ikuya Yamada, Akari Asai, Jin Sakuma, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji, Yuji Matsumoto, Wikipedia2Vec: alat yang efisien untuk belajar dan memvisualisasikan embedding kata -kata dan entitas dari wikipedi.
@inproceedings{yamada2020wikipedia2vec,
title = "{W}ikipedia2{V}ec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from {W}ikipedia",
author={Yamada, Ikuya and Asai, Akari and Sakuma, Jin and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu and Matsumoto, Yuji},
booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations},
year = {2020},
publisher = {Association for Computational Linguistics},
pages = {23--30}
}
Model embedding awalnya diusulkan dalam makalah berikut:
Ikuya Yamada, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji, pembelajaran bersama tentang penyematan kata -kata dan entitas untuk disambiguasi entitas yang disebutkan.
@inproceedings{yamada2016joint,
title={Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation},
author={Yamada, Ikuya and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu},
booktitle={Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning},
year={2016},
publisher={Association for Computational Linguistics},
pages={250--259}
}
Model klasifikasi teks yang diimplementasikan dalam contoh ini diusulkan dalam makalah berikut:
Ikuya Yamada, Hiroyuki Shindo, model neural-wasity Bag-of-Enentities untuk klasifikasi teks.
@article{yamada2019neural,
title={Neural Attentive Bag-of-Entities Model for Text Classification},
author={Yamada, Ikuya and Shindo, Hiroyuki},
booktitle={Proceedings of The 23th SIGNLL Conference on Computational Natural Language Learning},
year={2019},
publisher={Association for Computational Linguistics},
pages = {563--573}
}
Lisensi Apache 2.0