Unduh wikipedia2vec - Unduh Kode Sumber wikipedia2vec

wikipedia2vec

Kode sumber lainnya

v2.0.0

Unduh

Wikipedia2vec

tes

Wikipedia2vec adalah alat yang digunakan untuk mendapatkan embeddings (atau representasi vektor) dari kata -kata dan entitas (yaitu, konsep yang memiliki halaman yang sesuai di Wikipedia) dari Wikipedia. Ini dikembangkan dan dikelola oleh Studio Ousia.

Alat ini memungkinkan Anda untuk mempelajari embedding kata dan entitas secara bersamaan, dan menempatkan kata -kata dan entitas serupa yang dekat satu sama lain dalam ruang vektor yang berkelanjutan. Embeddings dapat dengan mudah dilatih dengan satu perintah dengan dump wikipedia yang tersedia untuk umum sebagai input.

Alat ini mengimplementasikan model skip-gram konvensional untuk mempelajari embedding kata, dan ekstensi yang diusulkan dalam Yamada et al. (2016) untuk mempelajari embedding entitas.

Perbandingan empiris antara Wikipedia2Vec dan alat embedding yang ada (yaitu, FastText, GensiM, RDF2VEC, dan Wiki2Vec) tersedia di sini.

Dokumentasi tersedia online di http://wikipedia2vec.github.io/.

Penggunaan dasar

Wikipedia2vec dapat diinstal melalui pypi:

% pip install wikipedia2vec

Dengan alat ini, embeddings dapat dipelajari dengan menjalankan perintah kereta dengan dump wikipedia sebagai input. Misalnya, perintah berikut mengunduh dump wikipedia bahasa Inggris terbaru dan belajar embeddings dari dump ini:

% wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
% wikipedia2vec train enwiki-latest-pages-articles.xml.bz2 MODEL_FILE

Kemudian, embeddings yang dipelajari ditulis ke model_file . Perhatikan bahwa perintah ini dapat mengambil banyak parameter opsional. Silakan merujuk ke dokumentasi kami untuk perincian lebih lanjut.

Embeddings pretrained

Embeddings pretrained untuk 12 bahasa (yaitu, Inggris, Arab, Cina, Belanda, Prancis, Jerman, Italia, Jepang, Polandia, Portugis, Rusia, dan Spanyol) dapat diunduh dari halaman ini.

Menggunakan kasus

Wikipedia2vec telah diterapkan pada tugas -tugas berikut:

Linking Entitas: Yamada et al., 2016, Eshel et al., 2017, Chen et al., 2019, Poerner et al., 2020, van Hulst et al., 2020.
Bernama Pengakuan Entitas: Sato et al., 2017, Lara-Clares dan Garcia-Serrano, 2019.
Jawaban Pertanyaan: Yamada et al., 2017, Poerner et al., 2020.
Pengetikan Entitas: Yamada et al., 2018.
Klasifikasi Teks: Yamada et al., 2018, Yamada dan Shindo, 2019, Alam et al., 2020.
Klasifikasi Relasi: Poerner et al., 2020.
Deteksi parafrase: Duong et al., 2018.
Penyelesaian Grafik Pengetahuan: Shah et al., 2019, Shah et al., 2020.
Deteksi berita palsu: Singh et al., 2019, Ghosal et al., 2020.
Analisis Plot Film: Papalampidi et al., 2019.
Penemuan Entitas Novel: Zhang et al., 2020.
Pengambilan Entitas: Gerritse et al., 2020.
Deteksi Deepfake: Zhong et al., 2020.
Pencarian Informasi Percakapan: Rodriguez et al., 2020.
Perluasan kueri: Rosin et al., 2020.

Referensi

Jika Anda menggunakan wikipedia2vec dalam publikasi ilmiah, silakan kutip makalah berikut:

Ikuya Yamada, Akari Asai, Jin Sakuma, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji, Yuji Matsumoto, Wikipedia2Vec: alat yang efisien untuk belajar dan memvisualisasikan embedding kata -kata dan entitas dari wikipedi.

 @inproceedings{yamada2020wikipedia2vec,
  title = "{W}ikipedia2{V}ec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from {W}ikipedia",
  author={Yamada, Ikuya and Asai, Akari and Sakuma, Jin and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu and Matsumoto, Yuji},
  booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations},
  year = {2020},
  publisher = {Association for Computational Linguistics},
  pages = {23--30}
}

Model embedding awalnya diusulkan dalam makalah berikut:

Ikuya Yamada, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji, pembelajaran bersama tentang penyematan kata -kata dan entitas untuk disambiguasi entitas yang disebutkan.

 @inproceedings{yamada2016joint,
  title={Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation},
  author={Yamada, Ikuya and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu},
  booktitle={Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning},
  year={2016},
  publisher={Association for Computational Linguistics},
  pages={250--259}
}

Model klasifikasi teks yang diimplementasikan dalam contoh ini diusulkan dalam makalah berikut:

Ikuya Yamada, Hiroyuki Shindo, model neural-wasity Bag-of-Enentities untuk klasifikasi teks.

 @article{yamada2019neural,
  title={Neural Attentive Bag-of-Entities Model for Text Classification},
  author={Yamada, Ikuya and Shindo, Hiroyuki},
  booktitle={Proceedings of The 23th SIGNLL Conference on Computational Natural Language Learning},
  year={2019},
  publisher={Association for Computational Linguistics},
  pages = {563--573}
}

Lisensi

Lisensi Apache 2.0

Memperluas

Informasi Tambahan

Versi v2.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-18
ukuran 747.51KB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua