
Wikipedia2vec เป็นเครื่องมือที่ใช้ในการรับ embeddings (หรือการแสดงเวกเตอร์) ของคำและเอนทิตี (เช่นแนวคิดที่มีหน้าเว็บที่สอดคล้องกันในวิกิพีเดีย) จากวิกิพีเดีย มันได้รับการพัฒนาและดูแลโดย Studio Ousia
เครื่องมือนี้ช่วยให้คุณสามารถเรียนรู้การฝังคำและเอนทิตีพร้อมกันและวางคำและเอนทิตีที่คล้ายกันใกล้กันในพื้นที่เวกเตอร์ต่อเนื่อง Embeddings สามารถฝึกได้อย่างง่ายดายด้วยคำสั่งเดียวที่มีการถ่ายโอนข้อมูลวิกิพีเดียที่เปิดเผยต่อสาธารณะเป็นอินพุต
เครื่องมือนี้ใช้โมเดล Skip-Gram ทั่วไปเพื่อเรียนรู้การฝังคำและส่วนขยายที่เสนอใน Yamada และคณะ (2016) เพื่อเรียนรู้การฝังตัวของหน่วยงาน
การเปรียบเทียบเชิงประจักษ์ระหว่าง Wikipedia2vec และเครื่องมือฝังที่มีอยู่ (เช่น fasttext, gensim, rdf2vec และ wiki2vec) มีให้ที่นี่
เอกสารมีให้ออนไลน์ที่ http://wikipedia2vec.github.io/
Wikipedia2vec สามารถติดตั้งผ่าน PYPI:
% pip install wikipedia2vecด้วยเครื่องมือนี้การฝังตัวสามารถเรียนรู้ได้โดยใช้คำสั่ง รถไฟ ด้วยการถ่ายโอนข้อมูลวิกิพีเดียเป็นอินพุต ตัวอย่างเช่นคำสั่งต่อไปนี้ดาวน์โหลดการถ่ายโอนข้อมูลวิกิพีเดียภาษาอังกฤษล่าสุดและเรียนรู้การฝังตัวจากการถ่ายโอนข้อมูลนี้:
% wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
% wikipedia2vec train enwiki-latest-pages-articles.xml.bz2 MODEL_FILEจากนั้นการฝังตัวที่เรียนรู้จะถูกเขียนไปยัง model_file โปรดทราบว่าคำสั่งนี้สามารถใช้พารามิเตอร์ทางเลือกมากมาย โปรดดูเอกสารของเราสำหรับรายละเอียดเพิ่มเติม
embeddings pretrained สำหรับ 12 ภาษา (เช่นอังกฤษ, อาหรับ, จีน, ดัตช์, ฝรั่งเศส, เยอรมัน, อิตาลี, ญี่ปุ่น, โปแลนด์, โปรตุเกส, รัสเซียและสเปน) สามารถดาวน์โหลดได้จากหน้านี้
Wikipedia2vec ถูกนำไปใช้กับงานต่อไปนี้:
หากคุณใช้ wikipedia2vec ในสิ่งพิมพ์ทางวิทยาศาสตร์โปรดอ้างอิงเอกสารต่อไปนี้:
Ikuya Yamada, Akari Asai, Jin Sakuma, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji, Yuji Matsumoto, Wikipedia2Vec: เครื่องมือที่มีประสิทธิภาพสำหรับการเรียนรู้
@inproceedings{yamada2020wikipedia2vec,
title = "{W}ikipedia2{V}ec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from {W}ikipedia",
author={Yamada, Ikuya and Asai, Akari and Sakuma, Jin and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu and Matsumoto, Yuji},
booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations},
year = {2020},
publisher = {Association for Computational Linguistics},
pages = {23--30}
}
แบบจำลองการฝังถูกเสนอเดิมในกระดาษต่อไปนี้:
Ikuya Yamada, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji, การเรียนรู้ร่วมกันเกี่ยวกับการฝังคำและเอนทิตีสำหรับนิติบุคคลที่ไม่น่าเชื่อ
@inproceedings{yamada2016joint,
title={Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation},
author={Yamada, Ikuya and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu},
booktitle={Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning},
year={2016},
publisher={Association for Computational Linguistics},
pages={250--259}
}
รูปแบบการจำแนกประเภทข้อความที่นำมาใช้ในตัวอย่างนี้ถูกเสนอในบทความต่อไปนี้:
Ikuya Yamada, Hiroyuki Shindo, โมเดลถุงประสาทที่ใส่ใจในระบบประสาทสำหรับการจำแนกประเภทข้อความ
@article{yamada2019neural,
title={Neural Attentive Bag-of-Entities Model for Text Classification},
author={Yamada, Ikuya and Shindo, Hiroyuki},
booktitle={Proceedings of The 23th SIGNLL Conference on Computational Natural Language Learning},
year={2019},
publisher={Association for Computational Linguistics},
pages = {563--573}
}
ใบอนุญาต Apache 2.0