
Wikipedia2Vec هي أداة تستخدم للحصول على تضمينات (أو تمثيلات المتجهات) للكلمات والكيانات (أي المفاهيم التي لها صفحات مقابلة في ويكيبيديا) من ويكيبيديا. تم تطويره وصيانته بواسطة Studio Ousia.
تمكنك هذه الأداة من تعلم تضمينات الكلمات والكيانات في وقت واحد ، وتضع كلمات وكيانات مماثلة قريبة من بعضها البعض في مساحة متجه مستمر. يمكن تدريب التضمينات بسهولة من خلال أمر واحد مع تفريغ ويكيبيديا متاح للجمهور كمدخلات.
تنفذ هذه الأداة نموذج SKIP-Gram التقليدي لتعلم تضمينات الكلمات ، وتمديدها المقترح في Yamada et al. (2016) لتعلم تضمينات الكيانات.
تتوفر هنا مقارنة تجريبية بين Wikipedia2Vec وأدوات التضمين الحالية (أي FastText و Gensim و RDF2Vec و Wiki2Vec).
تتوفر الوثائق عبر الإنترنت على الموقع http://wikipedia2vec.github.io/.
يمكن تثبيت Wikipedia2Vec عبر PYPI:
% pip install wikipedia2vecمع هذه الأداة ، يمكن تعلم التضمينات عن طريق تشغيل أمر قطار باستخدام تفريغ ويكيبيديا كمدخلات. على سبيل المثال ، تنزيل الأوامر التالية أحدث تفريغ ويكيبيديا الإنجليزية وتعلم التضمينات من هذا التفريغ:
% wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
% wikipedia2vec train enwiki-latest-pages-articles.xml.bz2 MODEL_FILEثم ، تتم كتابة التضمينات المستفادة إلى Model_file . لاحظ أن هذا الأمر يمكن أن يأخذ العديد من المعلمات الاختيارية. يرجى الرجوع إلى وثائقنا لمزيد من التفاصيل.
يمكن تنزيل التضمينات المسبقة لـ 12 لغة (أي اللغة الإنجليزية والعربية والصينية والهولندية والفرنسية والألمانية والإيطالية واليابانية والبولندية والبرتغالية والروسية والإسبانية) من هذه الصفحة.
تم تطبيق Wikipedia2vec على المهام التالية:
إذا كنت تستخدم Wikipedia2Vec في منشور علمي ، فيرجى الاستشهاد بالورقة التالية:
Ikuya Yamada ، Akari Asai ، Jin Sakuma ، Hiroyuki Shindo ، Hideaki Takeda ، Yoshiyasu takefuji ، Yuji Matsumoto ، Wikipedia2Vec: مجموعة أدوات فعالة للتعلم وتصور الكلمات والكيانات من ويكيبيديا.
@inproceedings{yamada2020wikipedia2vec,
title = "{W}ikipedia2{V}ec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from {W}ikipedia",
author={Yamada, Ikuya and Asai, Akari and Sakuma, Jin and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu and Matsumoto, Yuji},
booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations},
year = {2020},
publisher = {Association for Computational Linguistics},
pages = {23--30}
}
تم اقتراح نموذج التضمين في الأصل في الورقة التالية:
Ikuya Yamada ، Hiroyuki Shindo ، Hideaki Takeda ، Yoshiyasu takefuji ، التعلم المشترك لتضمين الكلمات والكيانات في الغموض الكيان المسماة.
@inproceedings{yamada2016joint,
title={Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation},
author={Yamada, Ikuya and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu},
booktitle={Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning},
year={2016},
publisher={Association for Computational Linguistics},
pages={250--259}
}
تم اقتراح نموذج تصنيف النص الذي تم تنفيذه في هذا المثال في الورقة التالية:
Ikuya Yamada ، Hiroyuki Shindo ، نموذج حقيبة من اليقظة العصبية لتصنيف النص.
@article{yamada2019neural,
title={Neural Attentive Bag-of-Entities Model for Text Classification},
author={Yamada, Ikuya and Shindo, Hiroyuki},
booktitle={Proceedings of The 23th SIGNLL Conference on Computational Natural Language Learning},
year={2019},
publisher={Association for Computational Linguistics},
pages = {563--573}
}
ترخيص Apache 2.0