تنزيل wikipedia2vec - تنزيل رمز المصدر wikipedia2vec

wikipedia2vec

شفرة المصدر الأخرى

v2.0.0

تنزيل

ويكيبيديا 2VEC

الاختبارات

Wikipedia2Vec هي أداة تستخدم للحصول على تضمينات (أو تمثيلات المتجهات) للكلمات والكيانات (أي المفاهيم التي لها صفحات مقابلة في ويكيبيديا) من ويكيبيديا. تم تطويره وصيانته بواسطة Studio Ousia.

تمكنك هذه الأداة من تعلم تضمينات الكلمات والكيانات في وقت واحد ، وتضع كلمات وكيانات مماثلة قريبة من بعضها البعض في مساحة متجه مستمر. يمكن تدريب التضمينات بسهولة من خلال أمر واحد مع تفريغ ويكيبيديا متاح للجمهور كمدخلات.

تنفذ هذه الأداة نموذج SKIP-Gram التقليدي لتعلم تضمينات الكلمات ، وتمديدها المقترح في Yamada et al. (2016) لتعلم تضمينات الكيانات.

تتوفر هنا مقارنة تجريبية بين Wikipedia2Vec وأدوات التضمين الحالية (أي FastText و Gensim و RDF2Vec و Wiki2Vec).

تتوفر الوثائق عبر الإنترنت على الموقع http://wikipedia2vec.github.io/.

الاستخدام الأساسي

يمكن تثبيت Wikipedia2Vec عبر PYPI:

% pip install wikipedia2vec

مع هذه الأداة ، يمكن تعلم التضمينات عن طريق تشغيل أمر قطار باستخدام تفريغ ويكيبيديا كمدخلات. على سبيل المثال ، تنزيل الأوامر التالية أحدث تفريغ ويكيبيديا الإنجليزية وتعلم التضمينات من هذا التفريغ:

% wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
% wikipedia2vec train enwiki-latest-pages-articles.xml.bz2 MODEL_FILE

ثم ، تتم كتابة التضمينات المستفادة إلى Model_file . لاحظ أن هذا الأمر يمكن أن يأخذ العديد من المعلمات الاختيارية. يرجى الرجوع إلى وثائقنا لمزيد من التفاصيل.

التضمينات المسبق

يمكن تنزيل التضمينات المسبقة لـ 12 لغة (أي اللغة الإنجليزية والعربية والصينية والهولندية والفرنسية والألمانية والإيطالية واليابانية والبولندية والبرتغالية والروسية والإسبانية) من هذه الصفحة.

استخدام الحالات

تم تطبيق Wikipedia2vec على المهام التالية:

LINKNING: Yamada et al. ، 2016 ، Eshel et al. ، 2017 ، Chen et al. ، 2019 ، Poerner et al. ، 2020 ، Van Hulst et al. ، 2020.
Named Entity Condition: Sato et al. ، 2017 ، Lara-Clares و Garcia-Serrano ، 2019.
إجابة الأسئلة: Yamada et al. ، 2017 ، Poerner et al. ، 2020.
كتابة الكيان: Yamada et al. ، 2018.
تصنيف النص: Yamada et al. ، 2018 ، Yamada and Shindo ، 2019 ، Alam et al. ، 2020.
تصنيف العلاقة: Poerner et al. ، 2020.
اكتشاف إعادة صياغة: Duong et al. ، 2018.
إكمال الرسم البياني للمعرفة: شاه وآخرون ، 2019 ، شاه وآخرون ، 2020.
اكتشاف الأخبار المزيفة: سينغ وآخرون ، 2019 ، Ghosal et al. ، 2020.
تحليل المؤامرة للأفلام: Papalampidi et al. ، 2019.
اكتشاف كيان جديد: Zhang et al. ، 2020.
استرجاع الكيان: Gerritse et al. ، 2020.
اكتشاف Deepfake: Zhong et al. ، 2020.
معلومات المحادثة التي تسعى: Rodriguez et al. ، 2020.
توسيع الاستعلام: Rosin et al. ، 2020.

مراجع

إذا كنت تستخدم Wikipedia2Vec في منشور علمي ، فيرجى الاستشهاد بالورقة التالية:

Ikuya Yamada ، Akari Asai ، Jin Sakuma ، Hiroyuki Shindo ، Hideaki Takeda ، Yoshiyasu takefuji ، Yuji Matsumoto ، Wikipedia2Vec: مجموعة أدوات فعالة للتعلم وتصور الكلمات والكيانات من ويكيبيديا.

 @inproceedings{yamada2020wikipedia2vec,
  title = "{W}ikipedia2{V}ec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from {W}ikipedia",
  author={Yamada, Ikuya and Asai, Akari and Sakuma, Jin and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu and Matsumoto, Yuji},
  booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations},
  year = {2020},
  publisher = {Association for Computational Linguistics},
  pages = {23--30}
}

تم اقتراح نموذج التضمين في الأصل في الورقة التالية:

Ikuya Yamada ، Hiroyuki Shindo ، Hideaki Takeda ، Yoshiyasu takefuji ، التعلم المشترك لتضمين الكلمات والكيانات في الغموض الكيان المسماة.

 @inproceedings{yamada2016joint,
  title={Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation},
  author={Yamada, Ikuya and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu},
  booktitle={Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning},
  year={2016},
  publisher={Association for Computational Linguistics},
  pages={250--259}
}

تم اقتراح نموذج تصنيف النص الذي تم تنفيذه في هذا المثال في الورقة التالية:

Ikuya Yamada ، Hiroyuki Shindo ، نموذج حقيبة من اليقظة العصبية لتصنيف النص.

 @article{yamada2019neural,
  title={Neural Attentive Bag-of-Entities Model for Text Classification},
  author={Yamada, Ikuya and Shindo, Hiroyuki},
  booktitle={Proceedings of The 23th SIGNLL Conference on Computational Natural Language Learning},
  year={2019},
  publisher={Association for Computational Linguistics},
  pages = {563--573}
}

رخصة

ترخيص Apache 2.0

يوسع

معلومات إضافية

الإصدار v2.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-04-18
الحجم 747.51KB
من Github

تطبيقات ذات صلة

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل