يحتوي هذا المستودع على إصدارات نماذج لمكتبة Spacy NLP. لمزيد من المعلومات حول كيفية تنزيل وتثبيت واستخدام النماذج ، راجع وثائق النماذج.
️ ملاحظة مهمة: نظرًا لأن النماذج يمكن أن تكون كبيرة جدًا وتتكون في الغالب من البيانات الثنائية ، لا يمكننا ببساطة تزويدها كملفات في مستودع GitHub. بدلاً من ذلك ، اخترنا إضافتها إلى الإصدارات كملفات.whlو.tar.gz. هذا يتيح لنا الحفاظ على تاريخ الإصدار العام.
لتثبيت نموذج معين ، قم بتشغيل الأمر التالي باسم النموذج (على سبيل المثال en_core_web_sm ):
python -m spacy download [model]للاطلاع على نماذج spacy v1.x ، انظر هنا.
بشكل عام ، تتوقع Spacy أن تتبع جميع حزم النماذج اتفاقية التسمية لـ [lang]_[name] . بالنسبة لخطوط الأنابيب المقدمة لدينا ، نقسم الاسم إلى ثلاثة مكونات:
core : نموذج للأغراض العامة مع وضع العلامات ، التحليل ، التعرف على الكيان المسمىdep : فقط العلامات والتحليل والتهويةent : فقط التعرف على الكيانsent : تجزئة الجملة فقطweb لنص الويب ، news لنص الأخبار)sm : لا توجد كلمة ناقلاتmd : جدول ناقلات الكلمات المخفضة مع 20 ألف متجهات فريدة من نوعها لكلمة 500 كيلوlg : جدول ناقلات الكلمة الكبيرة مع ~ 500k إدخالات على سبيل المثال ، en_core_web_md هو نموذج إنجليزي متوسط الحجم مدرب على نص ويب مكتوب (المدونات والأخبار والتعليقات) ، ويتضمن tagger ، محلل تبعية ، معركة قليلة ، معترف بالكيان المسماة وجدول متجه Word مع 20K فريد من نوعه.
بالإضافة إلى ذلك ، يعكس إصدار النموذج كل من التوافق مع Spacy ، وكذلك إصدار النموذج. نسخة نموذجية تترجم abc إلى:
a : نسخة سبيس الرئيسية . على سبيل المثال ، 2 لـ Spacy v2.x.b : نسخة قليلة سبيس . على سبيل المثال ، 3 لسباسي v2.3.x.c : نسخة نموذج. تكوين نموذج مختلف: على سبيل المثال ، من التدريب على بيانات مختلفة ، مع معلمات مختلفة ، لأعداد مختلفة من التكرارات ، مع ناقلات مختلفة ، إلخ. للحصول على نظرة عامة على التوافق التفصيلي ، راجع compatibility.json . هذا هو أيضًا مصدر فحص التوافق الداخلي لـ Spacy ، يتم تنفيذه عند تشغيل أمر download .
إذا كنت تستخدم إصدارًا قديمًا (v1.6.0 أو أدناه) ، فلا يزال بإمكانك تنزيل وتثبيت النماذج القديمة من داخل Spacy باستخدام python -m spacy.en.download all أو python -m spacy.de.download all . ترتبط المحفوظات .tar.gz أيضًا بإصدار V1.6.0. لتنزيل وتثبيت النماذج يدويًا ، قم بفك الأرشيف ، وإسقاط الدليل الموجود في spacy/data وتحميل النموذج عبر spacy.load('en') أو spacy.load('de') .
لزيادة الشفافية وتسهيل استخدام Spacy مع النماذج الخاصة بك ، أصبحت جميع البيانات متوفرة الآن كتنزيلات مباشرة ، منظمة في الإصدارات الفردية. يدعم Spacy 1.7 أيضًا تثبيت نماذج وتحميلها كحزم بيثون . يمكنك الآن اختيار كيف وأين تريد الاحتفاظ بملفات البيانات ، وإعداد "روابط الاختصار" لتحميل النماذج بالاسم من داخل Spacy. لمزيد من المعلومات حول هذا ، راجع وثائق النماذج الجديدة.
# download best-matching version of specific model for your spaCy installation
python -m spacy download en_core_web_sm
# pip install .whl or .tar.gz archive from path or URL
pip install /Users/you/en_core_web_sm-3.0.0.tar.gz
pip install /Users/you/en_core_web_sm-3.0.0-py3-none-any.whl
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0-py3-none-any.whl لتحميل نموذج ، استخدم spacy.load() باسم النموذج أو رابط اختصار أو مسار إلى دليل بيانات النموذج.
import spacy
nlp = spacy . load ( "en_core_web_sm" )
doc = nlp ( u"This is a sentence." ) يمكنك أيضًا import نموذج مباشرة عبر اسمه الكامل ثم استدعاء طريقة load() بدون وسيطات. هذا يجب أن يعمل أيضًا مع النماذج القديمة في الإصدارات السابقة من Spacy.
import spacy
import en_core_web_sm
nlp = en_core_web_sm . load ()
doc = nlp ( u"This is a sentence." )في بعض الحالات ، قد تفضل تنزيل البيانات يدويًا ، على سبيل المثال لوضعها في دليل مخصص. يمكنك تنزيل النموذج عبر متصفحك من أحدث الإصدارات ، أو تكوين البرنامج النصي للتنزيل الخاص بك باستخدام عنوان URL لملف الأرشيف. يتكون الأرشيف من دليل نموذج يحتوي على دليل آخر مع بيانات النموذج.
└── en_core_web_md-3.0.0.tar.gz # downloaded archive
├── setup.py # setup file for pip installation
├── meta.json # copy of pipeline meta
└── en_core_web_md # ? pipeline package
├── __init__.py # init for pip installation
└── en_core_web_md-3.0.0 # pipeline data
├── config.cfg # pipeline config
├── meta.json # pipeline meta
└── ... # directories with component dataلمزيد من المعلومات والأمثلة ، تحقق من وثائق النماذج.
| تاريخ | نموذج | إصدار | dep | ent | VEC | مقاس | رخصة | ||
|---|---|---|---|---|---|---|---|---|---|
2017-06-06 | es_core_web_md | 1.0.0 | x | x | x | 377 ميغابايت | CC BY-SA | ||
2017-04-26 | fr_depvec_web_lg | 1.0.0 | x | x | 1.33 غيغابايت | CC BY-NC | |||
2017-03-21 | en_core_web_md | 1.2.1 | x | x | x | 1 غيغابايت | CC BY-SA | ||
2017-03-21 | en_depent_web_md | 1.2.1 | x | x | 328 ميغابايت | CC BY-SA | |||
2017-03-17 | en_core_web_sm | 1.2.0 | x | x | x | 50 ميجابايت | CC BY-SA | ||
2017-03-17 | en_core_web_md | 1.2.0 | x | x | x | 1 غيغابايت | CC BY-SA | ||
2017-03-17 | en_depent_web_md | 1.2.0 | x | x | 328 ميغابايت | CC BY-SA | |||
2016-05-10 | de_core_news_md | 1.0.0 | x | x | x | 645 ميغابايت | CC BY-SA | ||
2016-03-08 | en_vectors_glove_md | 1.0.0 | x | 727 ميغابايت | CC BY-SA |
core للنموذج للأغراض العامة مع المفردات ، بناء الجملة ، كيانات وكلمات الكلمات ، أو depent فقط للمفردات والبنالة والكيانات)web لنص الويب ، news لنص الأخبار)sm ، md أو lg ) على سبيل المثال ، en_depent_web_md هو نموذج إنجليزي متوسط الحجم مدرب على نص ويب مكتوب (المدونات والأخبار والتعليقات) ، ويشمل المفردات ، بناء الجملة والكيانات.
للإبلاغ عن مشكلة في نموذج ، يرجى فتح مشكلة على تعقب قضية Spacy. يرجى ملاحظة أنه لا يوجد نموذج مثالي. نظرًا لأن النماذج إحصائية ، فإن سلوكها المتوقع سيتضمن دائمًا بعض الأخطاء . ومع ذلك ، يمكن أن تشير أخطاء معينة إلى مشكلات أعمق في استخراج ميزة التدريب أو رمز التحسين. إذا واجهت أنماطًا في أداء النموذج الذي يبدو مشبوهًا ، فيرجى تقديم تقرير.