رهيبة NLP-polish
قائمة منسقة من الموارد المخصصة لمعالجة اللغة الطبيعية (NLP) باللغة البولندية. النماذج والأدوات ومجموعات البيانات.

جدول المحتويات:
- تلميع البيانات النصية
- النماذج والتضمينات
- المكتبات والأدوات
- الأوراق والمقالات والمدونات
- مساهمة
تلميع مجموعات البيانات
Datsets الموجهة نحو المهمة
- Klej (Kompleksowa Lista ewaluacji językowych) هو مجموعة من تسع مهام التقييم لفهم اللغة البولندية.
- مجموعات بيانات poleval -
- تصنيف خطاب الكراهية -distinging بين التغريدات العادية/غير المتأمرة (الفئة: 0) والتغريدات التي تحتوي على أي نوع من المعلومات الضارة (الفئة: 1) [poleval 2019 Task6] [Mirror Gdrive]
- CDSCORPUS البولندية - مجموعة البيانات لدلالات التوزيع التركيبية. يتكون CDSCORPUS البولندي من 10 آلاف أزواج من الجملة البولندية والتي تم تعويضها عن الإنسان من أجل العلاقة الدلالية والترحيب.
- WROCLAW Corpus of Consumer Reviews Sentiment (WCCRS) - Corpus من المراجعات البولندية المشروحة مع المشاعر على مستوى النص بأكمله ( النص ) وعلى مستوى الجمل ( الجملة ) للمجالات التالية: الفنادق والطب والمنتجات والجامعات (المراجعات*)
- Ermlab Opineo Dataset- مراجعات Opineo - Gdrive
- تحتوي Hatespeech Corpus على أكثر من 2000 منشورات تم زحفها من البولندية العامة.
- مجموعة بيانات القياس البولندية - مثال: "Ateny Grecja Bagdad Irak" - مفيد لتقييم الكلمات
- NKJP - مجموعة وطنية للبولندية. أنه يحتوي على الأدب الكلاسيكي ، والصحف اليومية ، والدوريات والمجلات المتخصصة ، ونصوص المحادثات ، ومجموعة متنوعة من النصوص قصيرة العمر والإنترنت. لا تتوفر سوى مجموعة فرعية صغيرة للتنزيل (GNU GLP V.3). الاتصال المباشر وربما ضروري للحصول على مجموعة كاملة.
- مجموعة بيانات تحليل المشاعر POLEMO 2.0 لـ CONLL
- مجموعة بيانات الموسيقية البولندية- مجموعة بيانات الموسيقى البولندية هي أكبر مجموعة بيانات تحتوي على معلومات حول الفنانين والأغاني والأغاني في بولندا (الآن فنانين الهيب هوب فقط).
النصوص الخام
Clean Polish Oscar-Corpus Oscar Corpus مسبقًا ، تمت إزالته: جمل أجنبية (غير مسببة) ، Sentecs غير الصالحة (على سبيل المثال
Oscar أو Open Super -Large Crawled Almanach Corpus - هي مجموعة ضخمة متعددة اللغات تم الحصول عليها عن طريق تصنيف اللغة وتصفية مجموعة الزحف المشتركة. يحتوي على 109 جيجابايت أو 49 جيجابايت من النص البولندي.
تفريغ ويكيبيديا البولندية - نسخة شهرية منتظمة من ويكيبيديا البولندية. أكثر ثم 4 جيجابايت من النص.
Opus - The Open Parallel Corpus - يمكنك تحديد اللغات وتنزيل الملف البولندي فقط
- Polish OpenSubTitles V2018 - الجمل 45.9M ، الرموز البولندية 287.1M ، مجموعة من الترجمة الأفلام المترجمة من OpenSubTitles Raw Txt Corpus (7.2 جيجا بايت) TXT Corpus (غير مرغوب فيه 7.6 جيجا بايت).
- جمل Paracrawl V5 6.4m ، الرموز البولندية 157.1M RAW TXT Corpus (إلغاء تعبئة 1.1 جيجابايت) TXT Corpus
نص المجموعة البرلمانية البولندية من وقائع البرلمان البولندي ، SEJM ومجلس الشيوخ
النماذج والتضمينات
نماذج المحولات البولندية
- طراز Roberta البولندي - تم تدريب نموذج على مجموعة تتكون من تفريغ ويكيبيديا البولندية ، والكتب والمقالات البولندية ، والمجموعة البرلمانية البولندية
- سياسيبرت - طراز روبرتا البولندي مدرب على ويكيبيديا البولندية والأدب البولندي وأوسكار. الافتراض الرئيسي هو أن نص الجودة سيعطي نموذجًا جيدًا.
- Polbert - Polish Bert Model. تم تدريب النموذج بالرمز المقدم في مستودع github من Google Bert. دمج مع Huggingface/Transformers
- Allegro Herbert - تم تدريب نموذج Bert البولندي على Corpora البولندية باستخدام هدف MLM فقط مع إخفاء ديناميكي للكلمات الكاملة.
- Slavicbert-Multilingual Bert Model-Bert ، slavic cased: 4 لغات (البلغارية ، التشيكية ، البولندية ، الروسية) ، من 12 طبقة ، 768-Hidden ، 12 رأس ، 110 متر معلمات ، 600 ميجابايت. هناك أيضًا نموذج آخر من سلافيكبرت http://docs.deeppavlov.ai/en/master/features/models/bert.html لكن لدي مشاكل لتحويله إلى pytorch.
نماذج أخرى
- Elmo inbeddings - نموذج للتضمينات Elmo للغة البولندية المدربة على شركة نصي كبيرة (KGR10).
- Zalando Flair Polish Models - تضمينات السلسلة السياقية التي تلتقط المعلومات النحوية الكامنة التي تتجاوز تضمينات الكلمات القياسية. هناك نموذجان "pl-forward و pl-backward"
- النماذج البولندية Ipipan Word2Vec
- جامعة Wrocław للعلوم والتكنولوجيا Word2Vec - نماذج لغة التوزيع للبولندية المدربة على شركة مختلفة (KGR10 ، NKJP ، ويكيبيديا).
- Fasttext Polish Model FB - Train On: Common Crawl ، Wikipedia
- FastText KGR10 طراز البولندي ثنائي
- تشفير الجملة العالمي متعددة اللغات - تضمينات الجملة ، ويغطي 16 لغة (بما في ذلك البولندية)
- BPEMB: تشمل تضمينات الكلمة الفرعية البولندية - سهلة الاستخدام مع الذوق
- ULMFIT لـ TENSORFLOW 2.0 - تحتوي هذه المجموعة على نماذج لغة متكررة ULMFIT مدربة على مقالب ويكيبيديا للغة الإنجليزية والبولندية. تم تدريب النماذج نفسها باستخدام Fastai ثم تم تصديرها إلى تنسيق قابل للاستخدام Tensorflow. رمز متاح على Bitbucket.
أدوات ومكتبات معالجة اللغة
Morfologik (Java) و Pymorfologik (Python Wrapper) - محلل المورفولوجي القائم على القاموس
Morfeusz - محلل المورفولوجي. انظر أيضًا Elasticsearch Plugin
Stempel (Python Port) - STEMMER الخوارزمية. انظر أيضًا Elasticsearch Plugin
Spacy for Polish - Extend Spacy ، مكتبة NLP جاهزة للإنتاج ، لدعم اللغة البولندية بالكامل.
Spacy -PL بواسطة IPI Pan - دمج أدوات وموارد اللغة البولندية الحالية في خط أنابيب Spacy
Krnnt Polish Morphological Tagger - Krnnn
ستانزا (بيثون) - حزمة تحليل NLP من جامعة ستانفورد. ستانزا هي حزمة تحليل اللغة الطبيعية بيثون. أنه يحتوي على أدوات ، يمكن استخدامها ل: جملة/كلمة رمزية ، لإنشاء أشكال أساسية من الكلمات ، وأجزاء من الكلام والميزات المورفولوجية ، تحليل التبعية النحوية ، والتعرف على الكيانات المسماة. يحتوي على نموذج تلميع
Duckling (Haskel) - مكتبة لتحليل النص في بيانات منظمة بدعم من البولندية
قائمة منسقة من الاختصارات البولندية لمميزات الجملة NLTK على أساس نص ويكيبيديا
الأوراق ، المقالات ، منشور المدونة
- معايير بعض أدوات NLP البولندية-الكلمة ذات الكلمات الفردية والتحليل المورفولوجي ، والتهوية متعددة الكلمات ، ووضع علامات POS التي تم تحديدها ، وتحليل التبعية ، وتحليل الضحلة ، والتعرف على النيتين ، والتلخيص ، إلخ.
- github repo مع قائمة البولندية: كلمات تضمينات ونماذج اللغة (Word2Vec ، fasttext ، قفاز ، Elmo)-https://github.com/sdadas/polish-nlp-resources
- مراجعة تضمينات الكلمات البولندية - تقييم تضمينات الكلمات البولندية: Word2Vec ، Fastext وما إلى ذلك. يتم التقييم من خلال مهمة تشبيه الكلمات.
- تقييم الجملة البولندية- يحتوي على تقييم لثمانية طرق تمثيل الجملة (Word2Vec ، Glove ، Fasttext ، Elmo ، Flair ، Bert ، Laser ، Use) على خمس مهام لغوية بولندية
- تدريب Roberta من الصفر - الدليل المفقود - دليل مستخدم كامل لتدريب نموذج Roberta مع استخدام Huggingface/Transformers للتلميع
مساهمة
إذا كان لديك أو تعرف مواد قيمة (مجموعات البيانات ، النماذج ، المنشورات ، المقالات) مفقودة هنا ، فلا تتردد في تحرير طلب السحب وتقديمه. يمكنك أيضًا إرسال ملاحظة على LinkedIn أو عبر البريد الإلكتروني: [email protected].