تنزيل awesome nlp polish awesome nlp polish

العربية

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

الصفحة الرئيسية>المتعلقة بالبرمجة>شفرة المصدر الأخرى

awesome nlp polish

شفرة المصدر الأخرى

1.0.0

تنزيل

رهيبة NLP-polish

قائمة منسقة من الموارد المخصصة لمعالجة اللغة الطبيعية (NLP) باللغة البولندية. النماذج والأدوات ومجموعات البيانات.

شعار التلميع NLP رائع

جدول المحتويات:

تلميع البيانات النصية
النماذج والتضمينات
المكتبات والأدوات
الأوراق والمقالات والمدونات
مساهمة

تلميع مجموعات البيانات

Datsets الموجهة نحو المهمة

Klej (Kompleksowa Lista ewaluacji językowych) هو مجموعة من تسع مهام التقييم لفهم اللغة البولندية.
مجموعات بيانات poleval -
- تصنيف خطاب الكراهية -distinging بين التغريدات العادية/غير المتأمرة (الفئة: 0) والتغريدات التي تحتوي على أي نوع من المعلومات الضارة (الفئة: 1) [poleval 2019 Task6] [Mirror Gdrive]
CDSCORPUS البولندية - مجموعة البيانات لدلالات التوزيع التركيبية. يتكون CDSCORPUS البولندي من 10 آلاف أزواج من الجملة البولندية والتي تم تعويضها عن الإنسان من أجل العلاقة الدلالية والترحيب.
WROCLAW Corpus of Consumer Reviews Sentiment (WCCRS) - Corpus من المراجعات البولندية المشروحة مع المشاعر على مستوى النص بأكمله ( النص ) وعلى مستوى الجمل ( الجملة ) للمجالات التالية: الفنادق والطب والمنتجات والجامعات (المراجعات*)
Ermlab Opineo Dataset- مراجعات Opineo - Gdrive
تحتوي Hatespeech Corpus على أكثر من 2000 منشورات تم زحفها من البولندية العامة.
مجموعة بيانات القياس البولندية - مثال: "Ateny Grecja Bagdad Irak" - مفيد لتقييم الكلمات
NKJP - مجموعة وطنية للبولندية. أنه يحتوي على الأدب الكلاسيكي ، والصحف اليومية ، والدوريات والمجلات المتخصصة ، ونصوص المحادثات ، ومجموعة متنوعة من النصوص قصيرة العمر والإنترنت. لا تتوفر سوى مجموعة فرعية صغيرة للتنزيل (GNU GLP V.3). الاتصال المباشر وربما ضروري للحصول على مجموعة كاملة.
مجموعة بيانات تحليل المشاعر POLEMO 2.0 لـ CONLL
مجموعة بيانات الموسيقية البولندية- مجموعة بيانات الموسيقى البولندية هي أكبر مجموعة بيانات تحتوي على معلومات حول الفنانين والأغاني والأغاني في بولندا (الآن فنانين الهيب هوب فقط).

النصوص الخام

Clean Polish Oscar-Corpus Oscar Corpus مسبقًا ، تمت إزالته: جمل أجنبية (غير مسببة) ، Sentecs غير الصالحة (على سبيل المثال
Oscar أو Open Super -Large Crawled Almanach Corpus - هي مجموعة ضخمة متعددة اللغات تم الحصول عليها عن طريق تصنيف اللغة وتصفية مجموعة الزحف المشتركة. يحتوي على 109 جيجابايت أو 49 جيجابايت من النص البولندي.
تفريغ ويكيبيديا البولندية - نسخة شهرية منتظمة من ويكيبيديا البولندية. أكثر ثم 4 جيجابايت من النص.
Opus - The Open Parallel Corpus - يمكنك تحديد اللغات وتنزيل الملف البولندي فقط
- Polish OpenSubTitles V2018 - الجمل 45.9M ، الرموز البولندية 287.1M ، مجموعة من الترجمة الأفلام المترجمة من OpenSubTitles Raw Txt Corpus (7.2 جيجا بايت) TXT Corpus (غير مرغوب فيه 7.6 جيجا بايت).
- جمل Paracrawl V5 6.4m ، الرموز البولندية 157.1M RAW TXT Corpus (إلغاء تعبئة 1.1 جيجابايت) TXT Corpus
نص المجموعة البرلمانية البولندية من وقائع البرلمان البولندي ، SEJM ومجلس الشيوخ

النماذج والتضمينات

نماذج المحولات البولندية

طراز Roberta البولندي - تم تدريب نموذج على مجموعة تتكون من تفريغ ويكيبيديا البولندية ، والكتب والمقالات البولندية ، والمجموعة البرلمانية البولندية
سياسيبرت - طراز روبرتا البولندي مدرب على ويكيبيديا البولندية والأدب البولندي وأوسكار. الافتراض الرئيسي هو أن نص الجودة سيعطي نموذجًا جيدًا.
Polbert - Polish Bert Model. تم تدريب النموذج بالرمز المقدم في مستودع github من Google Bert. دمج مع Huggingface/Transformers
Allegro Herbert - تم تدريب نموذج Bert البولندي على Corpora البولندية باستخدام هدف MLM فقط مع إخفاء ديناميكي للكلمات الكاملة.
Slavicbert-Multilingual Bert Model-Bert ، slavic cased: 4 لغات (البلغارية ، التشيكية ، البولندية ، الروسية) ، من 12 طبقة ، 768-Hidden ، 12 رأس ، 110 متر معلمات ، 600 ميجابايت. هناك أيضًا نموذج آخر من سلافيكبرت http://docs.deeppavlov.ai/en/master/features/models/bert.html لكن لدي مشاكل لتحويله إلى pytorch.

نماذج أخرى

Elmo inbeddings - نموذج للتضمينات Elmo للغة البولندية المدربة على شركة نصي كبيرة (KGR10).
Zalando Flair Polish Models - تضمينات السلسلة السياقية التي تلتقط المعلومات النحوية الكامنة التي تتجاوز تضمينات الكلمات القياسية. هناك نموذجان "pl-forward و pl-backward"
النماذج البولندية Ipipan Word2Vec
جامعة Wrocław للعلوم والتكنولوجيا Word2Vec - نماذج لغة التوزيع للبولندية المدربة على شركة مختلفة (KGR10 ، NKJP ، ويكيبيديا).
Fasttext Polish Model FB - Train On: Common Crawl ، Wikipedia
FastText KGR10 طراز البولندي ثنائي
تشفير الجملة العالمي متعددة اللغات - تضمينات الجملة ، ويغطي 16 لغة (بما في ذلك البولندية)
BPEMB: تشمل تضمينات الكلمة الفرعية البولندية - سهلة الاستخدام مع الذوق
ULMFIT لـ TENSORFLOW 2.0 - تحتوي هذه المجموعة على نماذج لغة متكررة ULMFIT مدربة على مقالب ويكيبيديا للغة الإنجليزية والبولندية. تم تدريب النماذج نفسها باستخدام Fastai ثم تم تصديرها إلى تنسيق قابل للاستخدام Tensorflow. رمز متاح على Bitbucket.

أدوات ومكتبات معالجة اللغة

Morfologik (Java) و Pymorfologik (Python Wrapper) - محلل المورفولوجي القائم على القاموس
Morfeusz - محلل المورفولوجي. انظر أيضًا Elasticsearch Plugin
Stempel (Python Port) - STEMMER الخوارزمية. انظر أيضًا Elasticsearch Plugin
Spacy for Polish - Extend Spacy ، مكتبة NLP جاهزة للإنتاج ، لدعم اللغة البولندية بالكامل.
Spacy -PL بواسطة IPI Pan - دمج أدوات وموارد اللغة البولندية الحالية في خط أنابيب Spacy
Krnnt Polish Morphological Tagger - Krnnn
ستانزا (بيثون) - حزمة تحليل NLP من جامعة ستانفورد. ستانزا هي حزمة تحليل اللغة الطبيعية بيثون. أنه يحتوي على أدوات ، يمكن استخدامها ل: جملة/كلمة رمزية ، لإنشاء أشكال أساسية من الكلمات ، وأجزاء من الكلام والميزات المورفولوجية ، تحليل التبعية النحوية ، والتعرف على الكيانات المسماة. يحتوي على نموذج تلميع
Duckling (Haskel) - مكتبة لتحليل النص في بيانات منظمة بدعم من البولندية
قائمة منسقة من الاختصارات البولندية لمميزات الجملة NLTK على أساس نص ويكيبيديا

الأوراق ، المقالات ، منشور المدونة

معايير بعض أدوات NLP البولندية-الكلمة ذات الكلمات الفردية والتحليل المورفولوجي ، والتهوية متعددة الكلمات ، ووضع علامات POS التي تم تحديدها ، وتحليل التبعية ، وتحليل الضحلة ، والتعرف على النيتين ، والتلخيص ، إلخ.
github repo مع قائمة البولندية: كلمات تضمينات ونماذج اللغة (Word2Vec ، fasttext ، قفاز ، Elmo)-https://github.com/sdadas/polish-nlp-resources
مراجعة تضمينات الكلمات البولندية - تقييم تضمينات الكلمات البولندية: Word2Vec ، Fastext وما إلى ذلك. يتم التقييم من خلال مهمة تشبيه الكلمات.
تقييم الجملة البولندية- يحتوي على تقييم لثمانية طرق تمثيل الجملة (Word2Vec ، Glove ، Fasttext ، Elmo ، Flair ، Bert ، Laser ، Use) على خمس مهام لغوية بولندية
تدريب Roberta من الصفر - الدليل المفقود - دليل مستخدم كامل لتدريب نموذج Roberta مع استخدام Huggingface/Transformers للتلميع

مساهمة

إذا كان لديك أو تعرف مواد قيمة (مجموعات البيانات ، النماذج ، المنشورات ، المقالات) مفقودة هنا ، فلا تتردد في تحرير طلب السحب وتقديمه. يمكنك أيضًا إرسال ملاحظة على LinkedIn أو عبر البريد الإلكتروني: [email protected].

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-04-19
الحجم 28.15KB
من Github

تطبيقات ذات صلة

awesome citygml

2024-11-13
awesome generative ai guide

2024-11-05
GitHub sgrebnov/cordova plugin background download

2024-11-05
awesome swift

2024-11-03
لعبة الشيطان الرهيبة

2023-04-16
الإعلان الرائع

2022-08-08

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل