رهيبة NLP
قائمة منسقة من الموارد المخصصة لمعالجة اللغة الطبيعية

اقرأ هذا باللغة الإنجليزية الصينية التقليدية
يرجى قراءة إرشادات المساهمة قبل المساهمة. يرجى إضافة مورد NLP المفضل لديك عن طريق رفع طلب سحب
محتويات
- ملخصات البحث والاتجاهات
- مختبرات أبحاث NLP بارزة
- دروس
- قراءة المحتوى
- مقاطع الفيديو والدورات التدريبية
- كتب
- المكتبات
- node.js
- بيثون
- C ++
- جافا
- كوتلين
- سكالا
- ص
- clojure
- روبي
- الصدأ
- NLP ++
- جوليا
- خدمات
- أدوات التعليق
- مجموعات البيانات
- NLP باللغة الكورية
- NLP باللغة العربية
- NLP باللغة الصينية
- NLP باللغة الألمانية
- NLP في البولندية
- NLP باللغة الإسبانية
- NLP في اللغات المؤديرة
- NLP في التايلاندية
- NLP باللغة الدنماركية
- NLP باللغة الفيتنامية
- NLP للهولندية
- NLP باللغة الإندونيسية
- NLP باللغة الأردية
- NLP في الفارسية
- NLP باللغة الأوكرانية
- NLP باللغة الهنغارية
- NLP باللغة البرتغالية
- لغات أخرى
- الاعتمادات
ملخصات البحث والاتجاهات
- NLP-Overview هي نظرة عامة محدثة على تقنيات التعلم العميق المطبقة على NLP ، بما في ذلك النظرية والتطبيقات والتطبيقات والنتائج الحديثة. هذا هو مقدمة رائعة في NLP للباحثين.
- يتتبع NLP-Progress التقدم في معالجة اللغة الطبيعية ، بما في ذلك مجموعات البيانات والحالة الحديثة لمهام NLP الأكثر شيوعًا
- وصلت لحظة ImageNet NLP
- ACL 2018 يبرز: فهم التمثيل والتقييم في إعدادات أكثر تحديا
- أربعة اتجاهات التعلم العميق من ACL 2017. الجزء الأول: الهيكل اللغوي وتضمينات الكلمات
- أربعة اتجاهات التعلم العميق من ACL 2017. الجزء الثاني: التفسير والاهتمام
- أبرز الأحداث في EMNLP 2017: مجموعات بيانات مثيرة ، عودة المجموعات ، وأكثر!
- التعلم العميق لمعالجة اللغة الطبيعية (NLP): التطورات والاتجاهات
- مسح عن الحالة الفنية في توليد اللغة الطبيعية
مختبرات أبحاث NLP بارزة
العودة إلى الأعلى
- مجموعة Berkeley NLP - تتضمن المساهمات البارزة أداة لإعادة بناء اللغات الميتة الطويلة ، المشار إليها هنا ومن خلال أخذ Corpora من 637 لغة تحدثت حاليًا في آسيا والمحيط الهادئ وإعادة إنشاء سليلهم.
- معهد تقنيات اللغة ، جامعة كارنيجي ميلون - تشمل المشاريع البارزة مشروع Avenue ، ونظام ترجمة آلي مدفوع بناء الجملة للغات المهددة بالانقراض مثل Quechua و Aymara و Deven ، Ark's Ark الذي أنشأ AQMAR لتحسين أدوات NLP للعربية.
- NLP Research Group ، جامعة كولومبيا - مسؤولة عن إنشاء الترباس (معالجة أخطاء تفاعلية لأنظمة ترجمة الكلام) ومشروع غير اسمه لتوصيف الضحك في الحوار.
- مركز أو معالجة اللغة والكلام ، جامعة جون هوبكنز - مؤخرًا في الأخبار لتطوير برامج التعرف على الكلام لإنشاء اختبار تشخيصي أو مرض باركنسون ، هنا.
- مجموعة اللغويات الحاسوبية ومعالجة المعلومات ، جامعة ماريلاند-تشمل المساهمات البارزة التعاون بين الإنسان والحاسوب أو الإجابة على أسئلة كل كلمة على حدة.
- Penn Natural Language Processing ، University of Pennsylvania- مشهور بإنشاء بنك Treebank.
- مجموعة معالجة اللغة في ستانفورد- واحدة من أفضل مختبرات أبحاث NLP في العالم ، ملحوظة لإنشاء Stanford Corenlp ونظام حلها الأساسي
دروس
العودة إلى الأعلى
قراءة المحتوى
التعلم الآلي العام
- يشرح التعلم الآلي 101 من مهندس الإبداع الكبير من Google التعلم الآلي للمهندسين والمديرين التنفيذيين على حد سواء
- AI Playbook - A16Z AI Playbook هو رابط رائع للمضي قدمًا إلى مديريك أو محتوى العروض التقديمية الخاصة بك
- مدونة Ruder من قبل Sebastian Ruder للتعليق على أفضل أبحاث NLP
- كيفية تسمية دليل البيانات لإدارة مشاريع التعليقات اللغوية الأكبر
- يعتمد على مجموعة تعريف منشورات المدونة التي تغطي مجموعة واسعة من موضوعات NLP مع تنفيذ مفصل
مقدمات وأدلة إلى NLP
- فهم وتنفيذ معالجة اللغة الطبيعية
- NLP في Python - مجموعة من أجهزة الكمبيوتر المحمولة Github
- معالجة اللغة الطبيعية: مقدمة - أكسفورد
- تعلم عميق لـ NLP مع Pytorch
- التدريس التدريجي التدريجي لشراء NLTK - دروس NLTK ، دفاتر Jupyter
- معالجة اللغة الطبيعية مع Python - تحليل النص مع مجموعة أدوات اللغة الطبيعية - كتاب على الإنترنت والطباعة يقدم مفاهيم NLP باستخدام NLTK. كتب مؤلفو الكتاب أيضًا مكتبة NLTK.
- تدريب نموذج لغة جديد من الصفر - معانقة الوجه؟
- The Super Duper NLP REPO (SDNLPR): مجموعة من دفاتر كولاب التي تغطي مجموعة واسعة من تطبيقات مهمة NLP.
المدونات والنشرات الإخبارية
- التعلم العميق ، NLP ، والتمثيلات
- بيرت المصور ، إلمو ، وشركاه. (كيف تصدع NLP التعلم النقل) والمحول المصور
- معالجة اللغة الطبيعية من قبل هال دومي الثالث
- Arxiv: معالجة اللغة الطبيعية (تقريبًا) من الصفر
- Karpathy هو الفعالية غير المعقولة للشبكات العصبية المتكررة
- إتقان التعلم الآلي: التعلم العميق لمعالجة اللغة الطبيعية
- ملخصات ورقة NLP المرئية
مقاطع فيديو ودورات عبر الإنترنت
العودة إلى الأعلى
- معالجة اللغة الطبيعية المتقدمة - CS 685 ، UMass Amherst CS
- معالجة اللغة الطبيعية العميقة - سلسلة محاضرات من أكسفورد
- التعلم العميق لمعالجة اللغة الطبيعية (CS224 -N) - دورة ريتشارد سوتشر وكريستوفر مانينغ ستانفورد
- الشبكات العصبية لـ NLP - معهد تكنولوجيا اللغة كارنيجي ميلون هناك
- دورة NLP العميقة من قبل مدرسة Yandex Data School ، والتي تغطي الأفكار المهمة من تضمين النص إلى الترجمة الآلية بما في ذلك نمذجة التسلسل ، ونماذج اللغة وما إلى ذلك.
- FAST.AI Code -First Protro لمعالجة اللغة الطبيعية - يغطي هذا مزيجًا من مواضيع NLP التقليدية (بما في ذلك Regex و SVD و SAY BAYES و TOKENIST) ونهج الشبكة العصبية الحديثة (بما في ذلك RNNS و SEQ2SEQ و GRUS و Transformer) ، بالإضافة إلى معالجة المشكلات الأخلاقية العاجلة ، مثل التحيز والتنسيق. ابحث عن دفاتر Jupyter هنا
- جامعة التعلم الآلي - معالجة اللغة الطبيعية المتسارعة - تنتقل المحاضرات من مقدمة إلى NLP ومعالجة النص إلى الشبكات العصبية المتكررة والمحولات. يمكن العثور على المواد هنا.
- سلسلة معالجة اللغة الطبيعية التطبيقية من IIT Madras التي تأخذ من الأساسيات وصولاً إلى أجهزة الترميز التلقائي وكل شيء. أجهزة الكمبيوتر المحمولة Github لهذه الدورة متاحة أيضًا هنا
كتب
- معالجة الكلام واللغة - مجانًا ، من قبل البروفيسور دان جورافسي
- معالجة اللغة الطبيعية - حرة ، ملاحظات NLP للدكتور جاكوب إيزنشتاين في جورجياتك
- NLP مع Pytorch - Brian & Delip Rao
- تعدين النص في ص
- معالجة اللغة الطبيعية مع بيثون
- معالجة اللغة الطبيعية العملية
- معالجة اللغة الطبيعية مع Spark NLP
- التعلم العميق لمعالجة اللغة الطبيعية من قبل ستيفان رايجمكرز
- معالجة اللغة الطبيعية في العالم الحقيقي - بواسطة Masato Hagiwara
- معالجة اللغة الطبيعية في العمل ، الطبعة الثانية - بقلم هوبسون لين وماريا ديشيل
المكتبات
العودة إلى الأعلى
C ++ - C ++ مكتبات | العودة إلى الأعلى
- Insnet-مكتبة شبكة عصبية لبناء نماذج NLP المعتمدة على المثيلات مع تجديد ديناميكي خالي من الحشو.
- مجموعة أدوات استخراج معلومات معهد ماساتشوستس للتكنولوجيا - أدوات C ، C ++ ، و Python للتعرف على الكيان المسمى واستخراج العلاقة
- CRF ++ - تنفيذ المصدر المفتوح للحقول العشوائية الشرطية (CRFs) لتجزئة/وضع بيانات متسلسلة ومهام معالجة اللغة الطبيعية الأخرى.
- CRFSUITE - CRFSUITE هو تنفيذ الحقول العشوائية الشرطية (CRFs) لوصف البيانات المتسلسلة.
- BLLIP PARSER - BLLIP Natural Language Parser (المعروف أيضًا باسم Charniak -Johnson Parser)
- CoLibri-Core-C ++ Library ، أدوات سطر الأوامر ، وربط Python لاستخراج وتشغيل الإنشاءات اللغوية الأساسية مثل n-grams و skipgrams بطريقة سريعة وفعالة الذاكرة.
- UCTO-UNICODE-AWAR-ENRANCEDERSERISTERSERISER على أساس لغات مختلفة. أداة ومكتبة C ++. يدعم تنسيق Folia.
- LIBFOLIA - مكتبة C ++ لتنسيق Folia
- FROG - جناح NLP القائم على الذاكرة تم تطويره للهولنديين: POS TAGGER ، LEMMATISER ، محلل التبعية ، NER ، محلل ضحل ، محلل مورفولوجي.
- META - META: تحليل النص الحديث هو مجموعة أدوات C ++ لعلوم البيانات التي تسهل تعدين بيانات النص الكبير.
- ميكاب (يابانية)
- موسى
- StarSpace-مكتبة من Facebook لإنشاء تضمينات من مستوى الكلمات ، مستوى الفقرة ، على مستوى المستندات ولتصنيف النص
Java - Java NLP Libraries | العودة إلى الأعلى
- ستانفورد NLP
- OpenNLP
- NLP4J
- Word2Vec في Java
- REFRB SCALY SCALE OPEN OPEN
- OpenRegex لغة ومحرك تعبير منتظم فعال ومرن.
- COGCOMPNLP - المكتبات الأساسية التي تم تطويرها في مجموعة الحساب المعرفية في إلينوي.
- Mallet - Machine Learning for Language Toolkit - حزمة لمعالجة اللغة الطبيعية الإحصائية ، وتصنيف المستندات ، والتجميع ، ونمذجة الموضوع ، واستخراج المعلومات ، وتطبيقات التعلم الآلي الأخرى للنص.
- RDRPostagger - مجموعة أدوات وضعية قوية في وضع POS متوفرة (في كل من Java & Python) مع نماذج تدرب مسبقًا لأكثر من 40 لغة.
Kotlin - Kotlin NLP Libraries | العودة إلى الأعلى
- Lingua مكتبة اكتشاف اللغة لكوتلين وجافا ، مناسبة للنص الطويل والقصير على حد سواء
- Kotidgy-مولد بيانات نصية قائم على الفهرس مكتوب في Kotlin
Scala - Scala NLP Libraries | العودة إلى الأعلى
- شاول - مكتبة لتطوير أنظمة NLP ، بما في ذلك وحدات مدمجة مثل SRL ، POS ، إلخ.
- ATR4S-مجموعة أدوات مع أساليب التعرف على مصطلح الأوقات التلقائية الحديثة.
- TM - تنفيذ نمذجة الموضوع بناءً على PLSA متعدد اللغات.
- Word2Vec -Scala - واجهة Scala إلى نموذج Word2Vec ؛ يتضمن عمليات على ناقلات مثل مسافة الكلمات وعلم الكلمات.
- Epic - Epic هو محلل إحصائي عالي الأداء مكتوب في Scala ، إلى جانب إطار لبناء نماذج تنبؤ منظمة معقدة.
- Spark NLP - Spark NLP هي مكتبة معالجة اللغة الطبيعية مبنية على رأس Apache Spark ML والتي توفر شرحًا بسيطًا وأداء ودقيقًا لخطوط أنابيب التعلم الآلي التي تتوسع بسهولة في بيئة موزعة.
R - R NLP Libraries | العودة إلى الأعلى
- Text2Vec - تسوية سريعة ونمذجة الموضوع والمسافات وتضمينات Word Word في R.
- WordVectors - حزمة R لإنشاء واستكشاف Word2Vec ونماذج تضمين الكلمات الأخرى
- حزمة RMALLET - R للتفاعل مع MACHING TOOL MALLET JAVA
- DFR -Browser - ينشئ تصورات D3 لتصفح نماذج موضوع النص في متصفح الويب.
- حزمة dfrtopics - r لاستكشاف نماذج موضوع النص.
- Sument_classifier - تصنيف المشاعر باستخدام كلمة الغموض وقارئ WordNet
- Jprocessing - مكتبات معالجة Langauge اليابانية ، مع تصنيف المشاعر اليابانية
- CorporAexplorer - حزمة R للاستكشاف الديناميكي لمجموعات النص
- TidyText - تعدين النص باستخدام أدوات مرتبة
- Spacyr - R clospper to Spacy NLP
- عرض المهمة الرافعة: معالجة اللغة الطبيعية
clojure | العودة إلى الأعلى
- Clojure -opennlp - معالجة اللغة الطبيعية في clojure (OpenNLP)
- العدوى-ClJ-مكتبة انعطاف تشبه القضبان ل clojure و clojurecript
- Postagga - مكتبة لتحليل اللغة الطبيعية في clojure و clojurecript
روبي | العودة إلى الأعلى
- Kevin Dias's مجموعة من مكتبات وأدوات وبرامج معالجة اللغة الطبيعية (NLP)
- معالجة اللغة الطبيعية العملية في روبي
الصدأ | العودة إلى الأعلى
- Whatlang - مكتبة التعرف على اللغة الطبيعية على أساس trigrams
- Snips-NLU-RS-مكتبة جاهزة للإنتاج لتحليل القصد
- Rust-Bert-خطوط أنابيب NLP جاهزة للاستخدام والنماذج القائمة على المحولات
NLP ++ - NLP ++ لغة | العودة إلى الأعلى
- امتداد لغة VSCODE - امتداد لغة NLP ++ لـ VSCODE
- NLP -Legine - NLP ++ محرك لتشغيل رمز NLP ++ على Linux بما في ذلك محلل اللغة الإنجليزية الكامل
- VisualText - الصفحة الرئيسية للغة NLP ++
- NLP ++ Wiki - إدخال wiki للغة NLP ++
جوليا | العودة إلى الأعلى
- Corpusloaders - مجموعة متنوعة من اللوادر لمختلف NLP Corpora
- اللغات - حزمة للعمل مع اللغات البشرية
- التحليل النصي - حزمة جوليا لتحليل النص
- TextModels - النماذج القائمة على الشبكة العصبية لمعالجة اللغة الطبيعية
- WordTokenizers - الرمز المميزات عالية الأداء لمعالجة اللغة الطبيعية والمهام الأخرى ذات الصلة
- Word2Vec - Julia Interface to Word2Vec
خدمات
NLP مثل API مع وظائف المستوى الأعلى مثل NER ، وعلم الموضوع وما إلى ذلك على | العودة إلى الأعلى
- WIT -AI - واجهة لغة طبيعية للتطبيقات والأجهزة
- فهم اللغة الطبيعية لـ IBM Watson - API و Github Demo
- Amazon Commandend - يغطي جناح NLP و ML أكثر المهام شيوعًا مثل NER ، ووضع العلامات ، وتحليل المشاعر
- Google Cloud Language API - تحليل بناء الجملة ، NER ، تحليل المشاعر ، وعلامة المحتوى بلغات على الأقل 9 لغات اللغة الإنجليزية والصينية (مبسطة وتقليدية).
- موازية - خدمة API ذات مستوى عالي المستوى تتراوح من تحليل المشاعر إلى تحليل القصد
- خدمة Microsoft المعرفية
- Textrazor
- وردة
- Textaltic - معالجة اللغة الطبيعية في المتصفح مع تحليل المشاعر ، واستخراج الكيان المسماة ، ووضع علامات POS ، وترددات الكلمات ، ونمذجة الموضوع ، والغيوم الكلمات ، والمزيد
- نماذج NLP Cloud - SPACY NLP (تلك المخصصة والمدربة مسبقًا) تقدم من خلال واجهة برمجة تطبيقات مريحة للتعرف على الكيان المسماة (NER) ، وضع علامات POS ، وأكثر من ذلك.
- CloudMersive - واجهات برمجة تطبيقات NLP موحدة ومجانية تؤدي إجراءات مثل وضع العلامات على الكلام ، وإعادة صياغة النص ، وترجمة اللغة/الكشف ، وحلية الجملة
أدوات التعليق
- البوابة - العمارة العامة وهندسة النصوص عمرها 15 سنة ، مجانية ومفتوحة المصدر
- Anafora هي أداة شرح نص RAW مجانية ومفتوحة المصدر ،
- Brat - Brat Rapid Strenotation Tool هي بيئة عبر الإنترنت للتعليق على النصوص التعاونية
- DOCCANO - DOCCANO مجاني ومفتوح المصدر ويوفر ميزات شرح لتصنيف النص ، وضع تسلسل وتسلسل للتسلسل
- Inception - منصة شرح دلالية تقدم مساعدة ذكية وإدارة المعرفة
- Tagtog ، أداة الويب الأولى للاتصال للعثور على مجموعات البيانات وإنشائها وصيانتها ومشاركتها - تكاليف $
- Prodigy هي أداة تعليق توضيحية مدعوم من التعلم النشط ، وتكاليف $
- Lighttag - أداة شرح نصية مستضافة ومدارة للفرق ، تكلف $ $
- RSTWEB - أداة محلية أو عبر الإنترنت مفتوحة المصدر لشروحات شجرة الخطاب
- GITDOX - أداة تعليق توضيح خادم مفتوح المصدر مع التحكم في إصدار GITHUB والتحقق من صحته لبيانات XML وشبكات جداول البيانات التعاونية
- استوديو الملصقات - أداة شرح نصية مستضافة وإدارتها للفرق ، القائمة على فريميوم ، تكلف $
- تدعم Datasaur مهام NLP المختلفة للفرد أو الفرق ، على أساس فريميوم
- Konfuzio-Team First Host و On-Prem Text ، Image و PDF أداة التعليقات المتعددة المدعومة من التعلم النشط ، القائم على Freemium ، يكلف $ $
- UBIAI-أداة شرح نصية سهلة الاستخدام للفرق التي لديها أكثر ميزات التركيب التلقائي. يدعم NER ، والعلاقات وتصنيف المستندات وكذلك التعليق التوضيحي للرسوم التعليمية على OCR لوضع الفاتورة ، تكلف $ $
- Shoonya - Shoonya هي منصة التعليقات الشرح المجانية والمفتوحة المصدر مع فروق واسعة من نظام إدارة مستوى المنظمة ومساحة العمل. Shoonya هو غير مؤلف للبيانات ، ويمكن استخدامها من قبل الفرق لتوضيح البيانات بمستوى مختلف من مراحل التحقق على نطاق واسع.
- معمل التعليقات التوضيحية-منصة خالية من الرمز من طرف إلى طرف لشرح نصوص وضبط نموذج DL. الدعم خارج الصندوق للتعرف على الكيان المسماة والتصنيف واستخراج العلاقة ونماذج حالة التأكيد تشرف نماذج NLP. دعم غير محدود للمستخدمين والفرق والمشاريع والمستندات. لا فوس.
- Flat-Flat-هي بيئة شرحية لغوية تعتمد على الويب تستند إلى تنسيق Folia ، وهو تنسيق غني يعتمد على XML للتعليق اللغوي. المصدر المجاني والمفتوح.
التقنيات
تضمينات النص
تضمينات كلمة
قاعدة الإبهام: fasttext >> Glove> Word2Vec
Word2Vec - التنفيذ - مدونة شرح
قفاز - مدونة شرح
fasttext - التنفيذ - ورقة - مدونة شرح
جملة ونموذج اللغة القائمة على تضمينات الكلمات
العودة إلى الأعلى
- إلمو - تمثيلات الكلمات العميقة السياقية - تنفيذ Pytorch - تنفيذ TF
- ULMFIT - نموذج اللغة العالمي لتصنيف النص من قبل جيريمي هوارد و Sebastian Ruder
- Infersent - التعلم الخاضع للإشراف لتمثيلات الجملة العالمية من بيانات استنتاج اللغة الطبيعية بواسطة Facebook
- Cove - تعلمت في الترجمة: ناقلات الكلمات السياقية
- ناقلات Pargraph - من التمثيل الموزع للجمل والوثائق. انظر البرنامج التعليمي DOC2VEC في Gensim
- SENSE2VEC - ON WORD SENSE DISAMBIGUTY
- تخطي ناقلات الفكر - طريقة تمثيل الكلمات
- Skip -Gram التكيفي - نهج مماثل ، مع خصائص تكيفية
- تسلسل إلى تسلسل التعلم - ناقلات الكلمات للترجمة الآلية
إجابة الأسئلة واستخراج المعرفة
العودة إلى الأعلى
- DRQA - OPEN DOMAIN سؤال الإجابة على العمل عن طريق أبحاث Facebook على بيانات ويكيبيديا
- Document-QA-فهم القراءة المتعددة الفقرات البسيطة والفعالة بواسطة Allenai
- استخراج المعلومات المستندة إلى القالب بدون القوالب
- Privee: بنية لتحليل سياسات خصوصية الويب تلقائيًا
مجموعات البيانات
العودة إلى الأعلى
- NLP-Datasets مجموعة رائعة من مجموعات بيانات NLP
- Gensim -Data - مستودع البيانات لنماذج NLP PretRained و NLP Corpora.
أطر NLP متعددة اللغات
العودة إلى الأعلى
- UDPipe هو خط أنابيب قابل للتدريب لتصوير الرمز المميز ، العلامات ، واضطراب الشجر العالمي وتوحل ملفات Conll-U الأخرى. مكتوبة بشكل أساسي في C ++ ، يوفر حلاً سريعًا وموثوقًا بمعالجة NLP متعددة اللغات.
- NLP-Cube: خط أنابيب معالجة اللغة الطبيعية-تقسيم الجملة ، الرمز المميز ، الترشيح ، وضع علامات جزء من الكلام وحلية التبعية. منصة جديدة ، مكتوبة في Python مع Dynet 2.0. يقدم مستقلًا (روابط CLI/Python) ووظائف الخادم (API REST).
- URALICNLP هي مكتبة NLP في الغالب للعديد من اللغات الأورالية المهددة بالانقراض مثل لغات SAMI ولغات Mordvin ولغات الماري ولغات KOMI وما إلى ذلك. كما يتم دعم بعض اللغات غير المغلفة مثل الفنلندية مع اللغات غير الريفية مثل السويدية والعربية. يمكن أن يقوم Uralicnlp بالتحليل المورفولوجي ، والتوليد ، والتشويش والغموض.
NLP باللغة الكورية
العودة إلى الأعلى
المكتبات
- Konlpy - حزمة Python لمعالجة اللغة الطبيعية الكورية.
- مكاب (كوري) - مكتبة C ++ لـ NLP الكورية
- Koalanlp - مكتبة Scala لمعالجة اللغة الطبيعية الكورية.
- حزمة Konlp - R لمعالجة اللغة الطبيعية الكورية
المدونات والدروس
- مدونة Dsindex
- دورة NLP بجامعة Kangwon باللغة الكورية
مجموعات البيانات
- Kaist Corpus - مجموعة من معهد كوريا المتقدم للعلوم والتكنولوجيا باللغة الكورية.
- مجموعة أفلام مشاعر نيفر باللغة الكورية
- أرشيف Chosun Ilbo - مجموعة بيانات باللغة الكورية من إحدى الصحف الرئيسية في كوريا الجنوبية ، The Chosun Ilbo.
- بيانات الدردشة - بيانات chatbot باللغة الكورية
- الالتماسات - جمع بيانات الالتماس المنتهية الصلاحية من موقع العريضة الوطنية في Blue House.
- مجموعة بيانات الكورية الموازية - ترجمة الآلة العصبية (NMT) للكوريين إلى الفرنسية والكورية إلى الإنجليزية
- Korquad - مجموعة بيانات فرقة الكورية مع مصدر ويكي HTML. يذكر كل من V1.0 و V2.1 في وقت إضافة إلى NLP رهيبة
NLP باللغة العربية
العودة إلى الأعلى
المكتبات
- Goarabic - Go Package لمعالجة النص العربي
- JSASTEM - JavaScript للنقاش العربي
- Pyarabic - مكتبات Python للعربية
- Rftokenizer - قطاع Python القابل للتدريب للعربية والعبرية والقببية
مجموعات البيانات
- مجموعات بيانات متعددة الدوامات - أكبر موارد متعددة المجالات متاحة لتحليل المشاعر العربية
- LABR - مراجعة الكتب العربية الكبيرة مجموعة بيانات
- كلمات التوقف العربية - قائمة كلمات التوقف العربية من موارد مختلفة
NLP باللغة الصينية
العودة إلى الأعلى
المكتبات
- Jieba - Python Package for Words Motictiation Attilities باللغة الصينية
- Snownlp - حزمة Python لـ NLP الصينية
- Fudannlp - مكتبة Java لمعالجة النص الصيني
- HANLP - مكتبة NLP متعددة اللغات
مقتطفات
- Funnlp - مجموعة من أدوات وموارد NLP بشكل أساسي للصينية
NLP باللغة الألمانية
- German-NLP-قائمة منسقة من الموارد والأدوات المفتوحة/المفتوحة المصدر/الجرف التي تم تطويرها مع تركيز خاص على الألمانية
NLP في البولندية
- Polish -NLP - قائمة منسقة من الموارد المخصصة لمعالجة اللغة الطبيعية (NLP) باللغة البولندية. النماذج والأدوات ومجموعات البيانات.
NLP باللغة الإسبانية
العودة إلى الأعلى
المكتبات
- SPANLP - مكتبة Python لاكتشاف والرقابة والتنظيف الألفاظ النابية ، الابتذال ، الكلمات البغيضة ، العنصرية ، رهاب الأجانب والبلطجة في النصوص المكتوبة باللغة الإسبانية. أنه يحتوي على بيانات من 21 دولة الناطقة بالإسبانية.
بيانات
- الخطب السياسية الكولومبية
- كوبنهاغن تريبانك
- المليارات الإسبانية كوربوس مع تضمينات Word2Vec
- مجموعة من الشركات الإسبانية غير المقطوعة
تدمسينات الكلمة والجملة
- تضمينات الكلمة الإسبانية محسوبة بطرق مختلفة ومن شركة مختلفة
- تضمينات الكلمة الإسبانية محسوبة من شركة كبيرة وأحجام مختلفة باستخدام fasttext
- التضمينات الجملة الإسبانية المحسوبة من شركة كبيرة باستخدام Sent2Vec
- بيتو - بيرت للإسبانية
NLP في اللغات المؤديرة
العودة إلى الأعلى
البيانات ، corpora و treebanks
- TreeBank التبعية الهندية-شجرة متعددة الطبقات متعددة الطبقات للهندية والأردية
- التبعيات العالمية Treebank باللغة الهندية
- التبعيات العالمية المتوازية TreeBank باللغة الهندية - جزء أصغر من بنك الأشجار المذكور أعلاه.
- قائمة محرقة الإطفاء ISI (الهندية والبنغالية)
- قائمة كلمات التوقف بيتر جراهام
- NLTK Corpus 60K Words Pos.
- مراجعة الأفلام الهندية مجموعة بيانات ~ 1K عينات ، 3 فصول قطبية
- BBC News Hindi Dataset 4.3k عينات ، 14 فئة
- IIT PATNA HINDI ABSA DATASENT 5.4K عينات ، 12 مجالات ، شروط جانب 4K ، جانب الجوانب ومستوى الجملة في 4 فئات
- عينات بنغلا absa 5.5k ، 2 مجالات ، 10 شروط الجانب
- IIT Patna مراجعة فيلم مراجعة مجموعة بيانات 2K ، 3 علامات قطبية
يمكن اكتساب مجموعات البيانات/البيانات التي تحتاج إلى تسجيل دخول/وصول عبر البريد الإلكتروني
- Sail 2015 Twitter و Facebook المسمى عينات المشاعر باللغة الهندية ، البنغالية ، التاميل ، التيلجو.
- IIT BOMBAY NLP Resources Sentiwordnet ، CORPORA الموازية للأفلام والسياحة ، CORPORA PORLITY SENSE SENSE CORPUS ، Marathi Polarity المسمى Corpus.
- يقوم TDIL-IC بتجميع الكثير من الموارد المفيدة ويوفر الوصول إلى مجموعات البيانات المسورة خلاف ذلك
نماذج اللغة وتضمينات الكلمات
- Hindi2Vec و NLP-For-Hindi Ulmfit Style Model
- IIT Patna ثنائية اللغة التضمينات Hi-en
- تضمينات كلمة fasttext في مجموعة كاملة من اللغات ، تدرب على الزحف الشائع
- الهندية والبنغالية word2vec
- نموذج الهندية والأردية إلمو
- تدرب السنسكريتية ألبرت على السنسكريتية ويكيبيديا وجسم أوسكار كوربوس
المكتبات والأدوات
- محلل المورفولوجي العميق متعدد المهام في الشبكة المورفولوجية القائمة على الشبكة الهندية والأردية
- Anoop Kunchukuttan 18 لغة ، مجموعة كاملة من الميزات من الرمز المميز إلى الترجمة
- محلل التبعية التبعية التبعية في Sivareddy و Tagger POS للكانادا والهندية وتيلجو. Python3 منفذ
- INLTK - مجموعة أدوات لغة طبيعية للغات المؤسسة (اللغات الفرعية الهندية) التي تم بناؤها على رأس Pytorch/Fastai ، والتي تهدف إلى توفير دعم من المربع لمهام NLP الشائعة.
NLP في التايلاندية
العودة إلى الأعلى
المكتبات
- Pythainlp - التايلاندي NLP في حزمة بيثون
- JTCC - مكتبة مجموعة أحرف في جافا
- Cutkum - تجزئة الكلمات مع التعلم العميق في TensorFlow
- مجموعة أدوات اللغة التايلاندية - استنادًا إلى ورقة كتبها Wirote Aroonmanakun في عام 2002 مع مجموعة البيانات المضمنة
- Synthai - تجزئة الكلمات ووضع علامات POS باستخدام التعلم العميق في Python
بيانات
- Interest - مجموعة نصية مع 5 ملايين كلمة مع تجزئة الكلمات
- رئيس الوزراء 29 - مجموعة البيانات التي تحتوي على خطب رئيس الوزراء الحالي في تايلاند
NLP باللغة الدنماركية
- اسم الاعتراف بالكيان للدنماركي
- Danlp - NLP Resources باللغة الدنماركية
- دنماركي رائع - قائمة منسقة من الموارد الرائعة لتكنولوجيا اللغة الدنماركية
NLP باللغة الفيتنامية
المكتبات
- Undthesea - مجموعة أدوات NLP الفيتنامية
- Vn.Vitk - مجموعة أدوات معالجة النصية الفيتنامية
- Vncorenlp - مجموعة أدوات معالجة اللغة الطبيعية الفيتنامية
- Phobert - نماذج لغة مدربة مسبقًا للفيتناميين
- Pyvi - مجموعة أدوات Python Vietnamese Core NLP
بيانات
- فيتنامي TreeBank - 10000 جملة لمهمة تحليل الدائرة الانتخابية
- BKTreebank - A Vietnamese TreeBank TreeBank
- ud_vietnamese - TreeBank التبعية العالمية الفيتنامية
- Vivos - مجموعة خطاب فيتنامية حرة تتكون من 15 ساعة من تسجيل الكلام بواسطة Ailab
- VntqCorpus (Big) .txt - 1.75 مليون جملة في الأخبار
- Vitext2SQL-مجموعة بيانات للحلية الدلالية النصية إلى SQL (نتائج EMNLP-2020)
- EVB Corpus-20،000،000 كلمة (20 مليون) من 15 كتابًا ثنائي اللغة ، 100 نص موازي إنجليزي-فيتنامي / الفيتناميين والإنجليز ، و 250 نصًا موازيًا للقانون والمرسوم ، و 5000 مقالة إخبارية ، و 2000 ترجمات فيلم.
NLP للهولندية
العودة إلى الأعلى
- Python -frog - Python ملزمة ل Frog ، جناح NLP للهولنديين. (علامات نقاط البيع ، القداس ، تحليل التبعية ، NER)
- Simplenlg_nl - Surface Realiser المستخدمة في توليد اللغة الطبيعية باللغة الهولندية ، استنادًا إلى تنفيذ Simplenlg للغة الإنجليزية والفرنسية.
- Alpino - محلل التبعية للهولنديين (أيضًا ، وضع علامات POS و lemmatisation).
- KALDI NL - نماذج التعرف على الكلام الهولندية على أساس Kaldi.
- Spacy - النموذج الهولندي المتاح. - القوة الصناعية NLP مع Python و Cython.
NLP باللغة الإندونيسية
مجموعات البيانات
- مجموعات Kompas و Tempo في ILPS
- PANL10N لوضع علامات POS: جمل 39K و 900 كيلو رموز كلمة
- IDN لعلامات POS: تحتوي هذه المجموعة على 10K جمل و 250 ألف رموز Word
- بنك الأشجار الإندونيسي وتبعيات عالمية-إنديونية
- Indosum لتلخيص النص وتصنيفه على حد سواء
- Wordnet -Bahasa - قاموس كبير ، مجاني ، دلالي
- يشتمل Indobenchmark Indonlu على نموذج لغة تم تدريبه مسبقًا (IndoBert) ، ونموذج النص السريع ، و indo4b corpus ، والعديد من مجموعات بيانات NLU القياسية
المكتبات والتضمين
- مجموعة أدوات اللغة الطبيعية بهاسا
- كلمة إندونيسية تضمين
- نص النص السريع الإندونيسي المتدرب على ويكيبيديا
- يشتمل Indobenchmark Indonlu على نموذج لغة ما قبل الأملس (Indobert) ، ونموذج FastTex
NLP باللغة الأردية
مجموعات البيانات
- جمع مجموعات بيانات الأردية لمهام POS و NER و NLP
المكتبات
- مكتبة معالجة اللغة الطبيعية للغة الأردية
NLP في الفارسية
العودة إلى الأعلى
المكتبات
- HAZM - مجموعة أدوات NLP الفارسية.
- Parsivar: مجموعة أدوات معالجة اللغة للفارسية
- Perke: Perke هي حزمة استخراج عبارة Python Keyphrase للغة الفارسية. يوفر خط أنابيب لاستخلاص العنقان الرئيسية من طرف إلى طرف يمكن فيه تعديل أو تمديد كل مكون بسهولة لتطوير نماذج جديدة.
- بيرسيم: الجذور الفارسية ، المحلل المورفولوجي ، المترجم ، وجزء جزئي من الكلام
- Parsianalyzer: المحلل الفارسي لـ Elasticsearch
- فيراستار: تنظيف النص الفارسي!
مجموعات البيانات
- Bijankhan Corpus: Bijankhan Corpus هي مجموعة موسومة مناسبة لأبحاث معالجة اللغة الطبيعية حول اللغة الفارسية (الفارسية). تم جمع هذه المجموعة من الأخبار اليومية والنصوص المشتركة. في هذه المجموعة ، يتم تصنيف جميع المستندات إلى مواضيع مختلفة مثل السياسي والثقافي وما إلى ذلك. تماما ، هناك 4300 موضوع مختلف. تحتوي مجموعة Bijankhan على حوالي 2.6 ملايين الكلمات الموسومة يدويًا مع مجموعة العلامات التي تحتوي على 40 علامة POS الفارسية.
- Oppsala Perferian Corpus (UPC): Upspala Perferian Corpus (UPC) هي مجموعة فارسية كبيرة ومتاحة مجانًا. Corpus عبارة عن نسخة معدلة من مجموعة Bijankhan مع تجزئة جملة إضافية ورمز مميز ثابت يحتوي على 2،704،028 رمزًا وشرحًا مع 31 علامة جزئية من النطق. يتم سرد علامات جزء الكلام مع تفسيرات في هذا الجدول.
- Large-Scale Colloquial Persian: Large Scale Colloquial Persian Dataset (LSCP) is hierarchically organized in asemantic taxonomy that focuses on multi-task informal Persian language understanding as a comprehensive problem. LSCP includes 120M sentences from 27M casual Persian tweets with its dependency relations in syntactic annotation, Part-of-speech tags, sentiment polarity and automatic translation of original Persian sentences in English (EN), German (DE), Czech (CS), Italian (IT) and Hindi (HI) spoken languages. Learn more about this project at LSCP webpage.
- ArmanPersoNERCorpus: The dataset includes 250,015 tokens and 7,682 Persian sentences in total. It is available in 3 folds to be used in turn as training and test sets. Each file contains one token, along with its manually annotated named-entity tag, per line. Each sentence is separated with a newline. The NER tags are in IOB format.
- FarsiYar PersianNER: The dataset includes about 25,000,000 tokens and about 1,000,000 Persian sentences in total based on Persian Wikipedia Corpus. The NER tags are in IOB format. More than 1000 volunteers contributed tag improvements to this dataset via web panel or android app. They release updated tags every two weeks.
- PERLEX: The first Persian dataset for relation extraction, which is an expert translated version of the “Semeval-2010-Task-8” dataset. Link to the relevant publication.
- Persian Syntactic Dependency Treebank: This treebank is supplied for free noncommercial use. For commercial uses feel free to contact us. The number of annotated sentences is 29,982 sentences including samples from almost all verbs of the Persian valency lexicon.
- Uppsala Persian Dependency Treebank (UPDT): Dependency-based syntactically annotated corpus.
- Hamshahri: Hamshahri collection is a standard reliable Persian text collection that was used at Cross Language Evaluation Forum (CLEF) during years 2008 and 2009 for evaluation of Persian information retrieval systems.
NLP in Ukrainian
Back to Top
- awesome-ukrainian-nlp - a curated list of Ukrainian NLP datasets, models, etc.
- UkrainianLT - another curated list with a focus on machine translation and speech processing
NLP in Hungarian
Back to Top
- awesome-hungarian-nlp: A curated list of free resources dedicated to Hungarian Natural Language Processing.
NLP in Portuguese
Back to Top
- Portuguese-nlp - a List of resources and tools developed with focus on Portuguese.
Other Languages
- Russian: pymorphy2 - a good pos-tagger for Russian
- Asian Languages: Thai, Lao, Chinese, Japanese, and Korean ICU Tokenizer implementation in ElasticSearch
- Ancient Languages: CLTK: The Classical Language Toolkit is a Python library and collection of texts for doing NLP in ancient languages
- Hebrew: NLPH_Resources - A collection of papers, corpora and linguistic resources for NLP in Hebrew
Back to Top
Credits for initial curators and sources
رخصة
License - CC0