تنزيل awesome nlp - تنزيل رمز مصدر awesome nlp

awesome nlp

شفرة المصدر الأخرى

1.0.0

تنزيل

رهيبة NLP

قائمة منسقة من الموارد المخصصة لمعالجة اللغة الطبيعية

شعار NLP رائع

اقرأ هذا باللغة الإنجليزية الصينية التقليدية

يرجى قراءة إرشادات المساهمة قبل المساهمة. يرجى إضافة مورد NLP المفضل لديك عن طريق رفع طلب سحب

محتويات

ملخصات البحث والاتجاهات
مختبرات أبحاث NLP بارزة
دروس
- قراءة المحتوى
- مقاطع الفيديو والدورات التدريبية
- كتب
المكتبات
- node.js
- بيثون
- C ++
- جافا
- كوتلين
- سكالا
- ص
- clojure
- روبي
- الصدأ
- NLP ++
- جوليا
خدمات
أدوات التعليق
مجموعات البيانات
NLP باللغة الكورية
NLP باللغة العربية
NLP باللغة الصينية
NLP باللغة الألمانية
NLP في البولندية
NLP باللغة الإسبانية
NLP في اللغات المؤديرة
NLP في التايلاندية
NLP باللغة الدنماركية
NLP باللغة الفيتنامية
NLP للهولندية
NLP باللغة الإندونيسية
NLP باللغة الأردية
NLP في الفارسية
NLP باللغة الأوكرانية
NLP باللغة الهنغارية
NLP باللغة البرتغالية
لغات أخرى
الاعتمادات

ملخصات البحث والاتجاهات

NLP-Overview هي نظرة عامة محدثة على تقنيات التعلم العميق المطبقة على NLP ، بما في ذلك النظرية والتطبيقات والتطبيقات والنتائج الحديثة. هذا هو مقدمة رائعة في NLP للباحثين.
يتتبع NLP-Progress التقدم في معالجة اللغة الطبيعية ، بما في ذلك مجموعات البيانات والحالة الحديثة لمهام NLP الأكثر شيوعًا
وصلت لحظة ImageNet NLP
ACL 2018 يبرز: فهم التمثيل والتقييم في إعدادات أكثر تحديا
أربعة اتجاهات التعلم العميق من ACL 2017. الجزء الأول: الهيكل اللغوي وتضمينات الكلمات
أربعة اتجاهات التعلم العميق من ACL 2017. الجزء الثاني: التفسير والاهتمام
أبرز الأحداث في EMNLP 2017: مجموعات بيانات مثيرة ، عودة المجموعات ، وأكثر!
التعلم العميق لمعالجة اللغة الطبيعية (NLP): التطورات والاتجاهات
مسح عن الحالة الفنية في توليد اللغة الطبيعية

مختبرات أبحاث NLP بارزة

العودة إلى الأعلى

مجموعة Berkeley NLP - تتضمن المساهمات البارزة أداة لإعادة بناء اللغات الميتة الطويلة ، المشار إليها هنا ومن خلال أخذ Corpora من 637 لغة تحدثت حاليًا في آسيا والمحيط الهادئ وإعادة إنشاء سليلهم.
معهد تقنيات اللغة ، جامعة كارنيجي ميلون - تشمل المشاريع البارزة مشروع Avenue ، ونظام ترجمة آلي مدفوع بناء الجملة للغات المهددة بالانقراض مثل Quechua و Aymara و Deven ، Ark's Ark الذي أنشأ AQMAR لتحسين أدوات NLP للعربية.
NLP Research Group ، جامعة كولومبيا - مسؤولة عن إنشاء الترباس (معالجة أخطاء تفاعلية لأنظمة ترجمة الكلام) ومشروع غير اسمه لتوصيف الضحك في الحوار.
مركز أو معالجة اللغة والكلام ، جامعة جون هوبكنز - مؤخرًا في الأخبار لتطوير برامج التعرف على الكلام لإنشاء اختبار تشخيصي أو مرض باركنسون ، هنا.
مجموعة اللغويات الحاسوبية ومعالجة المعلومات ، جامعة ماريلاند-تشمل المساهمات البارزة التعاون بين الإنسان والحاسوب أو الإجابة على أسئلة كل كلمة على حدة.
Penn Natural Language Processing ، University of Pennsylvania- مشهور بإنشاء بنك Treebank.
مجموعة معالجة اللغة في ستانفورد- واحدة من أفضل مختبرات أبحاث NLP في العالم ، ملحوظة لإنشاء Stanford Corenlp ونظام حلها الأساسي

دروس

العودة إلى الأعلى

قراءة المحتوى

التعلم الآلي العام

يشرح التعلم الآلي 101 من مهندس الإبداع الكبير من Google التعلم الآلي للمهندسين والمديرين التنفيذيين على حد سواء
AI Playbook - A16Z AI Playbook هو رابط رائع للمضي قدمًا إلى مديريك أو محتوى العروض التقديمية الخاصة بك
مدونة Ruder من قبل Sebastian Ruder للتعليق على أفضل أبحاث NLP
كيفية تسمية دليل البيانات لإدارة مشاريع التعليقات اللغوية الأكبر
يعتمد على مجموعة تعريف منشورات المدونة التي تغطي مجموعة واسعة من موضوعات NLP مع تنفيذ مفصل

مقدمات وأدلة إلى NLP

فهم وتنفيذ معالجة اللغة الطبيعية
NLP في Python - مجموعة من أجهزة الكمبيوتر المحمولة Github
معالجة اللغة الطبيعية: مقدمة - أكسفورد
تعلم عميق لـ NLP مع Pytorch
التدريس التدريجي التدريجي لشراء NLTK - دروس NLTK ، دفاتر Jupyter
معالجة اللغة الطبيعية مع Python - تحليل النص مع مجموعة أدوات اللغة الطبيعية - كتاب على الإنترنت والطباعة يقدم مفاهيم NLP باستخدام NLTK. كتب مؤلفو الكتاب أيضًا مكتبة NLTK.
تدريب نموذج لغة جديد من الصفر - معانقة الوجه؟
The Super Duper NLP REPO (SDNLPR): مجموعة من دفاتر كولاب التي تغطي مجموعة واسعة من تطبيقات مهمة NLP.

المدونات والنشرات الإخبارية

التعلم العميق ، NLP ، والتمثيلات
بيرت المصور ، إلمو ، وشركاه. (كيف تصدع NLP التعلم النقل) والمحول المصور
معالجة اللغة الطبيعية من قبل هال دومي الثالث
Arxiv: معالجة اللغة الطبيعية (تقريبًا) من الصفر
Karpathy هو الفعالية غير المعقولة للشبكات العصبية المتكررة
إتقان التعلم الآلي: التعلم العميق لمعالجة اللغة الطبيعية
ملخصات ورقة NLP المرئية

مقاطع فيديو ودورات عبر الإنترنت

العودة إلى الأعلى

معالجة اللغة الطبيعية المتقدمة - CS 685 ، UMass Amherst CS
معالجة اللغة الطبيعية العميقة - سلسلة محاضرات من أكسفورد
التعلم العميق لمعالجة اللغة الطبيعية (CS224 -N) - دورة ريتشارد سوتشر وكريستوفر مانينغ ستانفورد
الشبكات العصبية لـ NLP - معهد تكنولوجيا اللغة كارنيجي ميلون هناك
دورة NLP العميقة من قبل مدرسة Yandex Data School ، والتي تغطي الأفكار المهمة من تضمين النص إلى الترجمة الآلية بما في ذلك نمذجة التسلسل ، ونماذج اللغة وما إلى ذلك.
FAST.AI Code -First Protro لمعالجة اللغة الطبيعية - يغطي هذا مزيجًا من مواضيع NLP التقليدية (بما في ذلك Regex و SVD و SAY BAYES و TOKENIST) ونهج الشبكة العصبية الحديثة (بما في ذلك RNNS و SEQ2SEQ و GRUS و Transformer) ، بالإضافة إلى معالجة المشكلات الأخلاقية العاجلة ، مثل التحيز والتنسيق. ابحث عن دفاتر Jupyter هنا
جامعة التعلم الآلي - معالجة اللغة الطبيعية المتسارعة - تنتقل المحاضرات من مقدمة إلى NLP ومعالجة النص إلى الشبكات العصبية المتكررة والمحولات. يمكن العثور على المواد هنا.
سلسلة معالجة اللغة الطبيعية التطبيقية من IIT Madras التي تأخذ من الأساسيات وصولاً إلى أجهزة الترميز التلقائي وكل شيء. أجهزة الكمبيوتر المحمولة Github لهذه الدورة متاحة أيضًا هنا

كتب

معالجة الكلام واللغة - مجانًا ، من قبل البروفيسور دان جورافسي
معالجة اللغة الطبيعية - حرة ، ملاحظات NLP للدكتور جاكوب إيزنشتاين في جورجياتك
NLP مع Pytorch - Brian & Delip Rao
تعدين النص في ص
معالجة اللغة الطبيعية مع بيثون
معالجة اللغة الطبيعية العملية
معالجة اللغة الطبيعية مع Spark NLP
التعلم العميق لمعالجة اللغة الطبيعية من قبل ستيفان رايجمكرز
معالجة اللغة الطبيعية في العالم الحقيقي - بواسطة Masato Hagiwara
معالجة اللغة الطبيعية في العمل ، الطبعة الثانية - بقلم هوبسون لين وماريا ديشيل

المكتبات

العودة إلى الأعلى

node.js و javaScript - node.js libaries for nlp | العودة إلى الأعلى
- Twitter -Text - تطبيق JavaScript لمكتبة معالجة النص على Twitter
- knwl.js - معالج لغة طبيعي في JS
- الاستعادة - نظام قابل للتمديد لتحليل اللغة الطبيعية والتلاعب بها
- حل وسط NLP - معالجة اللغة الطبيعية في المتصفح
- مرافق اللغة الطبيعية الطبيعية للعقدة
- Poplar - أداة تعليق توضيحية قائمة على الويب لمعالجة اللغة الطبيعية (NLP)
- NLP.JS - مكتبة NLP لبناء الروبوتات
- إجابة عقدة-إجابة أسئلة سريعة وجاهزة للإنتاج w/ distilbert في node.js
بيثون - مكتبات بيثون NLP | العودة إلى الأعلى
- نماذج المشاعر العاطفية لسباسي باستخدام ONNX
- TextAttack - هجمات الخصومة ، تدريب الخصومة ، وزيادة البيانات في NLP
- TextBlob - توفير واجهة برمجة تطبيقات متسقة للغوص في مهام معالجة اللغة الطبيعية المشتركة (NLP). يقف على الكتفين العملاق من مجموعة أدوات اللغة الطبيعية (NLTK) والنمط ، ويلعب بشكل جيد مع كليهما؟
- Spacy - القوة الصناعية NLP مع Python و Cython؟
- Speedster - قم بتطبيق تقنيات تحسين SOTA تلقائيًا لتحقيق أقصى سرعة للاستدلال على أجهزتك
  - النص - المستوى الأعلى NLP مبني على Spacy
- Gensim - مكتبة Python لإجراء النمذجة الدلالية غير الخاضعة للإشراف من نص عادي؟
- Scattertext - مكتبة Python لإنتاج تصورات D3 لكيفية اختلاف اللغة بين Corpora
- GLUONNLP-مجموعة أدوات تعليمية عميقة لـ NLP ، مبنية على MXNET/GLUON ، للنماذج الأولية للأبحاث والنشر الصناعي لنماذج حديثة على مجموعة واسعة من مهام NLP.
- Allennlp-مكتبة أبحاث NLP ، مبنية على Pytorch ، لتطوير نماذج التعلم العميقة الحديثة على مجموعة واسعة من المهام اللغوية.
- Pytorch -NLP - مجموعة أدوات البحث NLP مصممة لدعم النماذج الأولية السريعة مع لوادر البيانات أفضل ، لوادر ناقلات الكلمات ، تمثيلات طبقة الشبكة العصبية ، مقاييس NLP الشائعة مثل Bleu
- Rosetta - أدوات معالجة النصوص والمغلفات (مثل Wabbit vowpal)
- Pynlpl - مكتبة معالجة اللغة الطبيعية Python. غرض عام NLP مكتبة لـ Python ، مع بعض التنسيقات المحددة مثل نماذج لغة ARPA ، موسى phrasetables ، محاذاة Giza ++.
- Foliapy - مكتبة Python للعمل مع Folia ، تنسيق XML للتعليق اللغوي.
- PYSS3 - حزمة Python التي تنفذ نموذجًا جديدًا للتعلم الآلي في صندوق أبيض لتصنيف النص ، يسمى SS3. نظرًا لأن SS3 لديه القدرة على شرح الأساس المنطقي بصريًا ، فإن هذه الحزمة تأتي أيضًا مع أدوات تصور تفاعلية سهلة الاستخدام (العروض التوضيحية عبر الإنترنت).
- JPTDP-مجموعة أدوات لتوصيل العلامات الجزئي (POS) المشترك (POS) وتجميل التبعية. يوفر JPTDP نماذج مدربة مسبقًا لأكثر من 40 لغة.
- Bigartm - مكتبة سريعة لنمذجة الموضوع
- Snips NLU - مكتبة جاهزة للإنتاج لتحليل القصد
- Chazutsu - مكتبة لتنزيل وتجميل مجموعات بيانات أبحاث NLP القياسية
- نماذج الكلمات - يمكن أن تنشئ أشكال الكلمات بدقة جميع الأشكال الممكنة للكلمة الإنجليزية
- تخصيص dirichlet الكامن متعدد اللغات (LDA) - خط أنابيب لتجميع المستندات متعدد اللغات وقابل للتمديد
- مجموعة أدوات اللغة الطبيعية (NLTK) - مكتبة تحتوي على مجموعة واسعة من وظائف NLP ، تدعم أكثر من 50 شركة.
- NLP Architect-مكتبة لاستكشاف طبولوجيا وتقنيات التعلم العميق الحديثة لـ NLP و NLU
- FLAIR-إطار عمل بسيط للغاية لحالة NLP متعددة اللغات على أحدث طراز. يشمل بيرت ، إلمو وتوضيح التضمينات.
- Kashgari-يتيح لك Keras Framework NLP Simple ، الذي يعمل بنظام NLP ، بإنشاء نماذجك في 5 دقائق للتعرف على الكيان المسماة (NER) ، وعلامات جزئية (POS) ومهام تصنيف النص. يتضمن التضمين Bert و Word2Vec.
- المزرعة - التعلم السريع وسهل النقل لـ NLP. حصاد نماذج اللغة للصناعة. ركز على إجابة الأسئلة.
- Haystack-إطار Python من شامل إلى النهاية لبناء واجهات بحث اللغة الطبيعية للبيانات. يعزز المحولات وحالة NLP الحديثة. يدعم DPR ، Elasticsearch ، Huggingface's ModelHub ، وأكثر من ذلك بكثير!
- Rita DSL - A DSL ، على أساس روتا على Apache Uima. يسمح بتحديد أنماط اللغة (NLP المستندة إلى القواعد) والتي تتم ترجمتها بعد ذلك إلى Spacy ، أو إذا كنت تفضل ميزات أقل وأنماط REGEX خفيفة الوزن.
- المحولات - معالجة اللغة الطبيعية لـ TensorFlow 2.0 و Pytorch.
- المميزات - المميزات المحسنة للبحث والإنتاج.
- Fairseq Facebook AI Research Adeasions لنماذج Sota Seq2Seq في Pytorch.
- COREX_TOPIC - نمذجة الموضوع الهرمي مع الحد الأدنى من معرفة المجال
- Sockeye - مجموعة أدوات الترجمة الآلية العصبية (NMT) التي تترجم Amazon.
- DL Translate - مكتبة ترجمة عميقة تعتمد على التعلم مقابل 50 لغة ، مبنية على transformers و MBART الكبيرة في Facebook.
- هيئة المحلفين - تقييم مخرجات طراز NLP التي توفر مقاييس آلية مختلفة.
- Python-ucto-Unicode-Awar-earned-Expression على أساس الرمز المميز لمختلف اللغات. Python ملزمة لمكتبة C ++ ، يدعم تنسيق Folia.

C ++ - C ++ مكتبات | العودة إلى الأعلى
- Insnet-مكتبة شبكة عصبية لبناء نماذج NLP المعتمدة على المثيلات مع تجديد ديناميكي خالي من الحشو.
- مجموعة أدوات استخراج معلومات معهد ماساتشوستس للتكنولوجيا - أدوات C ، C ++ ، و Python للتعرف على الكيان المسمى واستخراج العلاقة
- CRF ++ - تنفيذ المصدر المفتوح للحقول العشوائية الشرطية (CRFs) لتجزئة/وضع بيانات متسلسلة ومهام معالجة اللغة الطبيعية الأخرى.
- CRFSUITE - CRFSUITE هو تنفيذ الحقول العشوائية الشرطية (CRFs) لوصف البيانات المتسلسلة.
- BLLIP PARSER - BLLIP Natural Language Parser (المعروف أيضًا باسم Charniak -Johnson Parser)
- CoLibri-Core-C ++ Library ، أدوات سطر الأوامر ، وربط Python لاستخراج وتشغيل الإنشاءات اللغوية الأساسية مثل n-grams و skipgrams بطريقة سريعة وفعالة الذاكرة.
- UCTO-UNICODE-AWAR-ENRANCEDERSERISTERSERISER على أساس لغات مختلفة. أداة ومكتبة C ++. يدعم تنسيق Folia.
- LIBFOLIA - مكتبة C ++ لتنسيق Folia
- FROG - جناح NLP القائم على الذاكرة تم تطويره للهولنديين: POS TAGGER ، LEMMATISER ، محلل التبعية ، NER ، محلل ضحل ، محلل مورفولوجي.
- META - META: تحليل النص الحديث هو مجموعة أدوات C ++ لعلوم البيانات التي تسهل تعدين بيانات النص الكبير.
- ميكاب (يابانية)
- موسى
- StarSpace-مكتبة من Facebook لإنشاء تضمينات من مستوى الكلمات ، مستوى الفقرة ، على مستوى المستندات ولتصنيف النص
Java - Java NLP Libraries | العودة إلى الأعلى
- ستانفورد NLP
- OpenNLP
- NLP4J
- Word2Vec في Java
- REFRB SCALY SCALE OPEN OPEN
- OpenRegex لغة ومحرك تعبير منتظم فعال ومرن.
- COGCOMPNLP - المكتبات الأساسية التي تم تطويرها في مجموعة الحساب المعرفية في إلينوي.
- Mallet - Machine Learning for Language Toolkit - حزمة لمعالجة اللغة الطبيعية الإحصائية ، وتصنيف المستندات ، والتجميع ، ونمذجة الموضوع ، واستخراج المعلومات ، وتطبيقات التعلم الآلي الأخرى للنص.
- RDRPostagger - مجموعة أدوات وضعية قوية في وضع POS متوفرة (في كل من Java & Python) مع نماذج تدرب مسبقًا لأكثر من 40 لغة.
Kotlin - Kotlin NLP Libraries | العودة إلى الأعلى
- Lingua مكتبة اكتشاف اللغة لكوتلين وجافا ، مناسبة للنص الطويل والقصير على حد سواء
- Kotidgy-مولد بيانات نصية قائم على الفهرس مكتوب في Kotlin
Scala - Scala NLP Libraries | العودة إلى الأعلى
- شاول - مكتبة لتطوير أنظمة NLP ، بما في ذلك وحدات مدمجة مثل SRL ، POS ، إلخ.
- ATR4S-مجموعة أدوات مع أساليب التعرف على مصطلح الأوقات التلقائية الحديثة.
- TM - تنفيذ نمذجة الموضوع بناءً على PLSA متعدد اللغات.
- Word2Vec -Scala - واجهة Scala إلى نموذج Word2Vec ؛ يتضمن عمليات على ناقلات مثل مسافة الكلمات وعلم الكلمات.
- Epic - Epic هو محلل إحصائي عالي الأداء مكتوب في Scala ، إلى جانب إطار لبناء نماذج تنبؤ منظمة معقدة.
- Spark NLP - Spark NLP هي مكتبة معالجة اللغة الطبيعية مبنية على رأس Apache Spark ML والتي توفر شرحًا بسيطًا وأداء ودقيقًا لخطوط أنابيب التعلم الآلي التي تتوسع بسهولة في بيئة موزعة.
R - R NLP Libraries | العودة إلى الأعلى
- Text2Vec - تسوية سريعة ونمذجة الموضوع والمسافات وتضمينات Word Word في R.
- WordVectors - حزمة R لإنشاء واستكشاف Word2Vec ونماذج تضمين الكلمات الأخرى
- حزمة RMALLET - R للتفاعل مع MACHING TOOL MALLET JAVA
- DFR -Browser - ينشئ تصورات D3 لتصفح نماذج موضوع النص في متصفح الويب.
- حزمة dfrtopics - r لاستكشاف نماذج موضوع النص.
- Sument_classifier - تصنيف المشاعر باستخدام كلمة الغموض وقارئ WordNet
- Jprocessing - مكتبات معالجة Langauge اليابانية ، مع تصنيف المشاعر اليابانية
- CorporAexplorer - حزمة R للاستكشاف الديناميكي لمجموعات النص
- TidyText - تعدين النص باستخدام أدوات مرتبة
- Spacyr - R clospper to Spacy NLP
- عرض المهمة الرافعة: معالجة اللغة الطبيعية
clojure | العودة إلى الأعلى
- Clojure -opennlp - معالجة اللغة الطبيعية في clojure (OpenNLP)
- العدوى-ClJ-مكتبة انعطاف تشبه القضبان ل clojure و clojurecript
- Postagga - مكتبة لتحليل اللغة الطبيعية في clojure و clojurecript
روبي | العودة إلى الأعلى
- Kevin Dias's مجموعة من مكتبات وأدوات وبرامج معالجة اللغة الطبيعية (NLP)
- معالجة اللغة الطبيعية العملية في روبي
الصدأ | العودة إلى الأعلى
- Whatlang - مكتبة التعرف على اللغة الطبيعية على أساس trigrams
- Snips-NLU-RS-مكتبة جاهزة للإنتاج لتحليل القصد
- Rust-Bert-خطوط أنابيب NLP جاهزة للاستخدام والنماذج القائمة على المحولات
NLP ++ - NLP ++ لغة | العودة إلى الأعلى
- امتداد لغة VSCODE - امتداد لغة NLP ++ لـ VSCODE
- NLP -Legine - NLP ++ محرك لتشغيل رمز NLP ++ على Linux بما في ذلك محلل اللغة الإنجليزية الكامل
- VisualText - الصفحة الرئيسية للغة NLP ++
- NLP ++ Wiki - إدخال wiki للغة NLP ++
جوليا | العودة إلى الأعلى
- Corpusloaders - مجموعة متنوعة من اللوادر لمختلف NLP Corpora
- اللغات - حزمة للعمل مع اللغات البشرية
- التحليل النصي - حزمة جوليا لتحليل النص
- TextModels - النماذج القائمة على الشبكة العصبية لمعالجة اللغة الطبيعية
- WordTokenizers - الرمز المميزات عالية الأداء لمعالجة اللغة الطبيعية والمهام الأخرى ذات الصلة
- Word2Vec - Julia Interface to Word2Vec

خدمات

NLP مثل API مع وظائف المستوى الأعلى مثل NER ، وعلم الموضوع وما إلى ذلك على | العودة إلى الأعلى

WIT -AI - واجهة لغة طبيعية للتطبيقات والأجهزة
فهم اللغة الطبيعية لـ IBM Watson - API و Github Demo
Amazon Commandend - يغطي جناح NLP و ML أكثر المهام شيوعًا مثل NER ، ووضع العلامات ، وتحليل المشاعر
Google Cloud Language API - تحليل بناء الجملة ، NER ، تحليل المشاعر ، وعلامة المحتوى بلغات على الأقل 9 لغات اللغة الإنجليزية والصينية (مبسطة وتقليدية).
موازية - خدمة API ذات مستوى عالي المستوى تتراوح من تحليل المشاعر إلى تحليل القصد
خدمة Microsoft المعرفية
Textrazor
وردة
Textaltic - معالجة اللغة الطبيعية في المتصفح مع تحليل المشاعر ، واستخراج الكيان المسماة ، ووضع علامات POS ، وترددات الكلمات ، ونمذجة الموضوع ، والغيوم الكلمات ، والمزيد
نماذج NLP Cloud - SPACY NLP (تلك المخصصة والمدربة مسبقًا) تقدم من خلال واجهة برمجة تطبيقات مريحة للتعرف على الكيان المسماة (NER) ، وضع علامات POS ، وأكثر من ذلك.
CloudMersive - واجهات برمجة تطبيقات NLP موحدة ومجانية تؤدي إجراءات مثل وضع العلامات على الكلام ، وإعادة صياغة النص ، وترجمة اللغة/الكشف ، وحلية الجملة

أدوات التعليق

البوابة - العمارة العامة وهندسة النصوص عمرها 15 سنة ، مجانية ومفتوحة المصدر
Anafora هي أداة شرح نص RAW مجانية ومفتوحة المصدر ،
Brat - Brat Rapid Strenotation Tool هي بيئة عبر الإنترنت للتعليق على النصوص التعاونية
DOCCANO - DOCCANO مجاني ومفتوح المصدر ويوفر ميزات شرح لتصنيف النص ، وضع تسلسل وتسلسل للتسلسل
Inception - منصة شرح دلالية تقدم مساعدة ذكية وإدارة المعرفة
Tagtog ، أداة الويب الأولى للاتصال للعثور على مجموعات البيانات وإنشائها وصيانتها ومشاركتها - تكاليف $
Prodigy هي أداة تعليق توضيحية مدعوم من التعلم النشط ، وتكاليف $
Lighttag - أداة شرح نصية مستضافة ومدارة للفرق ، تكلف $ $
RSTWEB - أداة محلية أو عبر الإنترنت مفتوحة المصدر لشروحات شجرة الخطاب
GITDOX - أداة تعليق توضيح خادم مفتوح المصدر مع التحكم في إصدار GITHUB والتحقق من صحته لبيانات XML وشبكات جداول البيانات التعاونية
استوديو الملصقات - أداة شرح نصية مستضافة وإدارتها للفرق ، القائمة على فريميوم ، تكلف $
تدعم Datasaur مهام NLP المختلفة للفرد أو الفرق ، على أساس فريميوم
Konfuzio-Team First Host و On-Prem Text ، Image و PDF أداة التعليقات المتعددة المدعومة من التعلم النشط ، القائم على Freemium ، يكلف $ $
UBIAI-أداة شرح نصية سهلة الاستخدام للفرق التي لديها أكثر ميزات التركيب التلقائي. يدعم NER ، والعلاقات وتصنيف المستندات وكذلك التعليق التوضيحي للرسوم التعليمية على OCR لوضع الفاتورة ، تكلف $ $
Shoonya - Shoonya هي منصة التعليقات الشرح المجانية والمفتوحة المصدر مع فروق واسعة من نظام إدارة مستوى المنظمة ومساحة العمل. Shoonya هو غير مؤلف للبيانات ، ويمكن استخدامها من قبل الفرق لتوضيح البيانات بمستوى مختلف من مراحل التحقق على نطاق واسع.
معمل التعليقات التوضيحية-منصة خالية من الرمز من طرف إلى طرف لشرح نصوص وضبط نموذج DL. الدعم خارج الصندوق للتعرف على الكيان المسماة والتصنيف واستخراج العلاقة ونماذج حالة التأكيد تشرف نماذج NLP. دعم غير محدود للمستخدمين والفرق والمشاريع والمستندات. لا فوس.
Flat-Flat-هي بيئة شرحية لغوية تعتمد على الويب تستند إلى تنسيق Folia ، وهو تنسيق غني يعتمد على XML للتعليق اللغوي. المصدر المجاني والمفتوح.

التقنيات

تضمينات النص

تضمينات كلمة

قاعدة الإبهام: fasttext >> Glove> Word2Vec
Word2Vec - التنفيذ - مدونة شرح
قفاز - مدونة شرح
fasttext - التنفيذ - ورقة - مدونة شرح

جملة ونموذج اللغة القائمة على تضمينات الكلمات

العودة إلى الأعلى

إلمو - تمثيلات الكلمات العميقة السياقية - تنفيذ Pytorch - تنفيذ TF
ULMFIT - نموذج اللغة العالمي لتصنيف النص من قبل جيريمي هوارد و Sebastian Ruder
Infersent - التعلم الخاضع للإشراف لتمثيلات الجملة العالمية من بيانات استنتاج اللغة الطبيعية بواسطة Facebook
Cove - تعلمت في الترجمة: ناقلات الكلمات السياقية
ناقلات Pargraph - من التمثيل الموزع للجمل والوثائق. انظر البرنامج التعليمي DOC2VEC في Gensim
SENSE2VEC - ON WORD SENSE DISAMBIGUTY
تخطي ناقلات الفكر - طريقة تمثيل الكلمات
Skip -Gram التكيفي - نهج مماثل ، مع خصائص تكيفية
تسلسل إلى تسلسل التعلم - ناقلات الكلمات للترجمة الآلية

إجابة الأسئلة واستخراج المعرفة

العودة إلى الأعلى

DRQA - OPEN DOMAIN سؤال الإجابة على العمل عن طريق أبحاث Facebook على بيانات ويكيبيديا
Document-QA-فهم القراءة المتعددة الفقرات البسيطة والفعالة بواسطة Allenai
استخراج المعلومات المستندة إلى القالب بدون القوالب
Privee: بنية لتحليل سياسات خصوصية الويب تلقائيًا

مجموعات البيانات

العودة إلى الأعلى

NLP-Datasets مجموعة رائعة من مجموعات بيانات NLP
Gensim -Data - مستودع البيانات لنماذج NLP PretRained و NLP Corpora.

أطر NLP متعددة اللغات

العودة إلى الأعلى

UDPipe هو خط أنابيب قابل للتدريب لتصوير الرمز المميز ، العلامات ، واضطراب الشجر العالمي وتوحل ملفات Conll-U الأخرى. مكتوبة بشكل أساسي في C ++ ، يوفر حلاً سريعًا وموثوقًا بمعالجة NLP متعددة اللغات.
NLP-Cube: خط أنابيب معالجة اللغة الطبيعية-تقسيم الجملة ، الرمز المميز ، الترشيح ، وضع علامات جزء من الكلام وحلية التبعية. منصة جديدة ، مكتوبة في Python مع Dynet 2.0. يقدم مستقلًا (روابط CLI/Python) ووظائف الخادم (API REST).
URALICNLP هي مكتبة NLP في الغالب للعديد من اللغات الأورالية المهددة بالانقراض مثل لغات SAMI ولغات Mordvin ولغات الماري ولغات KOMI وما إلى ذلك. كما يتم دعم بعض اللغات غير المغلفة مثل الفنلندية مع اللغات غير الريفية مثل السويدية والعربية. يمكن أن يقوم Uralicnlp بالتحليل المورفولوجي ، والتوليد ، والتشويش والغموض.

NLP باللغة الكورية

العودة إلى الأعلى

المكتبات

Konlpy - حزمة Python لمعالجة اللغة الطبيعية الكورية.
مكاب (كوري) - مكتبة C ++ لـ NLP الكورية
Koalanlp - مكتبة Scala لمعالجة اللغة الطبيعية الكورية.
حزمة Konlp - R لمعالجة اللغة الطبيعية الكورية

المدونات والدروس

مدونة Dsindex
دورة NLP بجامعة Kangwon باللغة الكورية

مجموعات البيانات

Kaist Corpus - مجموعة من معهد كوريا المتقدم للعلوم والتكنولوجيا باللغة الكورية.
مجموعة أفلام مشاعر نيفر باللغة الكورية
أرشيف Chosun Ilbo - مجموعة بيانات باللغة الكورية من إحدى الصحف الرئيسية في كوريا الجنوبية ، The Chosun Ilbo.
بيانات الدردشة - بيانات chatbot باللغة الكورية
الالتماسات - جمع بيانات الالتماس المنتهية الصلاحية من موقع العريضة الوطنية في Blue House.
مجموعة بيانات الكورية الموازية - ترجمة الآلة العصبية (NMT) للكوريين إلى الفرنسية والكورية إلى الإنجليزية
Korquad - مجموعة بيانات فرقة الكورية مع مصدر ويكي HTML. يذكر كل من V1.0 و V2.1 في وقت إضافة إلى NLP رهيبة

NLP باللغة العربية

العودة إلى الأعلى

المكتبات

Goarabic - Go Package لمعالجة النص العربي
JSASTEM - JavaScript للنقاش العربي
Pyarabic - مكتبات Python للعربية
Rftokenizer - قطاع Python القابل للتدريب للعربية والعبرية والقببية

مجموعات البيانات

مجموعات بيانات متعددة الدوامات - أكبر موارد متعددة المجالات متاحة لتحليل المشاعر العربية
LABR - مراجعة الكتب العربية الكبيرة مجموعة بيانات
كلمات التوقف العربية - قائمة كلمات التوقف العربية من موارد مختلفة

NLP باللغة الصينية

العودة إلى الأعلى

المكتبات

Jieba - Python Package for Words Motictiation Attilities باللغة الصينية
Snownlp - حزمة Python لـ NLP الصينية
Fudannlp - مكتبة Java لمعالجة النص الصيني
HANLP - مكتبة NLP متعددة اللغات

مقتطفات

Funnlp - مجموعة من أدوات وموارد NLP بشكل أساسي للصينية

NLP باللغة الألمانية

German-NLP-قائمة منسقة من الموارد والأدوات المفتوحة/المفتوحة المصدر/الجرف التي تم تطويرها مع تركيز خاص على الألمانية

NLP في البولندية

Polish -NLP - قائمة منسقة من الموارد المخصصة لمعالجة اللغة الطبيعية (NLP) باللغة البولندية. النماذج والأدوات ومجموعات البيانات.

NLP باللغة الإسبانية

العودة إلى الأعلى

المكتبات

SPANLP - مكتبة Python لاكتشاف والرقابة والتنظيف الألفاظ النابية ، الابتذال ، الكلمات البغيضة ، العنصرية ، رهاب الأجانب والبلطجة في النصوص المكتوبة باللغة الإسبانية. أنه يحتوي على بيانات من 21 دولة الناطقة بالإسبانية.

بيانات

الخطب السياسية الكولومبية
كوبنهاغن تريبانك
المليارات الإسبانية كوربوس مع تضمينات Word2Vec
مجموعة من الشركات الإسبانية غير المقطوعة

تدمسينات الكلمة والجملة

تضمينات الكلمة الإسبانية محسوبة بطرق مختلفة ومن شركة مختلفة
تضمينات الكلمة الإسبانية محسوبة من شركة كبيرة وأحجام مختلفة باستخدام fasttext
التضمينات الجملة الإسبانية المحسوبة من شركة كبيرة باستخدام Sent2Vec
بيتو - بيرت للإسبانية

NLP في اللغات المؤديرة

العودة إلى الأعلى

البيانات ، corpora و treebanks

TreeBank التبعية الهندية-شجرة متعددة الطبقات متعددة الطبقات للهندية والأردية
التبعيات العالمية Treebank باللغة الهندية
- التبعيات العالمية المتوازية TreeBank باللغة الهندية - جزء أصغر من بنك الأشجار المذكور أعلاه.
قائمة محرقة الإطفاء ISI (الهندية والبنغالية)
قائمة كلمات التوقف بيتر جراهام
NLTK Corpus 60K Words Pos.
مراجعة الأفلام الهندية مجموعة بيانات ~ 1K عينات ، 3 فصول قطبية
BBC News Hindi Dataset 4.3k عينات ، 14 فئة
IIT PATNA HINDI ABSA DATASENT 5.4K عينات ، 12 مجالات ، شروط جانب 4K ، جانب الجوانب ومستوى الجملة في 4 فئات
عينات بنغلا absa 5.5k ، 2 مجالات ، 10 شروط الجانب
IIT Patna مراجعة فيلم مراجعة مجموعة بيانات 2K ، 3 علامات قطبية

يمكن اكتساب مجموعات البيانات/البيانات التي تحتاج إلى تسجيل دخول/وصول عبر البريد الإلكتروني

Sail 2015 Twitter و Facebook المسمى عينات المشاعر باللغة الهندية ، البنغالية ، التاميل ، التيلجو.
IIT BOMBAY NLP Resources Sentiwordnet ، CORPORA الموازية للأفلام والسياحة ، CORPORA PORLITY SENSE SENSE CORPUS ، Marathi Polarity المسمى Corpus.
يقوم TDIL-IC بتجميع الكثير من الموارد المفيدة ويوفر الوصول إلى مجموعات البيانات المسورة خلاف ذلك

نماذج اللغة وتضمينات الكلمات

Hindi2Vec و NLP-For-Hindi Ulmfit Style Model
IIT Patna ثنائية اللغة التضمينات Hi-en
تضمينات كلمة fasttext في مجموعة كاملة من اللغات ، تدرب على الزحف الشائع
الهندية والبنغالية word2vec
نموذج الهندية والأردية إلمو
تدرب السنسكريتية ألبرت على السنسكريتية ويكيبيديا وجسم أوسكار كوربوس

المكتبات والأدوات

محلل المورفولوجي العميق متعدد المهام في الشبكة المورفولوجية القائمة على الشبكة الهندية والأردية
Anoop Kunchukuttan 18 لغة ، مجموعة كاملة من الميزات من الرمز المميز إلى الترجمة
محلل التبعية التبعية التبعية في Sivareddy و Tagger POS للكانادا والهندية وتيلجو. Python3 منفذ
INLTK - مجموعة أدوات لغة طبيعية للغات المؤسسة (اللغات الفرعية الهندية) التي تم بناؤها على رأس Pytorch/Fastai ، والتي تهدف إلى توفير دعم من المربع لمهام NLP الشائعة.

NLP في التايلاندية

العودة إلى الأعلى

المكتبات

Pythainlp - التايلاندي NLP في حزمة بيثون
JTCC - مكتبة مجموعة أحرف في جافا
Cutkum - تجزئة الكلمات مع التعلم العميق في TensorFlow
مجموعة أدوات اللغة التايلاندية - استنادًا إلى ورقة كتبها Wirote Aroonmanakun في عام 2002 مع مجموعة البيانات المضمنة
Synthai - تجزئة الكلمات ووضع علامات POS باستخدام التعلم العميق في Python

بيانات

Interest - مجموعة نصية مع 5 ملايين كلمة مع تجزئة الكلمات
رئيس الوزراء 29 - مجموعة البيانات التي تحتوي على خطب رئيس الوزراء الحالي في تايلاند

NLP باللغة الدنماركية

اسم الاعتراف بالكيان للدنماركي
Danlp - NLP Resources باللغة الدنماركية
دنماركي رائع - قائمة منسقة من الموارد الرائعة لتكنولوجيا اللغة الدنماركية

NLP باللغة الفيتنامية

المكتبات

Undthesea - مجموعة أدوات NLP الفيتنامية
Vn.Vitk - مجموعة أدوات معالجة النصية الفيتنامية
Vncorenlp - مجموعة أدوات معالجة اللغة الطبيعية الفيتنامية
Phobert - نماذج لغة مدربة مسبقًا للفيتناميين
Pyvi - مجموعة أدوات Python Vietnamese Core NLP

بيانات

فيتنامي TreeBank - 10000 جملة لمهمة تحليل الدائرة الانتخابية
BKTreebank - A Vietnamese TreeBank TreeBank
ud_vietnamese - TreeBank التبعية العالمية الفيتنامية
Vivos - مجموعة خطاب فيتنامية حرة تتكون من 15 ساعة من تسجيل الكلام بواسطة Ailab
VntqCorpus (Big) .txt - 1.75 مليون جملة في الأخبار
Vitext2SQL-مجموعة بيانات للحلية الدلالية النصية إلى SQL (نتائج EMNLP-2020)
EVB Corpus-20،000،000 كلمة (20 مليون) من 15 كتابًا ثنائي اللغة ، 100 نص موازي إنجليزي-فيتنامي / الفيتناميين والإنجليز ، و 250 نصًا موازيًا للقانون والمرسوم ، و 5000 مقالة إخبارية ، و 2000 ترجمات فيلم.

NLP للهولندية

العودة إلى الأعلى

Python -frog - Python ملزمة ل Frog ، جناح NLP للهولنديين. (علامات نقاط البيع ، القداس ، تحليل التبعية ، NER)
Simplenlg_nl - Surface Realiser المستخدمة في توليد اللغة الطبيعية باللغة الهولندية ، استنادًا إلى تنفيذ Simplenlg للغة الإنجليزية والفرنسية.
Alpino - محلل التبعية للهولنديين (أيضًا ، وضع علامات POS و lemmatisation).
KALDI NL - نماذج التعرف على الكلام الهولندية على أساس Kaldi.
Spacy - النموذج الهولندي المتاح. - القوة الصناعية NLP مع Python و Cython.

NLP باللغة الإندونيسية

مجموعات البيانات

مجموعات Kompas و Tempo في ILPS
PANL10N لوضع علامات POS: جمل 39K و 900 كيلو رموز كلمة
IDN لعلامات POS: تحتوي هذه المجموعة على 10K جمل و 250 ألف رموز Word
بنك الأشجار الإندونيسي وتبعيات عالمية-إنديونية
Indosum لتلخيص النص وتصنيفه على حد سواء
Wordnet -Bahasa - قاموس كبير ، مجاني ، دلالي
يشتمل Indobenchmark Indonlu على نموذج لغة تم تدريبه مسبقًا (IndoBert) ، ونموذج النص السريع ، و indo4b corpus ، والعديد من مجموعات بيانات NLU القياسية

المكتبات والتضمين

مجموعة أدوات اللغة الطبيعية بهاسا
كلمة إندونيسية تضمين
نص النص السريع الإندونيسي المتدرب على ويكيبيديا
يشتمل Indobenchmark Indonlu على نموذج لغة ما قبل الأملس (Indobert) ، ونموذج FastTex

NLP باللغة الأردية

مجموعات البيانات

جمع مجموعات بيانات الأردية لمهام POS و NER و NLP

المكتبات

مكتبة معالجة اللغة الطبيعية للغة الأردية

NLP في الفارسية

العودة إلى الأعلى

المكتبات

HAZM - مجموعة أدوات NLP الفارسية.
Parsivar: مجموعة أدوات معالجة اللغة للفارسية
Perke: Perke هي حزمة استخراج عبارة Python Keyphrase للغة الفارسية. يوفر خط أنابيب لاستخلاص العنقان الرئيسية من طرف إلى طرف يمكن فيه تعديل أو تمديد كل مكون بسهولة لتطوير نماذج جديدة.
بيرسيم: الجذور الفارسية ، المحلل المورفولوجي ، المترجم ، وجزء جزئي من الكلام
Parsianalyzer: المحلل الفارسي لـ Elasticsearch
فيراستار: تنظيف النص الفارسي!

مجموعات البيانات

Bijankhan Corpus: Bijankhan Corpus هي مجموعة موسومة مناسبة لأبحاث معالجة اللغة الطبيعية حول اللغة الفارسية (الفارسية). تم جمع هذه المجموعة من الأخبار اليومية والنصوص المشتركة. في هذه المجموعة ، يتم تصنيف جميع المستندات إلى مواضيع مختلفة مثل السياسي والثقافي وما إلى ذلك. تماما ، هناك 4300 موضوع مختلف. تحتوي مجموعة Bijankhan على حوالي 2.6 ملايين الكلمات الموسومة يدويًا مع مجموعة العلامات التي تحتوي على 40 علامة POS الفارسية.
Oppsala Perferian Corpus (UPC): Upspala Perferian Corpus (UPC) هي مجموعة فارسية كبيرة ومتاحة مجانًا. Corpus عبارة عن نسخة معدلة من مجموعة Bijankhan مع تجزئة جملة إضافية ورمز مميز ثابت يحتوي على 2،704،028 رمزًا وشرحًا مع 31 علامة جزئية من النطق. يتم سرد علامات جزء الكلام مع تفسيرات في هذا الجدول.
Large-Scale Colloquial Persian: Large Scale Colloquial Persian Dataset (LSCP) is hierarchically organized in asemantic taxonomy that focuses on multi-task informal Persian language understanding as a comprehensive problem. LSCP includes 120M sentences from 27M casual Persian tweets with its dependency relations in syntactic annotation, Part-of-speech tags, sentiment polarity and automatic translation of original Persian sentences in English (EN), German (DE), Czech (CS), Italian (IT) and Hindi (HI) spoken languages. Learn more about this project at LSCP webpage.
ArmanPersoNERCorpus: The dataset includes 250,015 tokens and 7,682 Persian sentences in total. It is available in 3 folds to be used in turn as training and test sets. Each file contains one token, along with its manually annotated named-entity tag, per line. Each sentence is separated with a newline. The NER tags are in IOB format.
FarsiYar PersianNER: The dataset includes about 25,000,000 tokens and about 1,000,000 Persian sentences in total based on Persian Wikipedia Corpus. The NER tags are in IOB format. More than 1000 volunteers contributed tag improvements to this dataset via web panel or android app. They release updated tags every two weeks.
PERLEX: The first Persian dataset for relation extraction, which is an expert translated version of the “Semeval-2010-Task-8” dataset. Link to the relevant publication.
Persian Syntactic Dependency Treebank: This treebank is supplied for free noncommercial use. For commercial uses feel free to contact us. The number of annotated sentences is 29,982 sentences including samples from almost all verbs of the Persian valency lexicon.
Uppsala Persian Dependency Treebank (UPDT): Dependency-based syntactically annotated corpus.
Hamshahri: Hamshahri collection is a standard reliable Persian text collection that was used at Cross Language Evaluation Forum (CLEF) during years 2008 and 2009 for evaluation of Persian information retrieval systems.

NLP in Ukrainian

Back to Top

awesome-ukrainian-nlp - a curated list of Ukrainian NLP datasets, models, etc.
UkrainianLT - another curated list with a focus on machine translation and speech processing

NLP in Hungarian

Back to Top

awesome-hungarian-nlp: A curated list of free resources dedicated to Hungarian Natural Language Processing.

NLP in Portuguese

Back to Top

Portuguese-nlp - a List of resources and tools developed with focus on Portuguese.

Other Languages

Russian: pymorphy2 - a good pos-tagger for Russian
Asian Languages: Thai, Lao, Chinese, Japanese, and Korean ICU Tokenizer implementation in ElasticSearch
Ancient Languages: CLTK: The Classical Language Toolkit is a Python library and collection of texts for doing NLP in ancient languages
Hebrew: NLPH_Resources - A collection of papers, corpora and linguistic resources for NLP in Hebrew

Back to Top

Credits for initial curators and sources