المورد التايلاندي NLP
مجموعة من مكتبات برامج معالجة اللغة الطبيعية التايلاندية (NLP) ، والقواميس ، والجسم. نرحب دائمًا بطلبات السحب.
المكتبات/الخدمات
مجموعة الشخصية التايلاندية
| مكتبة | وصف | لغات البرمجة | سمات | رخصة | المؤلف والرابط |
|---|
| JTCC | مجموعة الشخصية التايلاندية | جافا | | GPL-3.0 | ويتاوات |
| TCC | مجموعة الشخصية التايلاندية | بيثون | | Apache 2.0 | Wannaphong |
تحليل المشاعر
| مكتبة | وصف | لغات البرمجة | سمات | رخصة | المؤلف والرابط |
|---|
| المشاعر _analysis_thai | | | | | Jagerv3 |
Soundex
| مكتبة | وصف | لغات البرمجة | سمات | رخصة | المؤلف والرابط |
|---|
| Pythainlp | بيثون 3 | LK82 + UDOM83 | Apache 2.0 | كوراكوت ، جيثب | |
تجزئة الكلمات
| مكتبة | وصف | لغات البرمجة | سمات | رخصة | المؤلف والرابط |
|---|
| شامخو | لاو/تجزئة الكلمات التايلاندية | الصدأ | LGPL | جيثب | |
| Cutkum | تجزئة الكلمات التايلاندية مع التعلم العميق في Tensorflow. rnn. | بيثون | 93 ٪ F-Measure. | معهد ماساتشوستس للتكنولوجيا | بوكتادا ، جيثب |
| Cetthai | تجزئة الكلمات التايلاندية مكتوبة في تحرير النصف | صرف القهوة | | معهد ماساتشوستس للتكنولوجيا | Pureexe/Cutthai Github |
| عميق | مكتبة رمز كلمة تايلاندية باستخدام الشبكة العصبية العميقة. سي إن إن. | بيثون | 98.8 ٪ F-Measure. | معهد ماساتشوستس للتكنولوجيا | RKCOSMOS ، جيثب |
| Lexto: Thai Lexeme Tokenizer | جافا | | LGPL | نكتة | |
| lexto | بيثون 2 | | LGPL | جيثب | |
| lexto | بيثون 3 | | LGPL | جيثب | |
| تجميع الكلمة متعددة المرشحين | تجزئة الكلمات متعددة المرشحين للغة التايلاندية | بيثون ، RNN ، LSTM | 97.0 ٪ F-Measure (مستوى الكلمات) ، 98.95 ٪ F-Measure (مستوى الحدود) | معهد ماساتشوستس للتكنولوجيا | ورقة ، جيثب |
| Pythainlp | بيثون 3 | أقصى مطابقة ومحركات أخرى مختلفة | Apache 2.0 | جيثب | |
| تمطر | Swath (تحليل الكلمات الذكية للتايلاندية) هو تجزئة الكلمات للتايلاندية | ج | أطول مطابقة ومطابقة أقصى وجزء من الكلام Bigram. | GPL | Paisarn Charoenpornsawat ، CMU |
| Synthai | تجزئة الكلمات التايلاندية وعلامة جزء من الكلام مع التعلم العميق. rnn. LSTM. | بيثون | 99.2 ٪ F-Measure | معهد ماساتشوستس للتكنولوجيا | كينجيرواي ، جيثب |
| مجموعة أدوات اللغة التايلاندية (TLTK) | استنادًا إلى ورقة كتبها Wirote Aroonmanakun في عام 2002. يعتمد تجزئة الكلمات على نهج التجميع القصوى. يعتمد تجزئة مقطع لفظي على إحصائيات 3Grams. (تم تضمين مجموعة البيانات) | بيثون | 97.86 ٪ F-Measure. (تم اختباره على اختبار مختلف ؛ ليس من العدل مقارنتها مع نماذج أخرى.) | GPLV3 | pypi |
| WordCut | الكسارة الكلمة التايلاندية لـ Node.js | JavaScript ، Node.js | | LGPL-3.0 | Veer66 ، جيثب |
| WordCutpy | Tokenizer Word Thai Simple مكتوب في ملف Python 1 | بيثون 3 | | LGPL-3.0 | Veer66 ، جيثب |
جزء من علامات الكلام (وضع علامات POS)
| مكتبة | وصف | لغات البرمجة | سمات | رخصة | المؤلف والرابط |
|---|
| الرسم البياني | التايلاندية التايلاندية | ج | | جميع الحقوق محفوظة | Aiat ، kindml ، Thanaruk T. ([email protected]) ، Tchayintr ، العرض التوضيحي في iApp |
| Jitar+Naist | trigram بسيطة hmm tagger جزء من الكلام | جافا | | | Ver66 ، Jitar + Naist ، 1 + Naist ، 2 |
| Synthai | تجزئة الكلمات التايلاندية وعلامة جزء من الكلام مع التعلم العميق. rnn. LSTM. | بيثون | 0.9163 F-Measure. rnn. LSTM | معهد ماساتشوستس للتكنولوجيا | كينجيرواي ، جيثب |
الاسم التعرف على الكيان
| مكتبة | وصف | لغات البرمجة | سمات | رخصة | المؤلف والرابط |
|---|
| علامة كيان اسمها (العش التايلاندي) | التايلاندية المسماة المواصفات والأدوات | | | GPL | Kindml ، Siit ، Aiat |
| ثينر | تايلان | بيثون | | Apache 2.0 (Code) و CC by 3.0 (DataSet) | ثينر |
وضع علامة على هيكل الأخبار
| مكتبة | وصف | لغات البرمجة | سمات | رخصة | المؤلف والرابط |
|---|
| برنامج وضع علامة على هيكل الأخبار | برنامج وضع علامة على هيكل الأخبار التايلاندي | | وضع علامات البيانات الوصفية ، وضع العلامات على الهيكل ، توليد عنوان الأخبار التلقائي | GPL | أيات |
التحليل والأدوات النحوية
| مكتبة | وصف | لغات البرمجة | سمات | رخصة | المؤلف والرابط |
|---|
| الرسم البياني | استخراج بنية النحوية من جملة POS الموسومة. | ج | | جميع الحقوق محفوظة | Aiat ، kindml ، Thanaruk T. ([email protected]) ، Tchayintr ، العرض التوضيحي في iApp |
| معالجة القواعد | قوسين مسموح به -> قواعد خالية من السياق (CFGS) | بيثون | تحويل وحساب الاحتمال | | tchayintr |
تضمين الكلمات
| مكتبة | وصف | لغات البرمجة | سمات | رخصة | المؤلف والرابط |
|---|
| Kobkrit-word-embedding | تنفيذ TensorFlow لتضمين الكلمات التايلاندية | بيثون | رمز المصدر ، مثال ، الرسم البياني لمسافة الكلمة | LGPL | Kobkrit V. |
إجابة الأسئلة (فهم الجهاز)
| خدمة | وصف | رخصة | المؤلف والرابط |
|---|
| فهم الآلة التايلاندية (THAIMC) | تدفق الانتباه ثنائي الاتجاه | حقوق الطبع والنشر (كخدمة) | IAPP-AI |
انصهار
| خدمة | وصف | رخصة | المؤلف والرابط |
|---|
| العاطفة التايلاندية | LSTM | GPL | العرض التوضيحي في IAPP-AI و SOURCE ، GITHUB |
Corpus و DataSet
القواميس / أزواج الترجمة
| مكتبة | وصف | مقاس | سمات | رخصة | وصلة |
|---|
| ليكسيترون | تايلاندي <-> قاموس اللغة الإنجليزية | | th-> en ، en-> th | رخصة ليكسيترون | نكتة |
| ترجمة كوربوس | | 31K أزواج | زوج الترجمة التايلاندية | CC BY-NC-SA 3.0 TH | نكتة |
| ييتون | lexitron في تنسيق قابلة للقراءة الجهاز (XML) | | th-> en ، en-> th | رخصة ليكسيترون | Veer66 مخطط ، رمز التحويل |
Text Text Corpus
| مكتبة | وصف | مقاس | سمات | رخصة | وصلة |
|---|
| انقر فوق جمل الطعم | جملة الطعم النقر التايلاندي | 330 أرسلت. (90.7 كيلو بايت) | | معهد ماساتشوستس للتكنولوجيا | Wannaphongcom |
| Interbest 2009/2010 | | 5M كلمات | كلمة seg. | CC BY-NC-SA 3.0 TH | نكتة |
| السحلية | | أرسل 30 كيلو. | كلمة seg. ، pos الموسومة. | CC BY-NC-SA 3.0 TH | نكتة |
| رئيس الوزراء 29 | أحكام خطاب رئيس الوزراء 29 | 338 كيلو بايت | كلمة segged ، كيان الاسم الموسومة | معهد ماساتشوستس للتكنولوجيا | Wannaphongcom |
| التايلاندية- جوكس كوربوس | تنظيف النكات التايلاندية كوربوس | 457 النكات | | GPLV3 | IAPP Technology |
| تايلان | سميت شركة كيان كوربوررا من قبل طلاب ويرو أرونماناكون | 266 كيلو بايت -1.5 ميجابايت | مقطع لفظي | GPLV3 (غير متأكد ، ولكن TLTK يستخدم هذا الترخيص) | นัชชา ถิระสาโรช البيانات ศศิวิมล กาลันสีมา البيانات ณัฐดาพร เลิศชีวะ البيانات |
| عش التايلاندي | التايلان | 45K+ اسم الرمز المميز | اسم الكيان الموسومة | LGPL | Kindml |
| قائمة الكلمات العاطفية التايلاندية | قائمة الكلمات العاطفية التايلاندية | 52 كيلو بايت | الكلمات المنفصلة مثل adj ، v | معهد ماساتشوستس للتكنولوجيا | Wannaphongcom |
| ويكيبيديا التايلاندية | مقالات رسمية | 1.49 جيجابايت (~ 213.1 ميغابايت مضغوط) | XML | GFDL | ويكيبيديا |
| Wordnet التايلاندية | بناء wordnet التايلاندية من 1st order contity المفاهيم الأساسية المشتركة باستخدام طريقة ترجمة ثنائية الاتجاه ومع قواميس مناهج تجميعية مختلفة (ธนนท์ หลีน้อย)
بناء wordnet التايلاندية من المفاهيم الأساسية للمنظم الثاني باستخدام طريقة ترجمة ثنائية الاتجاه: دراسة لتنوع المعاني التي تؤثر على دقة الترجمة (ปริศนา อัครพุทธิพร) | | Wordnet | ن/أ | ธนนท์ หลีน้อย 2008 ปริศนา อัครพุทธิพร البيانات 2008 |
| TNC Top-5000 Words | تردد الكلمة | 5000 كلمة | تواتر الكلمات التايلاندية في أنواع مختلفة ، Excel | جميع الحقوق محفوظة | تشولا |
| سمية في التغريد التايلان | مجموعة معالجة اللغة الطبيعية بجامعة طوكيو | | تم تصنيف كل تغريدة على أنها سامة أو غير سامة | CC BY-NC 4.0 | TMU-NLP |
| Wiseight Sentiment Corpus | رسالة وسائل التواصل الاجتماعي مع تسمية المشاعر (إيجابية ، محايدة ، سلبية ، سؤال). | ~ 26،700 رسالة | تسمية المشاعر ، تسمية السؤال | المجال العام | Pythainlp |
مجموعة نص استعلام الويب
| مكتبة | وصف | مقاس | سمات | رخصة | وصلة |
|---|
| التايلاندية الوطنية 2 | | 32 متر كلمات | نص الاستعلام حسب النوع ، المجال | جميع الحقوق محفوظة | تشولا |
| الوثيقة الطبية التايلاندية | | 3594 مستندات | الوثيقة وخريطة الكلمات الرئيسية الديناميكية | جميع الحقوق محفوظة | kindml ، siit |
| مكتبة لغات جنوب شرق آسيا | الأخبار التايلاندية ، نص الويب ، موسيقى البوب ، الأدب ، أسماء الأعضاء | 20m شارز | مرحلة حول نص البحث | | سيلانغ |
| HSE Thai Corpus | النصوص الحديثة المكتوبة باللغة التايلاندية (معظمها على مواقع الأخبار) | 50m الرموز | الاستعلام عن طريق نموذج الكلمة ، elexeme ، الترجمة ، السمات النحوية ، السمات المعجمية | | مدرسة HSE اللغوية |
مجموعة موازية
| مكتبة | وصف | مقاس | سمات | رخصة | وصلة |
|---|
| Talpco | TUFS اللغة الآسيوية مجموعة موازية | أرسل 1327 | مجموعة متوازية مفتوحة تتألف من جمل يابانية وترجماتها إلى البورميين (ميانمار ؛ اللغة الرسمية لجمهورية اتحاد ميانمار) ، الملايو (اللغة الوطنية في ماليزيا ، سنغافورة وبروناي) ، إندونيسية ، تايلاندية ، فيتنام والإنجليزية | CC بحلول 4.0 | Talpco |
نماذج اللغة التي تم تدريبها مسبقًا
| نموذج تدريب مسبقًا | وصف | مقاس | أبعاد | رخصة | وصلة |
|---|
| fasttext | طراز تخطي غرام مدرب على ويكيبيديا باستخدام fasttext | | 300 | CC BY-SA 3.0 | Facebook + Bin & Text + Text فقط |
| Thai2fit | Ulmfit على ويكيبيديا. الحيرة 46.80959 مع 60،002 تدمير. | 70 ميجابايت | 300 | معهد ماساتشوستس للتكنولوجيا | THAI2VEC / PYTHAINLP |
| ثبرت | بعد بيرت آخر تدريب مسبقًا خاصة في التايلاندية | | | Apache 2.0 | tchayintr |
المعايير
معايير تصنيف النص التايلاندي
- Wongnai-Corpus
- Prachathai-67k
- Wiseight-Sentiment
- truevoice-intent: الوجهة
أدوات
مستخلصات كوربوس
| مكتبة | وصف | لغات البرمجة | سمات | رخصة | المؤلف والرابط |
|---|
| Best2010 طباخ | أداة لاستخراج الكلمات المجزأة من Thai Best2010 Corpus | بيثون 3 | استخراج الكلمات والميزات وأقسام البيانات المجزأة | Apache 2.0 | tchayintr |
لم يتم العثور عليها؟ حاول أن ننظر إلى قائمة/مورد رائع آخر لـ NLP (مثل هذا)
https://resources.aiat.or.th/
شكر وتقدير
- باك - للاقتراحات على كلمات الترخيص.
- C4N
- Veer66
- BI89
- tchayintr
- Pureexe
- CSTORM125
- Wannaphongcom
- ekapolc