لغات الموارد المنخفضة
موارد الحفظ والتنمية وتوثيق اللغات المنخفضة للموارد (البشرية).
وفقًا لبعض التقديرات ، من المتوقع أن تنقرض نصف اللغات المنطوقة حاليًا هذا القرن. ومع ذلك ، هناك الكثير من العمل من قبل الأكاديميين والعلماء المستقلين والمؤسسات والمجتمعات والأفراد الذين يذهبون نحو التوقف أو إبطاء هذا الاتجاه. تهدف هذه القائمة إلى توفير قائمة برمز المصدر المفتوح والتي من شأنها أن تكون مفيدة لتوثيق اللغات المهددة بالانقراض أو الحفاظ عليها أو الحفاظ عليها.
مجموعة الركود
لدينا مجموعة الركود للمناقشة الحية. انضم إلينا هنا!
النشر
نُشرت ورقة بيضاء تصف هذا المستودع في ورشة LREC 2016 CCURL (التعاون والحوسبة للغات غير المترتبة). الورقة في هذا المستودع ، في مجلد papers . قم بتنزيل الورقة الخام هنا: رمز المصدر المفتوح الذي يخدم اللغات المهددة بالانقراض.
يساهم
لتحرير هذه القائمة على Github ، ببساطة انقر هنا. إذا كنت ترغب في مناقشة أي شيء على الإطلاق فيما يتعلق بهذا ، فيرجى فتح مشكلة. إذا كنت تعرف أي مورد متاح غير موجود في هذه القائمة ، فيرجى إضافته ، إما باستخدام الرابط أعلاه أو عن طريق إرسال طلبات السحب.
هناك المزيد من التفاصيل حول المساهمة في دليل المساهمة.
إذا كنت مهتمًا بمناقشة القائمة ببعض السعة غير المتصلة بالإنترنت ، فتواصل مع RichardLitt. سأكون أكثر من سعداء بإجراء مكالمة هاتفية أو تبادل بريد إلكتروني.
جدول المحتويات
جدول المحتويات المتولدة مع الدكتوراه
- التعريفات
- المستودعات العامة
- مشاريع معجم اللغة والمرافق الفردية
- برمجة
- مساعدون تكوين تخطيط لوحة المفاتيح
- التعليقات التوضيحية
- مواصفات التنسيق
- I18N المستودعات ذات الصلة
- أتمتة الصوت
- نص إلى كلام (TTS)
- التعرف على الكلام التلقائي (ASR)
- أتمتة النص
- التجريب
- البطاقات التعليمية
- توليد اللغة الطبيعية
- أنظمة الحوسبة
- تطبيقات Android
- امتدادات الكروم
- FieldDB
- FieldDB خدمات الويب/المكونات/الإضافات
- مستودعات بحثية خاصة بالبحوث الدراسية
- مثال على المستودعات
- الخطوط
- كوربورا
- المنظمات
- على جيثب
- منظمات OSS الأخرى
- دروس
- مشاريع خاصة باللغة
- أفريكانيين
- الألبانية
- alutiiq
- أمهرية
- الباسك
- البنغالية
- تشيشيكا
- جاليكيان
- الجورجي
- الخطوط
- التدويل والتوطين (I18N/L10N)
- غواراني
- الهوسا
- الهندية
- Høgnorsk
- الأيسلندية
- inuktitut
- الأيرلندية
- كينيارواندا
- كردي
- لينغالا
- Lushootseed
- الملايو
- الملغاشية
- مانكس
- ميغما
- Minderico
- نيشناب
- أورومو
- Quechua
- سامي
- الغيلية الاسكتلندية
- Secwepemctsín
- صومالي
- تيغنة
- أوراليك
- زولو
- رخصة
التعريفات
اللغات المهددة بالانقراض هي لغات إنسانية تتعرض لخطر الانقراض. تشمل هذه القائمة أيضًا لغات الأقليات - اللغات التي يتحدث بها السكان المستقرة ، ولكن الصغيرة ، (على سبيل المثال ، المالطية أو هاواي) ؛ واللغات منخفضة الموارد أو نقص الموارد ، والتي يمكن أن يتحدث بها عدد كبير من السكان ولكن تم تمثيلهم رقميًا ناقصًا (على سبيل المثال ، Quechua). تشترك هذه اللغات في خصائص معينة مشتركة ؛ والأكثر صلة بالبيانات المتفرقة ونقص الموارد ، بدءًا من المدعبين الإملائي إلى القواعد إلى شركة الترجمة الآلية. تتضمن اللغات الأخرى غير المقيدة التي لا تندرج ضمن هذه القائمة لغات مبنية (على سبيل المثال ، Klingon أو Na'VI) ، لغات الكمبيوتر (على سبيل المثال ، JavaScript أو Lua) ، واللغات المنقرضة المتفجرة إلى حد كبير بحيث تصبح غير ذي صلة بحسابية لمعظم الأغراض (على سبيل المثال ، إلى tocharian).
Open Source "يعزز الوصول الشامل عبر ترخيص مجاني لتصميم المنتج أو مخططه ، وإعادة توزيع عالمية لهذا التصميم أو المخطط ، بما في ذلك التحسينات اللاحقة على ذلك من قبل أي شخص." (ويكي). هذا أمر مهم لأن الأموال والموارد المخصصة للغة أو مشروع غير مفتوح المصدر تنفق على حساب قابلية التمديد المحتملة في مكان آخر.
كانت هذه القائمة تسميها endangered-languages . تمت إعادة تسمية ذلك ليعكس أن التعرض للخطر هو مصطلح محمّل قد لا يعكس كلاهما وجهات نظر مجتمعات اللغة التي تتحدث لغات الأقليات. تركز low-resource-languages على هذه القائمة على نقص الموارد الرقمية مقارنة بلغات أخرى ذات موارد عالية.
لا يتم تضمين الأدوات التي تم إنشاؤها لهذه اللغات (ما لم تكن ذات صلة باللهجات أو المتغيرات): العربية ، البلغارية ، الكاتالونية ، الصينية ، الكرواتية ، التشيكية ، الدنماركية ، الهولندية ، الإنجليزية ، الإستوني ، الفنلندية ، الفليمن ، الفرنسية ، الألمانية ، اليونانية ، العبرية ، الهنغارية ، إندونيسية ، إيطالية ، اليابانية ، لاتفيان ، ليتويان ، ليت. (Bokmål) ، الفارسية ، البولندية ، البرتغالية ، الرومانية ، الروسية ، الصربية ، السلوفاكية ، السلوفينية ، الإسبانية ، السويدية ، التايلاندية ، التركية ، الأوكرانية ، الفالنسية ، الفيتنامية. تأتي هذه القائمة من قائمة لغات المحتوى الأكثر شيوعًا لمواقع الويب ، على صفحة ويكيبيديا هذه. يمكن استخدام مقاييس أخرى - إذا كان لديك واحدة أخرى ، فيرجى اقتراحها!
هذه القائمة جيدة بشكل خاص في شيء واحد ؛ إظهار أنواع الأدوات الموجودة في الحقل ، بشكل عام. ومع ذلك ، بالنسبة للبحث في عمق لغة أو مجموعة معينة من الأدوات ، فإنه لا يعمل بشكل جيد بشكل استثنائي. على سبيل المثال ، فإن إدراج جميع حزم لغة Firefox أو وحدات لغة Apertium لكل لغة مورد منخفضة سيكون غير مفيد ، كما هو الحال في جميع الأدوات المتاحة للباسك المذكورة في ويكي ACL ، والتي تعني أساسًا أدوات الفهرسة من خلال مجموعة IXA ، وبعضها مفتوح المصدر ، وبعضها ليس كذلك. بدلاً من ذلك ، عرض هذه القائمة كنقطة انطلاق لمزيد من البحث.
هل تبحث عن موارد للغات الرمز؟ ألقِ نظرة على مجموعة قوائم Awesome.
المستودعات العامة
مشاريع معجم اللغة والمرافق الفردية
المرافق
- Project for Free Electronic Dancearies هو مشروع لـ Java Midlet للهواتف المحمولة - للقواميس اللغوية الأصلية.
- موقع الويب الذي يستضيف القواميس الرقمية للغات الفردية.
- ويساي - يسمح لمجتمعات اللغة ببناء قواميسها الخاصة. https://software.sil.org/wesay/ (بواسطة SIL International).
برمجة
- 4Lang - قاموس المفهوم باستخدام آلات Eilenberg.
- adcentate.us الملقب "Charlifter". أحادية الإحصاء للنص العادي للعديد من اللغات
- المحاذاة مع OpenFST-هذا هو تطبيق إطار عمل CRF Autoencoder لأربع مهام: محاذاة كلمة Bitext ، وضع علامة على جزء من الكلام ، تبديل التعليمات البرمجية ، تحليل التبعية.
- Apertium Apertium عبارة عن صندوق أدوات لإنشاء أنظمة ترجمة آلية نقل ضحلة مفتوحة المصدر ، وخاصةً مناسبة لأزواج اللغة ذات الصلة: ويشمل المحرك وأدوات الصيانة والبيانات اللغوية المفتوحة للعديد من أزواج اللغات.
- Ark-Tweet-NLP-CMU Ark Twitter جزء من الكلام ( Fork ).
- ArtofReading - فهرس ومعالجة البرامج النصية المتعلقة بفن القراءة التوضيحية.
- Bayesline - تصنيف بايزي متعدد الحدود لتحديد اللغة.
- أدوات الكتاب المقدس-مجموعة من الأدوات لقراءة/معالجة مجموعة الكتاب المقدس متعددة اللغات.
- BloomDesktop - Bloom Desktop هو تطبيق Windows Hybrid C#/JavaScript/HTML/CSS والذي "يقلل من الشريط" بشكل كبير لمجتمعات اللغة التي تريد الكتب بلغاتها الخاصة. يوفر Bloom نظامًا منخفض التدريب وعديد الإخراج حيث يعمل مكبرات الصوت الأم ودعاةهم معًا لتعزيز كل من التأليف المجتمعي والوصول إلى المواد الخارجية ... https://bloomlibrary.org/.
- Bloomlibrary - تطبيق Floom Library واحد صفحة ، باستخدام AngularJS & Bootstrap ، parse.com الخلفية. https://bloomlibrary.org/.
- الدماغ - الشبكات العصبية في جافا سكريبت.
- Bristol Uni Mt Morphology Tools - هذا الريبو هو مرآة من البرامج النصية المتاحة سابقًا على http://www.cs.bris.ac.uk/research/machinelearning/morphology/resources.jsp. وشملت: Ukwabelana - كوربوس المورفولوجي مفتوح المصدر وإيما: مقياس تقييم جديد للتحليل المورفولوجي.
- Brown -Cluster - C ++ تنفيذ خوارزمية تجميع الكلمات البنية.
- CasualCon CasualConc هو برنامج توافق يعمل أصلاً على Mac OS X 10.5 Leopard أو أحدث. تم تصميمه في الأصل للاستخدام غير الرسمي (التحليل الأولي أو أغراض غير البحث) ، على الرغم من أن [المشرف] كان يستخدمه في بحثه الخاص (وربما الآخرون). يمكن أن يولد خطوط التوافق KWIC ، ومجموعات الكلمات ، وتحليل التجميع ، وعدد الكلمات.
- CDEC - Decoder و Aligner و Model Optimizer للترجمة الآلية الإحصائية وغيرها من نماذج التنبؤ المنظمة على أساس (في الغالب) الشكليات الخالية من السياق.
- Charlint Charlint هي أداة تطبيع/فحص شخصية مكتوبة في Perl. من بين آخر ، ينفذ نموذج التطبيع C من Unicode TR 15 ، كمنصة اختبار للتطبيع الموحد المبكر في نموذج حرف W3C.
- Chorus - نظام تحكم في الإصدار مصمم لتمكين سير العمل المناسب لفرق تطوير اللغة النموذجية التي يتم توزيعها جغرافيا.
- CLAM-وسيط تطبيق اللغويات الحاسوبية-قم بتحويل تطبيقات NLP بسرعة إلى خدمات ويب مريحة مع واجهة تطبيق تطبيق الويب. يمكنك تقديم مواصفات لتطبيق سطر الأوامر الخاص بك ، وإدخاله ، والإخراج والمعلمات ، ولفائف البطلينوس حول تطبيقك لتشكيل خدمة ويب مريحة بالكامل.
- CMU sphinx cmusphinx هو مفردات كبيرة مستقلة عن التعرف على الكلام المستمر الذي تم إصداره بموجب ترخيص نمط BSD. إنها أيضًا مجموعة من أدوات وموارد المصادر المفتوحة التي تتيح للباحثين والمطورين بناء أنظمة التعرف على الكلام.
- CnminlangwebCollect - موقع الأقليات الصينية لموقع الكشف عن اللغات وجمع المواقع الإلكترونية.
- COG - COG هي أداة لمقارنة اللغات باستخدام تقنيات اللغويات المقارنة وتقنيات اللغويات المقارنة. يمكن استخدامه لأتمتة الكثير من عملية مقارنة قوائم الكلمات من أصناف اللغة المختلفة. http://sillsdev.github.io/cog/.
- ConversExtract - تحويل ملفات Excel و Word و PowerPoint بنص غير unicode (مثل النص الذي يتطلب خطوط SIL) إلى Unicode ، مع الحفاظ على تنسيق الملف الأصلي.
- Corpustools - Phonological Corpustools http://phonologicalcorpustools.github.io/corpustools/.
- CTK-تهدف مجموعة أدوات Champollion Tool (CTK) التي تم بناؤها حول LDC في Champollion الجملة ، إلى توفير أدوات محاذاة الجملة النصية الجاهزة للاستخدام لأكبر عدد ممكن من أزواج اللغة. (المشروع الأصلي موجود على SourceForge: http://champolleion.sourceforge.net).
- DataTags - نظام لتقييم حساسية وخطر الخصوصية لمجموعة البيانات ، وتعيين علامة لوصف كيفية نقل مجموعة البيانات وتخزينها والوصول إليها. ( شوكة ).
- Dateverse - إطار مستودع البيانات لمشاركة ونشر بيانات البحث.
- DITER - DITER: برنامج للعمل الميداني اللغوي http://www.dative.ca.
- DITARD - تطبيق من صفحة واحدة يتفاعل مع قواعد بيانات خدمة الويب المتعددة اللغوية. موقع إلكتروني.
- Deeplearntoolbox - Matlab/Octave Toolbox للتعلم العميق. يشمل شبكات الاعتقاد العميق ، أجهزة الترميز التلقائي المكدسة ، الشباك العصبية التلافيفية ، أجهزة الترميز التلقائي الذاتي وشبكات الفانيليا العصبية. كل طريقة لديها أمثلة لتبدأ.
- Desmeme - قاعدة بيانات وأدوات لاستكشاف القوالب اللغوية.
- DICTDB - قاعدة بيانات القاموس لترجمة اللغة.
- SourceproutsGraphs - أداة قائمة على Python لتحويل ودمج البيانات اللغوية المتعددة الطبقات.
- Divvun-GramCheck-هذا البرنامج يبحث عن FST على النماذج المحددة كقراءات لتنسيق قواعد القيود ، ويبحث عن علامات الخطأ في ملف XML مع رسائل قابلة للقراءة البشرية. من المفترض أن يتم استخدامه كمرحلة متأخرة من خط أنابيب مدقق القواعد.
- Divvun -Keyboard - تطبيقات لوحة المفاتيح لنظام iOS و Android مع تخطيطات لوحة المفاتيح للغات الأصلية والأقليات
- DivVunspell -
hfst-ospell (أدناه) أعيد كتابته في الصدأ ، من أجل التزامن قوي وإدارة الذاكرة. هو في الاستخدام العملي حوالي 10x أسرع من hfst-ospell . يستخدم نفس ملفات Zhfst مثل hfst-ospell ، والتي تتوفر لجميع اللغات في Giellalt Github org (انظر أدناه). - DLTK - مجموعة أدوات Deutsch Language. أكثر.
- EPITRAN - GRAPHEME لتحويل الصوت (G2P) للعديد من اللغات منخفضة الموارد.
- Elder: مستودع بيانات اللغة المهددة بالانقراض-مستودع بيانات اللغة المهددة بالانقراض: أداة فهرسة البيانات اللغوية التعاونية المتوافقة مع الويب.
- Enchant - Enchant Spellchecking Library https://abiword.github.io/enchant/.
- Exsite9 - Exsite9 هو تطبيق سطح مكتب تم تصميمه لتسهيل الباحثين بسهولة وبسرعة وضع ملفات البيانات الخاصة بهم مع بيانات تعريف وصفية ثم تعبئة ملفات البيانات الخاصة بهم والبيانات الوصفية المرتبطة بها جاهزة لتقديمها إلى مستودع. يسمح Exsite9 أيضًا بالتنظيم الهيكلي للملفات المذكورة داخل نقل موقعها الفعلي على تخزين الملفات المحلي ؛ يتيح لك تنظيم ملفاتك وبيانات التعريف بشكل صحيح جاهزة للتغليف.
- Fast_align - كلمة بسيطة وسريعة غير خاضعة للإشراف.
- FastText - مكتبة لتمثيل النص السريع وتصنيفه.
- FieldWorks - FieldWorks هي مجموعة من أدوات البرمجيات للبيانات اللغوية والثقافية ، مع دعم البرامج النصية المعقدة. https://software.sil.org/fieldworks/ تم تصميم Explorer لغة FieldWorks (أو Flex ، لفترة قصيرة) لمساعدة اللغويين الميدانيين على أداء العديد من مهام الوثائق والتحليل اللغوية الشائعة. يمكن أن تساعدك: استنباط وتسجيل المعلومات المعجمية ، وإنشاء قواميس ، ونصوص بين الخطية ، وتحليل ميزات الخطاب ، ومورفولوجيا الدراسة.
- فرانك - الكشف عن اللغة الطبيعية https://wooorm.com/franc/.
- FWDocumentation - وثائق المطور لـ Fieldworks (أدوات البرمجيات للبيانات اللغوية والثقافية ، مع دعم البرامج النصية المعقدة).
- fwlocalizations - توطين ل fieldworks.
- FWSupportTools - أدوات إضافية لتطوير FieldWorks.
- GAIA - GAIA هو واجهة مستخدم قائم على HTML5 لمشروع Boot 2 Gecko. ملاحظة: للحصول على تفاصيل ما هي الفروع المستخدمة لإصدارات ، انظر الويكي. إذا كنت مهتمًا بإعداد لوحة مفاتيح بلغة جديدة ، فراجع هذا.
- Giellakbd-And-Android-شوكة من Latinime (بواسطة Google for Android) ، تستهدف اللغات المهمشة التي تستحق أيضًا حالة من الدرجة الأولى على أنظمة تشغيل الأجهزة المحمولة. يستخدم من قبل KBDGEN (انظر في مكان آخر في هذه الصفحة).
- Giellakbd -IOS - تعويض مفتوح المصدر للوحة مفاتيح iOS الأصلية من Apple مع تركيز محدد على دعم لوحات المفاتيح المترجمة. يستخدم من قبل KBDGEN (انظر في مكان آخر في هذه الصفحة).
- Giza-PP-Giza ++ هي مجموعة أدوات ترجمة آلية إحصائية تستخدم لتدريب نماذج IBM 1-5 ونموذج محاذاة Word Word. تحتوي هذه الحزمة أيضًا على مصدر أداة MKCLS التي تنشئ فئات الكلمات اللازمة لتدريب بعض نماذج المحاذاة.
- GV -Crawl - Global Voices Bitext Crawler لإنشاء شركة متوازية.
- GLOTLID - تحديد لغة FastText بدعم لأكثر من 2000 علامة.
- Glottolog Data - Glottolog يوفر معلومات مرجعية شاملة للغات العالمية.
- GRAMADóir - محرك فحص القواعد النحوي المصمم للتطور السريع لمدافع القواعد اللغوية للغات الأقلية واللغات الأخرى ذات الموارد الحسابية المحدودة.
- Grind - Indesign 5.5 Plug -in المصمم يسمح باستخدام الخطوط الذكية الممكّنة لـ Graphite في Indesign Adobe. يدمج هذا المشروع تقنية الخط الذكي من SIL من SIL من خلال تنفيذنا الخاص بمكون من مؤلف الفقرة.
- Hermitcrab-Hermitcrab.net هو محلل مورفولوجي/صوتي مرن يأخذ نهج العنصر والعملية.
- HFST -OSPELL - HFST Fell Checker Mood وأداة سطر الأوامر.
- HFST-OSPELL-JS-روابط العقدة لـ HFST-OSPELL.
- HFST-Optimized-lookup-HFST Optimized-Look standalone Library and Outly Line Tool.
- Hundict - مستخرج القاموس ثنائي اللغة من Corpora المتوازي.
- Hunspell - مكتبة المدقق الإملائي ومكتبة التحليل المورفولوجية وبرنامج مصمم للغات ذات التشكل الغني والكلمات المعقدة أو ترميز الأحرف.
- Huntag - tagger متسلسل لـ NLP باستخدام أقصى درجات التعلم الإنتروبيات ونماذج Markov المخفية.
- ICU -DOTNET - C# WRIPPER لـ ICU4C.
- ICU4C - مرآة مشروع SVN على http://source.icu-project.org/repos/icu/icu/. يحتوي فرع FieldWorks على بعض التحسينات المحددة.
- Ilanguage - محلل مورفولوجي مستقل في اللغة شبه خارقة غير خارقة مفيدة لنشر نص غير معروف ، أو الحصول على تقدير تقريبي من أخرق محتملة للمورفيميات في كلمة واحدة. المدخلات: مجموعة. يستخدم الضغط ، الحد الأقصى للإنتروبيا وعلماء الميدان.
- IPA -Help - IPA يساعد.
- Itweets -Geodata - Geodata من تغريدات من السكان الأصليين.
- jquery.ime - مكتبة طرق الإدخال القائمة على jQuery.
- KBDGEN - إنشاء لوحات المفاتيح وتخطيطات لوحة المفاتيح لمختلف أنظمة التشغيل.
- Koreksyon-أدوات لتطوير وتنفيذ إمكانات فحص الإملاء وتكوين القواعد في اللغات منخفضة الموارد.
- L20N.JS - L20N يعيد توطين البرمجيات. يجب أن يكون المستخدمون قادرين على الاستفادة من القوة التعبيرية الكاملة للغات الطبيعية. يحافظ L20N على أشياء بسيطة بسيطة ، وفي الوقت نفسه يجعل الأشياء المعقدة ممكنة. هذا هو تنفيذ JavaScript من L20N. http://l20n.org.
- langid.py - نظام تحديد اللغة المستقلة.
- Langtech مجموعة من الموارد المقدمة في SVN من قبل جامعة ترومسو. التفاصيل هنا والإنجليزية هنا.
- Lego Unified Concepticon - مادة تتعلق بمفهوم LEGO الموحد.
- LEX4ALL - معجم النطق لأي لغة منخفضة الموارد http://lex4all.github.io/lex4all/.
- LEXDB - LEXDB هي قاعدة بيانات تتبع معجمية. إنه يخزن المصدر الكامل لجميع الأحكام الكامنة والأحكام المشابهة ، ويسمح للتصدير في عدد من اللهجات Nexus. تتم كتابة قاعدة البيانات في إطار عمل Python/Django المرن.
- lfmerge - إرسال/استلام للغة languageforge.org.
- Liblevenshtein - مكتبة لإنشاء محولات حكومية محدودة على أساس Levenshtein Automata.
- Libpalaso - مكتبة بالاسو: مجموعة من مكتبات .NET مفيدة لمطوري برنامج اللغة.
- Lingo Grammar Matrix The Lingo Grammar Matrix هي إطار لتطوير التغطية العريضة ، الدقة ، التي تم تنفيذها للغات المتنوعة.
- Lingpy - Lingpy: مكتبة Python للمهام الكمية في اللغويات التاريخية http://lingpy.org.
- Linguistica Linguistica هو برنامج مصمم لاستكشاف التعلم غير الخاضع للإشراف للغة الطبيعية ، مع التركيز الأساسي على التشكل (بنية الكلمات). يتم تشغيله تحت Windows و Mac OS X و Linux ، ويتم كتابته في C ++ ضمن إطار تطوير QT. تعتمد مطالبها على الذاكرة على حجم المجموعة التي تم تحليلها.
- Press -Press - jQuery Plugin لتخفيف كتابة الشخصيات المعلنة أو النادرة. http://toki-woki.net/lab/long-press/.
- منخفضة الموارد-POS-2014-الموارد المنخفضة الموارد: 2014
- LRL - للعمل فيما يتعلق بلغات الموارد المنخفضة.
- Macvoikko - خادم تهجئة OS X يعتمد على Voikko.
- الآلة - الآلة هي مكتبة معالجة اللغة الطبيعية لـ .NET تركز على توفير أدوات لمعالجة اللغات الفقيرة للموارد (تستخدمها Flex).
- Make -extensions - البرامج النصية لتوليد امتدادات Hunspell Elpchecking.
- MGIZA - أداة محاذاة الكلمات القائمة على GIZA ++ الشهيرة ، امتدت لدعم متعدد الخيوط ، وتدريب السيرة الذاتية والتدريب الإضافي.
- ترجمة الأقلية ترجمة الأقلية هي برنامج بسيط لمساعدة توليد المحتوى على Wikipedias الأصغر حجمًا (في الواقع أي حجم) من خلال إعطاء مؤشرات للمقالات الموجودة في Wikipedias لغة أخرى ، بحيث يمكن للمستخدم ترجمة النصوص الحالية أو تزيد من تكييفها ، وبالتالي زيادة حجم وإمكانية استخدام طبعات Wikipedia الخاصة بهم.
- مورفيسور - مورفيسور هو أداة للتجزئة المورفولوجية غير الخاضعة للإشراف وشبه الخاضعة للإشراف.
- المورفولم - نماذج اللغة المورفولوجيا.
- Morph -Test - نص Python لتشغيل اختبارات لتوليد وتحليل محول المورفولوجي المصمم باستخدام البنية التحتية للجييلا. يعمل مع HFST ، وأدوات Xerox 'FST ، ومع FOMA.
- Mosesdecoder - Moses ، نظام الترجمة الآلية.
- MOZ-L10N-TIRS-يخلق محركًا زائفًا لتقييم أولويات السلسلة لـ L10N.
- Mukurtucms - نظام إدارة محتوى Mukurtu (CMS) هو منصة قائمة على الإنترنت مصممة لتمكين أرشفة الموارد الثقافية الرقمية
- Mythes - Mythes عبارة عن مرادفات بسيطة تستخدم ملف بيانات نصًا منظمًا وملف فهرس مع بحث ثنائي للبحث عن الكلمات والعبارات وإرجاع المعلومات على جزء من الكلام والمعاني والمرادفات.
- MyWorksafe - النسخ الاحتياطي الذكي والبسيط لعمال تنمية اللغة. http://software.sil.org/myworksafe/.
- NABU - NABU هو نظام إدارة عناصر الوسائط الرقمية يوفر كتالوجًا لعناصر الصوت والفيديو ، والبيانات الوصفية لهذه العناصر ، ومعلومات حول حالة سير العمل للعناصر. www.paradisec.org.au
- طبيعية - مرافق اللغة الطبيعية العامة JavaScript للعقدة.
- NIST 2008 Open Machine Translation
- NLTK - مجموعة أدوات لغة Python الطبيعية. NLTK Source http://www.nltk.org/.
- Node -Panlex - Node.js Client for Cinglex.
- نورما - أداة للتطبيع الإملائي التلقائي.
- NPLM - شوكة https://nlg.isi.edu/software/nplm/ مع بعض تعديلات الكفاءة والتكيف لاستخدامها في موسى.
- Octothorpe - Couchdb Wiki Thing.
- ODTXSLT - قم بتحويل XSLT على محتويات الحزمة (مثل ODT ، DOCX ، إلخ).
- Old-Webapp-قاعدة بيانات لغوية عبر الإنترنت --- برنامج لإنشاء تطبيقات الويب لتوثيق Languages.http: //www.onlinelinguisticdatabase.org.
- Old - قاعدة البيانات اللغوية عبر الإنترنت (القديمة): برنامج للعمل الميداني اللغوي. http://www.onlinelinguisticdatabase.org.
- القديم القديم - تم ترحيل قاعدة البيانات اللغوية عبر الإنترنت إلى إطار الهرم.
- OMEGAT-HFST-Tokenizer-يوفر Omegat-HFST-Tokenizer الرمز المميز المستند إلى FST في أوميغات.
- Opendatakit Open Data Kit (ODK) هي مجموعة مفتوحة المصدر من الأدوات التي تساعد المؤسسات على مؤلف المؤلفات ، الحقل ، وإدارة حلول جمع بيانات الهاتف المحمول
- OpenNLP - مكتبة Apache OpenNLP هي مجموعة أدوات تعتمد على تعلم الآلة لمعالجة نص اللغة الطبيعية. موقع إلكتروني.
- OPS -DEVBOX - Playbook Ansible لجهاز مطور (Linux).
- أدوات المخفرات - تحتوي هذه الحزمة على برامج نصية لتحويل الموارد المعجمية إلى تنسيق مناسب للاستيراد إلى المخفر. يمكن العثور على الوثائق في https://dev.panlex.org.
- PDSC-Collection-Viewer-Paradisec Collection Browser
- Paradigm - Paradigm هو .NET (C#) تنفيذ عمل Joseph E. Grimes لعام 1983 بعنوان "المواقف والمواقف COOCCRENCES: The Paradigm Program".
- المسار - إعداد بيانات اللغة للنشر.
- pdfdroplet - مكتبة و GUI لفرض صفحات PDF (مثل 2 -up) http://software.sil.org/pdfdroplet/.
- Pepper - Pepper هو إطار محول مفتوح المصدر قابل للتوصيل ، مفتوح المصدر للبيانات اللغوية.
- مساعد علم الأصوات - مساعد علم الأصوات هو أداة اكتشاف. يتم توفيرها مع مجموعة من البيانات الصوتية ، وهي ترسم الأصوات تلقائيًا ومن خلال قدرات البحث الخاصة بها ، يساعد المستخدم على اكتشاف قواعد الصوت واختباره بلغة ما.
- Pressagio - Pressagio هي مكتبة تتنبأ بالنص القائم على نماذج N -Gram. على سبيل المثال ، يمكنك إرسال سلسلة وستقوم المكتبة بإرجاع إكمال الكلمات الأكثر احتمالًا للرمز المميز الأخير في السلسلة.
- PrimerPro - الغرض من PrimerPro هو مساعدة عامل محو الأمية في تطوير الاشعال للغة معينة.
- Pydelphin - مكتبات Python لـ Delph -in (شوكة ودية).
- RBGParser - محلل التبعية القائم على الرسم البياني.
- Rosetta Pangloss - نظام Pangloss لمشروع Rosetta.
- SALM - SALM: صفيف اللاحقة وتطبيقاتها في معالجة اللغة التجريبية عن طريق الفرح.
- الملح - نموذج قائم على الرسم البياني لتخزين ومعالجة البيانات اللغوية.
- Saymore - أداة لصنع مهام الوثائق اللغوية الشائعة مثل الاحتفاظ بجميع الملفات الناتجة وبيانات التعريف المنظمة ، وتحويل الملفات إلى تنسيقات الأرشفة ، والنسخ.
- Secwepemc -facebook - ترجمة Facebook إلى لغات غير مدعومة.
- Segparser - خوارزمية الجشع العشوائية لتجزئة المفصل ، وضع علامات POS وتجميل التبعية.
- الشتلات - بناء واستخدام مجموعة البذور لمشروع اللغة البشرية.
- Skype في لغتك - ترجمة Skype إلى لغات غير مدعومة.
- Solid - Solid هي أداة برمجي يمكن استخدامها للتحقق من بيانات المعجم وتنظيفها وتحويلها.
- أدوات تحويل المجال تحتوي العديد من Corpora على ملفات الكلام بتنسيق NIST Sphere. البرامج أدناه تحويل ملفات الكرة إلى تنسيقات أخرى.
- StandardFormatlib - مكتبة التنسيق القياسية.
- Stanford Corenlp - Stanford Corenlp: A Java Suite of Core NLP Tools. https://stanfordnlp.github.io/corenlp/.
- Stanford Corenlp Python - Python Wrapper for Stanford Corenlp Tools.
- Stanza - أدوات Python المشتركة لمجموعة Stanford NLP.
- Str2ipa-قواميس النطق للغات مع أنظمة الكتابة عن قرب.
- Sugali - هذا مستودع قديم لمشروع تحديد اللغة للعديد من (العديد من) مشروع اللغات لدورة مشروع البرمجيات ، مشاريع NLP للغات منخفضة الموارد.
- السكر - تحديد اللغة للغات المنخفضة للموارد (بواسطة سوزان ، الرجل و liling).
- Syllabipy - واجهة Python لخوارزميات المقطع العالمي
- لوحة مفاتيح لذيذة-لوحة مفاتيح مخصصة لـ iOS8+ تعمل كتقليد لذيذ للوحة مفاتيح Apple الافتراضية. بنيت باستخدام Swift وأحدث تقنيات Apple!.
- Teckit - مجموعة أدوات تحويل ترميز النص.
- Teny - أدوات للترجمة الآلية منخفضة الموارد.
- Teradict - ترجمة الكلمات الإنجليزية إلى مئات اللغات!.
- tesseract.js - JavaScript Pure OCR لـ 62 لغة ؟؟ http://tesseract.projectnaptha.com/.
- Texnlp - Texnlp: Texas Natural Language Tools.
- Timbl Timbl عبارة عن حزمة برامج مفتوحة المصدر تنفذ العديد من خوارزميات التعلم القائمة على الذاكرة ، من بينها IB1-IG ، وهو تطبيق لتصنيف الجوار K-nearest مع توازن ميزة مناسبة لمساحات الميزات الرمزية ، و Igtree ، وهو تقريب شجرة القرار في IB1-IG. تشترك جميع الخوارزميات التي تم تنفيذها في تخزين بعض تمثيل التدريب بشكل صريح في الذاكرة. أثناء الاختبار ، يتم تصنيف الحالات الجديدة عن طريق الاستقراء من الحالات المخزنة الأكثر تشابهًا.
- Toney - برنامج تصنيف النغمة.
- Field Linguist's Toolbox - Toolbox هي أداة لإدارة البيانات وتحليلها لفيلم اللغويين. إنه مفيد بشكل خاص للحفاظ على البيانات المعجمية ، ولتحليل النص وبين الخطية ، ولكن يمكن استخدامه لإدارة أي نوع من البيانات تقريبًا.
- نصوص Toolbox لـ Elan - Mirror of Alexander Koenig's Toolbox Scripts https://tla.mpi.nl/tools/tla-tools/elan/thirdparty/.
- ToolsForFieldlinguistics - مجموعة من البرامج النصية والوصفات لللغويات.
- sentriber - أداة نسخ HTML5 لـ Aikuma
- Translitit -Legine - محرك ترجمة مكتوب في JavaScript.
- بيانات Tsammalex - Tsammalex هي قاعدة بيانات معجمية متعددة اللغات على النباتات والحيوانات.
- Tweet2Learn - تطبيق لتسهيل استخدام لغتك الأم على Twitter.
- Twitter_Langid - شبكة عصبية لكرات الأحرف الهرمية لتحديد اللغة.
- مستندات UniversaldePendencies - التبعيات الشاملة على الإنترنت ، http://universaldependencies.org/docs/.
- أدوات UniversaldePendencies - أدوات مختلفة لمعالجة البيانات.
- Vocbench Vocbench هي أداة على شبكة الإنترنت ، متعددة اللغات ، تحرير وسير عمل تدير هذه القوائم ، قوائم السلطة واللقطات باستخدام SKOS-XL.
- Wavesurfer.js - شكل موجة قابلة للملاحة مبنية على صوت الويب و Canvas https://wavesurfer-js.org/ (يحتوي أيضًا على مكون إضافي Elan).
- Web-Template-هذا قالب قائم على الويب يمكن استخدامه لتقديم موارد تعلم اللغة لمساعدة جهود تنشيط اللغة. ويشمل قاموس الحديث ، وبراسيكون ، يحتوي على جمل وعبارات.
- WebCorpus - هذا المشروع عبارة عن مجموعة من البرامج النصية والبرامج لإنشاء WebCorpus من البيانات المزروعة.
- Wikt2Dict - أداة محلل Wiktionary للعديد من إصدارات اللغة.
- Wikipron - يعيد إعادة النطق IPA لإدخالات wiktionary
- مولد Word WordGenerator يولد كلمات افتراضية من مواصفات بنية مقطع لفظي.
- WordBoundary - تجربة في اكتشاف وتجزئة حدود الكلمات.
- WordByword-WordByword هو مدرب مجاني ومفتوح المصدر وسهل الاستخدام وسائل الوسائط المتعددة التي طورتها Vera Ferreira و Peter Bouda و Ricardo Filipe في Cidles بدعم من الأساس للغات المهددة بالانقراض.
- WSI4Urlang - Word Sense Induction (WSI) لللغات غير المرتبطة بالموارد (URLANG).
- XDXF_MAKEDICT - تنسيق قاموس XDXF وقاموس "Makkedict" تحويل البرامج (المستودع الرسمي).
مساعدون تكوين تخطيط لوحة المفاتيح
- jquery.ime - محرر إدخال jQuery المستخدم في ويكيبيديا
- KBDGEN - قم بإنشاء لوحات المفاتيح وتخطيطات لوحة المفاتيح لنظام التشغيل Windows و MacOS و X11 و IOS و Android و Chrome ، من ملف Yaml واحد بسيط. يسجل أيضًا اللغات غير معروفة لنظام التشغيل Windows ، بحيث يكون هناك ارتباط صحيح وقوي بين رمز BCP 47 المعين (بما في ذلك الدعم الكامل لـ ISO 639-3) وأدوات اللغة المثبتة مثل لوحات المفاتيح والمتحققات الإملائية وغيرها من الأدوات.
- لوحة المفاتيح - لوحة المفاتيح الظاهرية باستخدام jQuery ~ https://mottie.github.io/keyboard/.
- لوحات المفاتيح - لوحات المفاتيح المفتوحة المصدر.
- Keyman - Keyman Cross Platform Methods. يتيح لك Keyman أن تكتب أكثر من 1000 لغة على Windows و iPhone و iPad و Android والهواتف ، وحتى على الفور في متصفح الويب. موقع إلكتروني.
- KeyboardLayouteditor - محرر تخطيط لوحة المفاتيح https://code.google.com/archive/p/keyboardlayouteditor/.
- محرر تخطيط لوحة المفاتيح-محرر تخطيط لوحة المفاتيح http://www.keyboard-layout-editor.com
- Lipika-Dive-محرك طريقة الإدخال (IME) لنظام التشغيل Mac OS X مع دعم مدمج لجميع لغات المؤشرات.
- XKEYBOARDCONFIG - قاعدة بيانات تكوين لوحة المفاتيح غير ARCH لنافذة X. الهدف من ذلك هو توفير المصدر المفتوح بشكل متكرر ، يتم إصداره بشكل متكرر لبيانات تكوين لوحة المفاتيح X لتطبيقات نظام Window (مجاني ومفتوح المصدر والتجاري). يستهدف المشروع الأنظمة المستندة إلى XKB.
التعليقات التوضيحية
- AGTK - AGTK هي مجموعة من مكونات البرمجيات لبناء أدوات لتعليق الإشارات اللغوية ، وبيانات السلسلة الزمنية التي توثق أي نوع من السلوك اللغوي (مثل الصوت ، الفيديو). تعتمد هياكل البيانات الداخلية على الرسوم البيانية للتعليقات التوضيحية. (المشروع الأصلي موجود على SourceForge: https://sourceforge.net/projects/agtk/).
- Brendano - لغة شظية الرسم البياني لسهولة التعليقات التوضيحية النحوية https://www.cs.cmu.edu/~ark/fudg/.
- Elan Elan هي أداة مهنية لإنشاء تعليقات معقدة على موارد الفيديو والصوت.
- EOPAS - نظام العرض الإثني عبر الإنترنت والشرح.
- Flat - Folia Lovinguistic Atteation - Flat هي بيئة شرحية لغوية تعتمد على الويب تعتمد على تنسيق Folia (http://proycon.github.io/folia/) ، وهو تنسيق غني يعتمد على XML للتعليق اللغوي. تتيح Flat للمستخدمين عرض مستندات Folia المشروحة وإثراء هذه المستندات بشروح جديدة ، ويتم دعم مجموعة واسعة من أنواع التعليقات اللغوية من خلال نموذج Folia. إنها أداة تتمحور حول المستندات التي تحافظ بشكل كامل وتصور بنية المستندات.
- GFL_Syntax - لغة شظية الرسم البياني لسهولة التعليقات التوضيحية النحوية https://www.cs.cmu.edu/~ark/fudg/.
- GRAF-PYTHON-المكتبة GRAF-PYTHON هي python مفتوح المصدر من الحاجز وكتابة ملفات GRAF/XML كما هو موضح في ISO 24612. محلل المكتبة ينشئ رسمًا بيانيًا للتعليق من الملفات. يجوز للمستخدم بعد ذلك الاستعلام عن الرسم البياني للشروح عبر API من Graf-Python.
- Kwaras - أدوات لإدارة Elan Corpus.
- LDC Word Aligner LDC Word Aligner هي أداة برمجية تستخدم للتعليق اليدوي لمحاذاة الكلمات التي تم تطويرها لدعم مهام محاذاة الكلمات باللغة العربية والإنجليزية والإنجليزية. لديها واجهة نظيفة وسهلة الاستخدام. منذ تطورها في عام 2009 ، استخدمت LDC LDC Word Aligner لتوليد أكثر من 1،000،000 رمز من بيانات محاذاة الكلمات المشروحة من مجموعة متنوعة من الأنواع بما في ذلك البث ، النيابة والمصادر المستندة إلى الويب. موقع إلكتروني.
- Poio -Analyzer - POIO هي مجموعة من أدوات البرمجيات لللغويين الذين يعملون في وثائق اللغة واللغويات الوصفية و/أو نمطية اللغة. يسمح اللغويين بإدارة بياناتهم وتحليلها. The Poio Interlinear Editor allows to add morpho-syntactic annotations to transcriptions. It supports various file formats for input, but will only output standardized XML defined by the Corpus Encoding Standard and the Text Encoding Initiative. Several tools for analyzing linguistic data will be made available to further process annotated data. Poio tools are written in Python and are based on PyQt.
- poio-api - Poio API is a free and open source Python library to access and search data from language documentation in your linguistic analysis workflow. It converts file formats like Elan's EAF, Toolbox files, Typecraft XML and others into annotation graphs as defined in ISO 24612. Those graphs, for which we use an implementation called “Graph Annotation F…
- pyannotation - PyAnnotation is a Python Library to access and manipulate linguistically annotated corpus files.
- XTrans Trans is a next generation multi-platform, multilingual, multi-channel transcription tool that supports manual transcription and annotation of audio recordings. The XTrans toolkit provides new and efficient solutions to common transcription challenges and addresses critical gaps in existing tools.Designed with input from experienced human transcribers working with real world data, XTrans provides a flexible and intuitive graphical user interface for a multitude of speech annotation tasks including (virtual) segmentation of audio into smaller units like turns and sentences; speaker identification; orthographic transcription in any language; and labeling of structural elements of the transcript like topics.
Format Specifications
- spec - The official specification for the DLx linguistic data format. https://digitallinguistics.github.io/spec/.
- FoLiA FoLiA: Format for Linguistic Annotation - FoLiA is a rich XML-based annotation format for the representation of language resources (including corpora) with linguistic annotations. A wide variety of linguistic annotations are support, making FoLiA a useful format for NLP tasks and data interchange. http://proycon.github.io/folia/
- xdxf_makedict - XDXF dictionary format and "makedict" dictionary converting software (official repository).
i18n-related Repositories
- Express-Lingua - An i18n middleware for the Express.js framework.
- Polyglot.js Give your JavaScript the ability to speak many languages.
- Transifex - System for providing a nice, userfriendly/project oriented approach to translating
.po files. Great for non-technical users, free for open-source projects, decent for minority languages; however , it can take a while to get a new language added to the Transifex system because the ticketing system Transifex uses results in them losing tickets sometimes. Provides translation memory, ability to appoint reviewers, etc. Transifex used to have an open source system that you could host on your own, but that seems to have disappeared.
Audio automation
- arctic-prompts - Generate prompts PDF for CMU ARCTIC dataset.
- AudioWebService - a simple nodejs server which accepts upload of audio and runs it through praat.
- AuToBI - Automatic prosodic annotation tool written in Java.
- BashScriptsForPhonetics - ( Fork of a dormant project).
- esv-text-audio-aligner - ESV Text/Audio Aligner to programmatically obtain the timings for each word in the corresponding audio.
- html5-audio-read-along - HTML5 Audio Read-Along.
- ipa-chart - International Phonetic Alphabet (IPA) Unicode Chart and Character Picker.
- kaldi-svn-archive - An read-only archive of the original Kaldi SVN repository (mainly to keep sandboxes available).
- lex4all - pronunciation LEXicons for Any Low-resource Language ( Fork of a student project).
- Montreal-Forced-Aligner - Python interface for forced text/speech alignment.
- node-pocketsphinx
- opensauce - GNU Octave-compatible version of VoiceSauce.
- pocketsphinx - PocketSphinx is a lightweight speech recognition engine, specifically tuned for handheld and mobile devices, though it works equally well on the desktop.
- pocketsphinx-ios-demo - Simple demo for iOS.
- pocketsphinx-python - Python module installed with setup.py.
- pocketsphinx-ruby - Ruby speech recognition with Pocketsphinx.
- pocketsphinx-wp-demo - Demo to run pocketsphinx on WP8 platform.
- pocketsphinx.js - Speech recognition in JavaScript.
- praat-py - From my PhD days: Praat-Py is a custom build of Praat, the computer program used by linguists for doing phonetic analysis on sound files, to allow for scripts to be written in the Python programming language, rather than in Praat's built-in language. ( Fork of a dormant project).
- Praat-Scripts - Mietta's Scripts.
- PraatTextGridJS - A small library which can parse TextGrid into json and json into TextGrid.
- PraatontheWeb - Web implementation of Praat. Source code, running demo scripts on web, samples and documentation.
- prosodicParsing - different kinds of HMMs to use for incorporating prosody into basic parsing.
- Prosodylab-Aligner - Python interface for forced audio alignment using HTK and SoX.
- prosodylab.alignertools
- Recordmp3js - Record MP3 files directly from the browser using JS and HTML.
- sphinx4 - Pure Java speech recognition library.
- sphinxbase
- sphinxtrain
- TLSphinx - Swift wrapper around Pocketsphinx.
Text-to-Speech (TTS)
- espeak - eSpeak is a compact open source software speech synthesizer for English and other languages, for Linux and Windows. http://espeak.sourceforge.net.
- MARY TTS - MARY TTS -- an open-source, multilingual text-to-speech synthesis system written in pure java http://mary.dfki.de.
- Ossian - Ossian is a collection of Python code for building text-to-speech (TTS) systems, with an emphasis on easing research into building TTS systems with minimal expert supervision.
Automatic Speech Recognition (ASR)
- Elpis - Elpis is software for creating speech recognition models and applying them to the transcription of audio. As of 2022, it gives access to Kaldi and Huggingface Transformers.
- kaldi - This is now the official location of the Kaldi project.
- Persephone - Persephone aims to make state-of-the-art phonemic transcription accessible to people involved in language documentation, who have a training corpus of about one to four hours of transcribed speech. As of 2022, Persephone is superseded by Elpis.
Text automation
- clld - Cross Linguistic Linked Data python library.
- LaTeX2HTML5 - LaTeX web components.
- MultilingualCorporaExtractor - Node io Spider for extracting multilingual corpora ( Fork of a student project).
- SeedLing - Building and Using A Seed Corpus for the Human Language Project ( Fork of a student project).
Experimentation
- experigen - A framework for creating linguistic experiments.
- GamifyPsycholinguisticsExperiments - A simple node server to gamify linguistics experiments, runs offline on a laptop for small scale experiements and online on a server for large scale experiments. Data is sent to a Google spreadsheet. ( Fork of a dormant project).
- OpenSesame - Graphical experiment builder for the social sciences.
- OPrime - Open Source Experimentation Libraries - Online and Offline for Android and HTML5.
- psychopyMegProsody - Runs MegProsody using PsychoPy.
- PsychScript - A HTML5/Javascript library for running behavioural experiments online.
Flashcards
- Anki - Anki is a program to make and share flaschard decks (including audio) for any language or writing system. https://apps.ankiweb.net/.
- awesome-anki - A curated list of awesome Anki add-ons, decks and resources.
- VocabLift - Language-learning tool that uses vocabulary from LIFT-format dictionaries produced by programs such as Fieldworks Language Explorer and WeSay.
Natural language generation
- OpenCCG - OpenCCG library for parsing and realization with CCG. Includes mini-grammars for Inuit, Nezperce, Basque and others.
Computing systems
- Common Language Resources and Technology Infrastructure Norway / Clarino - One of their projects (not clearly listed here) is about providing an online system for language analysis, so users can connect resources visually, dump in text, and get a result. Kind of like the Yahoo! Pipes but for language processing. Uses the ABEL cluster.
Android Applications
- Aikuma - Android software for recording and translation.
- Android Speech Recognition Trainer - Speech recognition training app for low resource languages which interfaces with FieldDB corpora.
- android-template - This is a template of an Android word-learning app that may be used a way to introduce a language. It includes a quiz. For the documentation, go to http://eddersko.github.io/android-template/.
- AndroidFieldDB - An Android app which lets the user build a custom visual and auditory vocabulary, useful for guided anomia treatment and self designed language lessons by heritage speakers.
- AndroidFieldDBElicitationRecorder - A general purpose video recording tool.
- AndroidLanguageLessons - Lets heritage speakers create self designed language lessons.
- AndroidProductionExperiment - Android App to run perception experiments.
- Bevara - Android Phone Application designed for Linguistic Fieldwork to help preserve, maintain, and save endangered languages.
- ojoVoz - A mobile app for sending georeferenced image and voice recordings from an Adroid phone to an email address. For more information, please go to http://sautiyawakulima.net/ojovoz/.
- pocketsphinx-android - pocketsphinx build for Android.
- pocketsphinx-android-demo
Chrome Extensions
- babelfrog - Chrome extension to help learn languages as you browse.
- DictionaryChromeExtension - Dictionary for websites in low-resource languages. App and codebase which connects to a Wiktionary to provide definitions of any term on any website (current languages Cherokee 194,426 entries, Inuktitut 251 entries, Kartuli 7,363 entries, Plains Cree (incubation) 0 entries) use.
FieldDB
FieldDB is actively worked on by the FieldDB (Formally known as OpenSourceFieldlinguistics) group. These repos explicitly work with it but could be repurposed for other projects.
- FieldDB - An offline/online field database which adapts to its user's terminology and I-Language, has plugins for various data automation routines along the process of primary data collection to cleaning to publication and archival. يستخدم.
FieldDB Webservices/Components/Plugins
- AndroidLanguageLearningClientForFieldDB-sikuli - Sikuli tests for AndroidLanguageLearningClientForFieldDB.
- AuthenticationWebService - A node.js web service which mananges users and corpora creation and authentication.
- bower-fielddb-angular - A bower repository which hosts fielddb-angular components, bower install fielddb-angular --save.
- bower-fielddb - A bower repository which hosts fielddb core components, bower install fielddb --save.
- fielddb-spreadsheet-sikuli - sikuli tests for the spreadsheet module use.
- FieldDBActivityFeed - A fielddb activity feed widget which can be embedded in other codebases, websites etc use.
- FieldDBGlosser - A semi-unsupervised language independent morphological analyzer useful for stemming unknown language text, or getting a rough estimate of possible parses for morphemes in a word. bower install fielddb-glosser --save.
- FieldDBLexicon - A lexicon browser/editor web widget for FieldDB databases.
- LanguageClassDashboard - App which provides a view of FieldDB corpora for language teachers use.
- LexiconWebService - A node.js ElasticSearch wrapper for indexing/training lexicons from corpora.
- LexiconWebServiceSample - A node.js web server which implements the fieldlinguist's lexicon API for the FieldDB project.
Academic Research Paper-Specific Repositories
- Gargantua - Fast Unsupervised Sentence Aligner described in "Improved unsupervised sentence alignment for symmetrical and asymmetrical parallel corpora", COLING 2010.
- ldc-kiy - Materials for: The experimental state of mind in elicitation: illustrations from tonal fieldwork. Dubmitted to Language Documentation & Conservation, How to study a tone language .
- Learning to map into a Univerisal POS tagset Yuan Zhang, Roi Reichart, Regina Barzilay and Amir Globerson
- low-resource-pos-tagging-2014 and low-resource-pos-tagging-2014 Published in: Learning a Part-of-Speech Tagger from Two Hours of Annotation. Dan Garrette and Jason Baldridge . In Proceedings of NAACL 2013. And in: Real-World Semi-Supervised Learning of POS-Taggers for Low-Resource Languages. Dan Garrette, Jason Mielens, and Jason Baldridge . In Proceedings of ACL 2013.
- orthotree - Linguistic family tree based on orthographic distance.
- type-supervised-tagging-2012emnlp This repository contains the code, scripts, and instructions needed to reproduce the results in the paper: Type-Supervised Hidden Markov Models for Part-of-Speech Tagging with Incomplete Tag Dictionaries. Dan Garrette and Jason Baldridge . In Proceedings of EMNLP 2012. This code is frozen as of the version used to obtain the results in the paper. It will not be maintained. To see the updated code, visit nlp
- visualizing-language - For visualizations of WALS and other typological databases.
- WALS-APiCS - Code for working with WALS-APiCS (Atlas of Pidgin and Creole Language Structures) complexity metrics.
Example Repositories
These are repositories that are generally only interesting for training purposes or seeing how something is done.
- CorpusWebService - über-simple node.js-Proxy to enable CORS request for couchdb.
- CorporaForFieldLinguistics - Small corpora from diverse language typologies, useful for testing scripts.
- startR
- lucenerevolution-2013 - Demo examples for linguistics in Lucene and Solr.
- berlin-buzzwords-2013 - Demo examples for Lucene, Solr, ElasticSearch and OpenNLP from Berlin Buzzwords 2013 talk.
الخطوط
- fontinline - Make inline stroke paths from an outline font.
- Noto Fonts - Noto is Google's free font family that aims to support all the world's scripts. Its design goal is to achieve visual harmonization across languages. Noto fonts are under Apache License 2.0.
- Unicodify Unicodify is a suite of programs for converting text in a variety of 8-bit encodings to Unicode (using the UTF-16 encoding). Unicodify was particularly designed to handle HTML-based text using non-ISCII 8-bit fonts to render South Asian scripts. However, elements of the suite can map other types of non-ASCII 8-bit encodings, such as Latin-2, ISCII and PASCII.
Corpora
These corpora are useful for working with tools on endangered languages. Monolingual corpora that are more for archival efforts should most likely not be included here.
- bible-corpus - A multilingual parallel corpus created from translations of the Bible.
- poio-corpus - The Poio Corpus is a freely available collection of language resources for the lesser-used languages. The data is extracted from free sources like Wikipedia, dictionaries, documents, websites and others.
المنظمات
On GitHub
- batumi - Speech recognition and natural language processing for low-resource languages
- BloomBooks
- unicode-cldr - Unicode Common Locale Data Repository (CLDR) Project http://cldr.unicode.org
- cmusphinx - Mirror of the SourceForge repositories
- dativebase - Tools for working with OLD.
- divvun - The Divvun group at UiT develops proofing tools, keyboard apps and other language technology solutions for indigenous and minority languages, especially the Sámi languages. موقع إلكتروني.
- FieldDB
- GiellaLT - home for keyboard layouts, lexicons and morphologies for indigenous and minority languages, especially for morphologically complex languages, using mainly rule-based techonlogies. The resources are used by Divvun (above) and Giellatekno (below) to build a number of tools for the language communities. Almost everything is open source.
- HFST - Helsinki Finite-State Technology. موقع إلكتروني.
- hunspell
- keymanapp - Website.
- langtech - Language Technology Group, University of Melbourne
- lex4all
- longnow
- MontrealCorpusTools
- moses-smt - Statistical Machine Translation.
- mukurtucms
- NLTK - Natural Language Toolkit.
- PhonologicalCorpusTools)
- Projet de recherche sur l'écriture - Crowdsourcing or conducting large scale psycholinguistics experiments (or statistically significant field linguistics).
- prosodylab - Prosodylab at McGill University, Canada
- SIL International (Dev) SIL International- Another SIL organization, with many repositories.
- SIL International - SIL (originally known as the Summer Institute of Linguistics, Inc.) is probably the leading organization which provides software and tools tailored for use by field linguists and lexicographers working on endangered languages. A little known fact is that much of it's code is open sourced on GitHub and SIL is happy to recieve open source contributions and collaborate on open source projects.
- SIL NRSI - SIL Non-Roman Script Initiative. The NRSI is a department of SIL International, whose task is to provide assistance, research and development for SIL International and its partners to support the use of non-Roman and complex scripts in language development.
- StanfordNLP https://nlp.stanford.edu
- ucsd-field-lab - University of California, San Diego
- UniversalDependencies - Universal Dependencies (UD) is a project that is developing cross-linguistically consistent treebank annotation for many languages, with the goal of facilitating multilingual parser development, cross-lingual learning, and parsing research from a language typology perspective. The annotation scheme is based on an evolution of (universal) Stanford dependencies (de Marneffe et al., 2006, 2008, 2014), Google universal part-of-speech tags (Petrov et al., 2012), and the Interset interlingua for morphosyntactic tagsets (Zeman, 2008). The general philosophy is to provide a universal inventory of categories and guidelines to facilitate consistent annotation of similar constructions across languages, while allowing language-specific extensions when necessary.
- utcompling - The University of Texas at Austin's Computational Linguistics Lab. موقع إلكتروني.
Other OSS Organizations
- Giellatekno - Giellatekno combines cutting-edge linguistic and computational research into the analysis of Saami and other morphologically-rich languages, with the development of practical applications. We focus on deep linguistic modeling and on highly efficient and robust computational analysis with a wide empirical coverage. They use svn for their code: all of it can be found here, sorted by language.
- LOWLANDS - LOWLANDS – Parsing low-resource languages and domains https://ccc.ku.dk/research/lowlands/
- LTRC: Language Technologies Research Center IIIT Hyderabad LTRC addresses the complex problem of understanding and processing natural languages in both speech and text mode. LTRC conducts research on both basic and applied aspects of language technology. It is the largest academic centre of speech and language technology in South Asia. LTRC carries out its work through four labs, which work in synergy with each other, as listed above.
- The Language Archive Part of the MPI
دروس
- How to Write a Spelling Corrector by Peter Norvig.
Language Specific Projects
For each language, we include the ISO 639-3 code, and the main autonym for that language.
أفريكانيين
afr :: Afrikaans
- Afrikaanse rekenaarlinguïstiek (Afrikaans computational linguistics) — wordlists, corpora, morphological analyser, tagger, word decompounder. Available upon email.
الألبانية
sqi :: shqip
- Apertium rules for Albanian - Machine Translation rules
- out-of-copyright-albanian-authors - authors scraped from the albanian language wikipedia who are out of copyright.
- Plis keyboard - The Plis keyboard is a keyboard or computer keyboard layout for the Albanian language.
- spell checking - Here you find a collection of Albanian words and information about them. Aspell, Ispell, and MySpell are included.
Alutiiq
ems :: sugpiaq
- wiinaq - Word Wiinaq is a Kodiak Alutiiq dictionary web application with automatically generated ending tables and souped-up search capabilities. It is written in Python using Django.
أمهرية
amh :: አማርኛ
- HornMorpho - Morphological analysis and generation of Amharic and Oromo verbs and nouns and Tigrinya verbs
الباسك
eus :: euskara
- Matxin - An open-source transfer machine translation engine. Linguistic information for the translation from Spanish and Basque (es-eu) is included.
البنغالية
ben :: বাংলা
- Bangla-অঙ্কুর for Mac This project aims to develop a phonetic based Bangla typing system for Macintosh computer which can be developed into a transliteration technique in the future.
- Bengali Writer - `Bengali Writer' is a set of utilities for computerized editing and typesetting in Bengali, a language of India and Bangladesh. It comprises a set of fonts for Bengali in several formats (METAFONT, BDF, PS), a text editor with spell-cheking, export, and more. (Original project is on SourceForge: https://sourceforge.net/projects/bengaliwriter/).
- Ekushey Bangla Computing and Localization Project for the Bangla speaking people.
- Lekho - A collection of tools and resources for using bangla on computers (Original project is on SourceForge: https://sourceforge.net/projects/lekho/).
تشيشيكا
nya :: chicheŵa
- Chichewa - NLP resources for Chichewa.
جاليكيان
glg :: galego
- an-metri-gal - Análise métrico de texto en verso en lingua galega (Galician language) gl-ES
- android_gl_dict - Android Galician (gl_ES) Keyboard Dictionary
- aspell-gl - Galician dictionary for aspell
- CitiusSentiment - Sentiment analysis (opinion mining) for Portuguese, English, Spanish, and Galician
- CitiusTagger - A PoS-Tagger and Named Entity Classification tool for Portuguese, English, Galician, and Spanish
- Conshuga - Galician verb conjugator
- corpora - This is a collection of corpus of Galician (or related to Galicia) words / Colección de corpus de palabras en galego (ou relacionadas con Galicia)
- DepPattern - Dependency Syntactic Parsing for Portuguese, Spanish, English, and Galician, including MetaRomance parser
- DOGA_scraper - Galician Official journal scraper
- elFinder-language - Galician - Gallego / language for elFinder
- EuroWordNetLemon - EuroWordNet lemon lexicons generated from the LMF versions of the Multilingual Central Repository (MCR) EuroWordNet lexicons. It includes lexicons for Spanish, Catalan, Basque & Galician.
- GalegoDroid - Galician Translator for Android
- galeXtra - Multiword Extractor for Portuguese, English, Spanish, Galician, French
- Galician-Dependency-Treebank - This Galician Dependency Treebank has been developed by transliterating and adapting lexically the Portuguese part (Bosque 7.3 by the Floresta sintá(c)tica project) of the CONLL-X 2006.
- Galician-Fuzzy-Text-watch - Based on Fuzzy Text International by Jesse Hallett, uses the galician language to display time.
- galician-locale-for-mac - Galician locale for Mac OS X
- gl-syllabler - Split galician language words into syllables
- gl- Galician OmegaT Localisation
- hunspell-gl-ciencias - Project oriented into developing a science and maths Galician language Hunspell dictionary
- hunspell-gl - Galician hunspell dictionaries
- hyphen-gl - Galician hyphenation rules
- javagalician-java6 - The Java Galician Locale is an implementation of Java localization SPIs which will allow the Java VM to use the Galician Language (locales "gl" and "gl_ES"), one of the official languages of Spain, which is not included in Sun's JVM distribution.
- Linguakit - Multilingual toolkit for NLP: dependency parser, PoS tagger, NERC, multiword extractor, sentiment analysis, etc.
- ParlamentoGalicia - Project based on the information extracted from the transcriptions of the sessions held in the Galician Parlament
- poss-gl - Galician translation of Producing Open Source Software, by Karl Fogel
- rima - Find rhyming words in galician language.
- stopwords-gl - Galician stopwords collection
- texlive-babel-galician - TeXLive babel-galician package
- UD_Galician-CTG - The Galician UD treebank is based on the automatic parsing of the Galician Technical Corpus created at the University of Vigo by the the TALG NLP research group.
- UD_Galician-TreeGal - The Galician-TreeGal is a treebank for Galician developed at LyS Group (Universidade da Coruña).
- UL_Galician-TreeGal - CoNLL-UL Repository for UD_Galician-TreeGal
Apertium
- apertium-cat-glg - Apertium translation pair for Catalan and Galician
- apertium-dict-en-gl - English-Galician language pair for Apertium
- apertium-dict-es-gl - Spanish-Galician language pair for Apertium
- apertium-dict-pt-gl - Portuguese-Galician language pair for Apertium
- apertium-en-gl - Apertium translation pair for English and Galician
- apertium-es-gl - Apertium translation pair for Spanish and Galician
- apertium-glg - Apertium linguistic data for Galician
- Apertium-pt-gl.pt-gl-LMF - This is the LMF version of the Apertium bilingual ditionary for Portugues and Galician languages
- apertium-pt-gl - Apertium translation pair for Portuguese and Galician
الجورجي
kat :: ქართული
- awesome-georgia - A curated list of awesome libraries and packages specific/related to Georgia (country).
- Gadatsqvetilebebi - გადაწყვეტილებები; Web spider and corpora importer for public legal decisions.
- GeoWordsDatabase - Around 310 000 unique Georgian words https://bumbeishvili.github.io/GeoWordsDatabase/.
- Kartuli Speech Recognition - ანდროიდის ქართველი მომხმარებლებისთვის სიტყვის ამოცნობის სისტემის შექმნა. Codebase to turn any webpage from any alphabet into another alphabet, the default is to turn latin letters into Kartuli. use "Do your friends keep commenting on Facebook with English keyboards (either because they forgot to switch, or because they didn't/can't install a Georgian keyboard)? Now you can read the web through კართული eyes.".
- KartuliChromeExtension - Chrome აპლიკაცია, რომელიც ყველა ინგლისურ ასო-ბგერას აჩვენებს ქართულ ასო-ბგერად.
- QartuliDaBunebismetkveleba - მათემატიკისა და ბუნებისმეტყველების ინტერაქტიული სახელმძღვანელო მე-2 - მე-3 კლასის მოსწავლეებისათვის.
- SakartvelosUzenaesiSasamartloSarke - საქართველოს უზენაესი სასამართლო სარკე.
- SamartlosSakonstitutsioSasamartdoSarke - სამართლოს საკონსტიტუციო სასამართდო სარკე.
- translitit-latin-to-mkhedruli-georgian - A Latin to ქართული (Mkhedruli Georgian) transliteration function written in JavaScript.
- translitit-mkhedruli-georgian-to-ipa - A Latin to ქართული (Mkhedruli Georgian) transliteration function written in JavaScript.
- Declensions - Methods to generate declensions for Georgian language
الخطوط
- Stichoza/font-larisome - Iconic font for Georgian currency inspired by Font-Awesome (CSS).
- Lotuashvili/BPGNateli - Bower package for BPG Nateli font (CSS).
- thecotne/georgian-webfonts - Package for georgian fonts (CSS).
Internationalization and Localization (i18n/l10n)
- Stichoza/money-num-to-string - Convert a number/money to localized string (PHP, JavaScript).
- natchkebiailia/NumberToWord - Convert numbers to localized strings (JavaScript).
- d0ragon/number-to-words-ka - Convert numbers to localized strings (PHP).
- dimakura/ka - Common functionality for georgian projects (Ruby).
- dimakura/ka.js - Georgian language support for node and browser (JavaScript).
- akalongman/kautilities - Convert Georgian letters to Latin and vice-versa (PHP).
- Landish/Laravel-Ka - Laravel Georgian Language Pack.
- Landish/RedactorJS-GE - Redactor WYSIWYG HTML Editor Georgian Language Pack (JavaScript).
- wenzhixin/bootstrap-table - Bootstrap table with extra features. l10n by @Lotuashvili and @Stichoza.
- moment/moment - A lightweight date library (JavaScript).
- ioseb/geokbd - Georgian keyboard library (JavaScript).
Guarani
grn :: Guarani
- ParaMorfo - morphological analysis and generation of Spanish and Guarani verbs, nouns, and adjectives.
الهوسا
hau :: هَرْشَن هَوْسَ
- Hausa - Repository for Hausa NLP tools.
الهندية
hin :: हिन्दी
- hindi-morph - An open source morphological analyzer for Hindi.
Høgnorsk
nno :: Høgnorsk
- hunspell-hn_NO - A beginning to a spellchecking tool for Høgnorsk, a conservative variant of Norwegian Nynorsk, based on a set of corpuses.
الأيسلندية
isl :: íslenska
- IceNLP - IceNLP is an open source Natural Language Processing (NLP) toolkit for analyzing and processing Icelandic text. The toolkit is implemented in Java.
Inuktitut
iku :: Inuktitut
- InuktitutAlignerData - Scripts for alignment of laboratory speech production data.
- InuktitutComputing - Inuktitut Morphological Analyser, transcoder, transliterator, corpus tools, and lexical lists for working with Inuktitut. Usable online at http://inuktitutcomputing.ca/index.php.
الأيرلندية
gle :: Gaeilge
- aimsigh - Source for the now-defunct aimsigh.com Irish search engine.
- caighdean - Code for standardizing Irish language text.
- fleiscin - Irish hyphenation patterns for TeX https://cadhan.com/fleiscin/.
- GaelSpell - Sources for an Irish language spell checker.
- tesseract-gle-uncial - OCR for old Irish fonts.
كينيارواندا
kin :: Ikinyarwanda
- kin-morph-fst - Kinyarwanda morphological analyzer.
- TurboTagger & TurboParser for Kinyarwanda (download) TurboTagger & TurboParser for Kinyarwanda
كردي
kur :: Kurdî
- Kurlex - Morphological analyser and lexicon, written in the Alexina framework, licensed under the LGPL-LR.
- kurmanji-stemmer - NLTK based kurmanji stemmer
Lingala
lin :: Lingála
- Lingala NLP NLP tools and resources for Lingala
Lushootseed
lut :: Lushootseed
- Lushootseed - Joshua Crowgey's work on Lushootseed http://students.washington.edu/jcrowgey/lushootseed/.
الملايو
msa :: Bahasa Melayu
- MorfoMalayu - morphological analysis of Malay words.
الملغاشية
mlg :: Malagasy
- Global Voices Malagasy Project This page provides a link to a corpus of parallel news articles in Malagasy and English from the Global Voices project. This corpus was collected and aligned at the sentence level by Victor Chahuneau.
Manx
glv :: Gaelg
- aspell-gv - Manx Gaelic dictionary for aspell.
- gaelg - NLP resources for Manx Gaelic, mainly in support of the gv2ga MT engine.
Migmaq
mic :: Mi'kmaq
- migmaq-lessons - Repository for website building Mi'gmaq language lessons.
Minderico
drc :: Piação do Ninhou
- fredericajordarzambarino - A web based game for mobile devices in minderico based in the "Who Wants to be a Millionaire" TV show.
Nishnaabe
oji :: Ojibwe, Oddawa, Chippewa, Anishinaabemowin, ᐊᓂᔑᓈᐯᒧᐎᓐ
- Ojibway-iphone-app - An iPhone app with audio and images for learning the Ojibway language.
- OjibwayMap - An iPhone app with audio and images for learning Ojibway language and culture.
- nishanimate - A desktop app to facilitate Nishnaabe-language acquisition via animations produced by the natural language processing of audio-accompanied text.
Oromo
orm :: Oromo
- hornmorpho - morphological analysis and generation of amharic and oromo verbs and nouns. and tigrinya verbs
Quechua
que :: Runa Simi
- AntiMorfo - morphological analysis and generation of Quechua nouns, adjectives, and verbs and Spanish verbs.
- Morphology, spellchecker - XFST and FOMA, plus OpenOffice plugin.
سامي
sma :: Sámi/Saami
- divvun-webdemo - simple webdemo for divvun grammar checker. موقع إلكتروني.
- Giellatekno A host of Sámi tools.
- Mobile keyboards (iOS and Android), learning apps, dictionaries, morphologies, syntax disambiguators, some amount of project collaboration with Apertium on shallow translation between Saami languages, and
- Oahpa! - A learning portal for Saami languages. Includes WordPress based, media rich lesson-based learning, and morphological and syntactic exercizes generated from the morphological and syntactic tools
- Neahttadigisánit - A morphologically sensitive dictionary, with modes for 'social media input' (which allows users to type a 'relaxed' version of the orthography ( acdnstz will be recognized also as áčđŋšŧz̄ ), and also includes a JavaScript bookmarklet to offer click-to-read dictionary lookup functionality. Also available for other Uralic, and non-Uralic languages. Giellatekno does a lot for other minority Uralic languages. Following are some keywords for CTRL+F friendliness:
- Saami languages: North Saami, Lule Saami, South Saami // Inari Saami, Kildin Saami, Pite Saami, Skolt Saami.
- Other Uralic languages: Erzya, Finnish, Hill Mari, Ingrian, Khanty, Kven, Komi, Livonian, Meadow Mari, Moksha, Nenets, Nganasan, Olonetsian, Udmurt, Veps.
- Other languages: Buriat, Cornish, Faroese, Greenlandic, Iñupiaq, Northern Haida, Ojibwe, Plains Cree, Russian.
الغيلية الاسكتلندية
gla :: Gàidhlig
- aspell-gd - Scottish Gaelic dictionary for aspell.
- briathrachan - This is the source code to Briathrachan, a Gaelic-English dictionary app for iOS.
- gaidhlig - NLP resources for Scottish Gaelic, mainly in support of gd2ga/ga2gd MT engines.
- gd-fcfg - Context-free feature-based grammar of Scottish Gaelic in the NLTK format.
- gdbank - Some tools and resources for natural language processing of Scottish Gaelic. https://www.tantallon.org.uk/cggblog/.
- hunspell-gd - Files for building Scottish Gaelic spell checkers.
Secwepemctsín
shs :: Secwepemctsín
- secwepemctsnem - A project to help people learn Secwepemctsín.
صومالي
som :: Soomaaliga
- somorph - Somali morphological and syntactic analyzers and generators built on XFST and VISL-CG Constraint Grammar. Up to date version checked in on Giellatekno's repository.
- qaamuus.net morphologically aware dictionary based on lexical resources found online, and the somali morphology.
Tigrinya
tir :: ትግርኛ
- HornMorpho - morphological analysis and generation of Amharic and Oromo verbs and nouns and Tigrinya verbs.
Uralic
urj :: Uralic languages
- UralicNLP - A Python library for processing Uralic languages (Finnish, Skolt Sami, Erzya, Moksha, Komi-Zyrian and so on). The library provides an easy programmatic access to Giellatekno resources such as FST morphology and CG disambiguators. Other functionalities include UD parser, API for the Online Dictionary of Uralic Languages and interface to SemFi and SemUr semantic databases. The library is under active development and new features are added from time to time.
زولو
zul :: zulu
- Ukwabelana An open-source morphological Zulu corpus
رخصة
© Richard Littauer 2014-2017