Langues de ressources faibles
Ressources pour la conservation, le développement et la documentation des langues de faible ressource (humaines).
Selon certaines estimations, la moitié des 7 000 langues actuellement parlé devraient disparaître ce siècle. Cependant, il y a beaucoup de travail par des universitaires, des universitaires indépendants, des organisations, des communautés et des individus, ce qui va à l'arrêt ou au ralentissement de cette tendance. Cette liste est destinée à fournir une liste de code open source qui serait utile pour documenter, conserver, développer, préserver ou travailler avec des langues en voie de disparition.
Groupe de mou
Nous avons un groupe Slack pour la discussion en direct. Rejoignez-nous ici!
Publication
Un livre blanc décrivant ce référentiel a été publié dans l'atelier CCURL LREC 2016 (collaboration et informatique pour les langues sous-ressources). Le document est dans ce référentiel, dans le dossier papers . Téléchargez le papier brut ici: code open source servant des langues en voie de disparition.
Contribuer
Pour modifier cette liste sur GitHub, cliquez simplement ici. Si vous souhaitez discuter de quelque chose lié à cela, veuillez ouvrir un problème. Si vous connaissez une ressource disponible qui ne figure pas sur cette liste, veuillez l'ajouter, soit en utilisant le lien ci-dessus, soit en soumettant des demandes de traction.
Il y a plus de détails sur la contribution du guide de contribution.
Si vous souhaitez discuter de la liste à titre hors ligne, contactez @Richardlitt. Je serais plus qu'heureux d'avoir un appel téléphonique ou un échange de courriels.
Table des matières
Table des matières générée avec Doctoc
- Définitions
- Référentiels génériques
- Projets et services publics de lexicographie à langue unique
- Logiciel
- Aiders de configuration de la disposition du clavier
- Annotation
- Spécifications de format
- référentiels liés à l'I18n
- Automatisation audio
- Text-vocation (TTS)
- Reconnaissance automatique de la parole (ASR)
- Automatisation de texte
- Expérimentation
- Cartes flash
- Génération de langage naturel
- Systèmes informatiques
- Applications Android
- Extensions chromées
- Fielddb
- FieldDB webservices / composants / plugins
- Référentiels spécifiques au document de recherche universitaire
- Exemples de référentiels
- Polices
- Corpus
- Organisations
- Sur github
- Autres organisations OSS
- Tutoriels
- Projets spécifiques à la langue
- afrikaans
- albanais
- Alutiiq
- Amharique
- Basque
- bengali
- Chichewa
- Galicien
- géorgien
- Polices
- Internationalisation et localisation (I18N / L10N)
- Guarani
- Haoussa
- hindi
- Høgnorsk
- islandais
- Inuktitut
- irlandais
- Kinyarwanda
- kurde
- Lingala
- Luxuriant
- malais
- malgache
- Manx
- Migmaq
- Minderico
- Nishnaabe
- Oromo
- Quechua
- Sami
- Gaélique écossais
- Secwepemctsín
- somali
- Tigrinya
- Uralique
- zoulou
- Licence
Définitions
Les langues en voie de disparition sont des langues humaines qui risquent d'extinction. Cette liste comprend également des langues minoritaires - des langues qui sont parlées par une population stable mais petite (par exemple, maltais ou hawaïen); et des langues de faible ou sous-ressources, qui peuvent être parlées par une grande population mais sont sous-représentées numériquement (par exemple, Quechua). Ces langues partagent certaines caractéristiques en commun; Le plus pertinent est les données clairsemées et le manque de ressources, allant des vérificateurs de sorts aux grammaires en passant par les corpus de traduction automatique. D'autres langages sous-ressources qui ne relèvent pas de cette liste comprennent les langues construites (par exemple, Klingon ou Na'vi), les langues informatiques (par exemple, JavaScript ou Lua) et les langues éteintes qui sont si clairsemées qu'elles sont rendues par calcul en calcul pour la plupart des fins (par exemple, tocharien).
L'open source "promeut un accès universel via une licence gratuite à la conception ou au plan d'un produit, et à la redistribution universelle de ce design ou du plan, y compris des améliorations ultérieures par quiconque". (Wiki). Ceci est important car l'argent et les ressources alloués à une langue ou un projet qui ne sont pas open source sont dépensés au détriment d'une éventuelle extensibilité ailleurs.
Cette liste était nommée endangered-languages . Il a été renommé pour refléter que la mise en danger est un terme chargé qui peut ne pas refléter les vues des communautés linguistiques parlant les langues minoritaires. low-resource-languages concentre cette liste sur un manque de ressources numériques par rapport à d'autres langages en ressources élevées.
Les outils qui sont conçus pour ces langues ne sont pas inclus (sauf si pertinent pour les dialectes ou les variantes): arabe, bulgare, catalan, chinois, croate, tchèque, danois, néerlandais, anglais, estonien, finlandais, flamandant, français, grec, latte Persan, polonais, portugais, roumain, russe, serbe, slovaque, slovène, espagnol, suédois, thaï, turc, ukrainien, valence, vietnamien. Cette liste provient de la liste des langages de contenu les plus populaires pour les sites Web, sur cette page Wikipedia. D'autres mesures pourraient être utilisées - si vous en avez une autre, veuillez le suggérer!
Cette liste est particulièrement bonne dans une chose; montrant les types d'outils qui existent sur le terrain, génériquement. Cependant, pour une recherche approfondie sur une suite de langage ou d'outils spécifique, elle ne fonctionne pas exceptionnellement bien. Par exemple, la répertorié tous les packs de langage Firefox ou les modules de langue aperti pour chaque langue de ressources basse serait inutile, comme cela serait incluant tous les outils disponibles pour la basque notée dans le Wiki ACL, ce qui signifierait principalement des outils de catalogage via le groupe IXA, dont certains sont de l'ouverture, et certains ne le signifieraient pas. Au lieu de cela, considérez cette liste comme un point de départ pour plus de recherches.
Vous cherchez des ressources pour les langues de code? Jetez un œil à la collection de listes impressionnantes.
Référentiels génériques
Projets et services publics de lexicographie à langue unique
Services publics
- Le projet pour les dictionnaires électroniques gratuits est un projet pour un midlet Java pour les téléphones mobiles - pour les dictionnaires linguistiques autochtones.
- Site Webonary qui héberge les dictionnaires numériques pour les langues uniques.
- Wesay - permet aux communautés linguistiques de construire leurs propres dictionnaires. https://software.sil.org/wesay/ (par le SIL International).
Logiciel
- 4LANG - Dictionnaire concept à l'aide de machines Eilenberg.
- accentuate.us aka "Charlifter". Unicodification statistique du texte brut pour de nombreuses langues
- Alignement-with-openfst - Il s'agit d'une implémentation du framework AutoEncoder CRF pour quatre tâches: Alignement de mot MOWXT, Tagging de discours, commutation de code, analyse de dépendance.
- Apertium Apertium est une boîte à outils pour construire des systèmes de traduction automatique de transfert de transfert peu profonds open source, en particulier adaptés aux paires de langues connexes: il comprend le moteur, les outils de maintenance et les données linguistiques ouvertes pour plusieurs paires de langues.
- ARK-TWEET-NLP - CMU Ark Twitter Part-of-Speech Tagger ( Fork ).
- Artofreading - Index and Processing Scripts lié à la collection d'illustration d'art de la lecture.
- Bayesline - Une classification bayésienne multinomiale pour l'identification du langage.
- Bible-corpus-tools - une collection d'outils pour lire / traitement du corpus biblique multilingue.
- Bloomdesktop - Bloom Desktop est une application Windows hybride C # / JavaScript / HTML / CSS qui "abaisse considérablement la barre" pour les communautés linguistiques qui veulent des livres dans leur propre langue. Bloom offre un système à faible entraînement et à haut débit où les haut-parleurs de la langue maternelle et leurs défenseurs travaillent ensemble pour favoriser à la fois la paternité communautaire et l'accès à la matéria externe… https://bloomlibrary.org/.
- BloomLibrary - Bloom Library Library Page Page, utilisant AngularJS & Bootstrap, backend parse.com. https://bloomlibrary.org/.
- Brain - Réseaux de neurones en JavaScript.
- Bristol Uni Mt Morphology Tools - Ce repo est un miroir de scripts précédemment disponible sur http://www.cs.bris.ac.uk/research/machinearning/morphology/resources.jsp. Inclus: Ukwabelana - Un corpus zoulou morphologique open source et Emma: une nouvelle métrique d'évaluation pour l'analyse morphologique.
- Implémentation Brown-Cluster - C ++ de l'algorithme de clustering de mots bruns.
- CasualCon CasualConc est un programme de concordance qui s'exécute nativement sur Mac OS X 10.5 Leopard ou plus tard. Il a été conçu à l'origine pour une utilisation occasionnelle (analyse préliminaire ou des fins de recherche), bien que [le responsable] l'utilisait pour ses propres recherches (et que les autres l'ont fait). Il peut générer des lignes de concordance KWIC, des grappes de mots, une analyse de collocation et un nombre de mots.
- CDEC - Décodeur, aligneur et optimiseur de modèle pour la traduction automatique statistique et d'autres modèles de prédiction structurés basés sur des formalismes (principalement) sans contexte.
- Charlint Charlint est un outil de normalisation / vérification de caractère écrit en perl. Parmi les autres, il met en œuvre la forme de normalisation C d'Unicode Tr 15, comme plate-forme de test pour une normalisation uniforme précoce dans le modèle de caractères W3C.
- Chorus - Un système de contrôle de version conçu pour permettre aux workflows appropriés pour les équipes de développement du langage typiques qui sont réparties géographiquement.
- Clam - Médiateur des applications de linguistique de calcul - transforme rapidement les applications NLP en services Web RESTful avec un front-end de l'application Web. Vous fournissez une spécification de votre application de ligne de commande, de ses entrées, de ses sorties et de ses paramètres, et des palourdes s'enroulent autour de votre application pour former un service Web Restful à part entière.
- CMU Sphinx CMUSPHINX est un grand reconnaissance de la parole continue indépendante de l'enceinte publiée sous licence de style BSD. Il s'agit également d'une collection d'outils et de ressources open source qui permet aux chercheurs et aux développeurs de créer des systèmes de reconnaissance vocale.
- CNMINLANGWEBCOLLECT - Collection de détection des langues du site Web des minorités chinoises et de sites Web.
- COG - COG est un outil pour comparer les langues à l'aide du lexostatistique et des techniques de linguistique comparatives. Il peut être utilisé pour automatiser une grande partie du processus de comparaison des listes de mots à partir de différentes variétés de langue. http://sillsdev.github.io/cog/.
- Convertextract - Convertir des fichiers Excel, Word et PowerPoint avec du texte non Unicode (comme du texte nécessitant des polices SIL) en Unicode, tout en préservant le formatage du fichier d'origine.
- Corpustools - Phonological Corpustools http://phonologicalcorpustools.github.io/corpustools/.
- CTK - Construit autour du noyau d'aligneur de phrase Champollion de LDC, le kit d'outils Champollion (CTK) vise à fournir des outils d'alignement de phrase en texte parallèle prêts à l'emploi pour autant de paires de langues que possible. (Le projet original est sur sourceforge: http://champollion.sourceforge.net).
- DATATAGS - Un système pour évaluer la sensibilité et le risque de confidentialité d'un ensemble de données et attribuer une balise pour décrire comment l'ensemble de données doit être transféré, stocké et accessible. ( Fourchette ).
- Dataverse - Un cadre de référentiel de données pour partager et publier des données de recherche.
- Datif - datif: logiciel pour le travail linguistique sur le terrain http://www.dative.ca.
- Datif - une application à une seule page qui interagit avec plusieurs bases de données linguistiques de service Web sur le terrain. Site web.
- DeepLearntoolbox - Matlab / Octave Toolbox for Deep Learning. Comprend des filets de croyance profonde, des autoencodeurs empilés, des filets neuronaux convolutionnels, des autoencodeurs convolutionnels et des réseaux neuronaux de vanille. Chaque méthode propose des exemples pour vous aider à démarrer.
- Desmeme - Base de données et outils pour explorer les modèles linguistiques.
- DICTDB - Base de données du dictionnaire pour la traduction linguistique.
- DiscourseGraphs - outil basé sur Python pour convertir et fusionner les données linguistiques annotées multicouches.
- Divvun-GramCheck - Ce programme fait la recherche FST sur les formulaires spécifiés sous forme de lectures de format de grammaire de contrainte et recherche des marques d'erreur dans un fichier XML avec des messages lisibles par l'homme. Il est destiné à être utilisé comme un stade avancé d'un pipeline de vérificateur de grammaire.
- Divvun-Keyboard - Applications de clavier pour iOS et Android avec des dispositions de clavier pour les langues autochtones et minoritaires
- DivVunSpell -
hfst-ospell (ci-dessous) réécrit en rouille, pour une concurrence robuste et une gestion de la mémoire. Est en usage pratique environ 10x plus rapidement que hfst-ospell . Il utilise les mêmes fichiers ZHFST que hfst-ospell , qui sont disponibles pour toutes les langues du giellalt github org (voir ci-dessous). - DLTK - Kit d'outils de langue Deutsch. Plus.
- Epitran - Graphème à la conversion des phonèmes (G2P) pour de nombreuses langues à faible ressource.
- Elder: Données linguistiques en voie de disparition Référentiel électronique - Données de langage en voie de disparition Référentiel électronique: un outil de catalogage collaboratif de données linguistiques collaboratifs basé sur le Web.
- Enchant - Enchanter Bibliothèque de coche orthographique https://abiword.github.io/enchant/.
- EXSITE9 - EXSITE9 est une application de bureau qui a été conçue pour faciliter facilement les chercheurs et à marquer rapidement leurs fichiers de données avec des métadonnées descriptives et par la suite emballer leurs fichiers de données et les métadonnées associées prêtes à se soumettre à un référentiel. Exsite9 permet également l'organisation structurelle desdits fichiers dans le déplacement de leur emplacement physique sur votre stockage de fichiers local; Vous permettant d'organiser correctement vos fichiers et métadonnées prêts à l'emballage.
- Fast_align - Aligneur de mots simple et rapide non supervisé.
- FastText - Bibliothèque pour la représentation et la classification du texte rapide.
- FieldWorks - FieldWorks est une suite d'outils logiciels pour les données du langage et culturel, avec le support pour les scripts complexes. https://software.sil.org/fieldworks/ FieldWorks Language Explorer (ou Flex, pour faire court) est conçu pour aider les linguistes sur le terrain à effectuer de nombreuses tâches de documentation et d'analyse en langage commun. Il peut vous aider: provoquer et enregistrer des informations lexicales, créer des dictionnaires, interliiner les textes, analyser les caractéristiques du discours, la morphologie de l'étude.
- Franc - Détection du langage naturel https://wooorm.com/franc/.
- FWDocumentation - Documentation du développeur pour FieldWorks (outils logiciels pour les données de langue et culturels, avec le support pour les scripts complexes).
- FWLOCALISATIONS - LOCALISATIONS POUR FIELDWORKS.
- FWSUPPORTTOOLS - Outils supplémentaires pour le développement de Fieldworks.
- Gaia - Gaia est une interface utilisateur téléphonique basée sur HTML5 pour le projet Boot 2 Gecko. Remarque: Pour plus de détails sur les branches utilisées pour les versions, voir le wiki. Si vous souhaitez configurer un clavier dans une nouvelle langue, voyez ceci.
- Giellakbd-Android - une fourche de Latinime (par Google pour Android), ciblant les langages marginalisés qui méritent également le statut de première classe sur les systèmes d'exploitation mobiles. Utilisé par KBDgen (voir ailleurs sur cette page).
- GIELLAKBD-IOS - Une réimplémentation open source du clavier iOS natif d'Apple avec un accent spécifique sur la prise en charge des claviers localisés. Utilisé par KBDgen (voir ailleurs sur cette page).
- Giza-PP - Giza ++ est une boîte à outils de traduction automatique statistique utilisée pour former les modèles IBM 1-5 et un modèle d'alignement HMM Word. Ce package contient également la source de l'outil MKCLS qui génère les classes de mots nécessaires pour former certains des modèles d'alignement.
- GV-CRAWL - Global Voices Mitext Crawler pour créer des corpus parallèles.
- GLOTLID - Identification du langage FastText avec le support pour plus de 2000 étiquettes.
- Données glottolog - Glottolog fournit des informations de référence complètes pour les langues du monde.
- Gramadóir - Moteur de vérification des grammaires conçu pour le développement rapide des vérificateurs de grammaire pour les langues minoritaires et autres langues avec des ressources de calcul limitées.
- Grind - Un plug-in InDesign 5.5 conçu permet à des polices intelligentes compatibles en graphite d'être utilisées dans Adobe InDesign. Ce projet intègre la technologie Sil Graphite 2 Smart Font avec notre propre implémentation d'un plugin de compositeur de paragraphe.
- Hermitcrab - Hermitcrab.net est un analyseur morphologique / phonologique flexible qui adopte une approche d'élément et de processus.
- HFST-ESPELL - HFST Spell Checker Library and Command Line Tool.
- HfSt-Espell-JS - liaisons de nœuds pour HfST-Espell.
- HFST-Optimized-Lookup - HFST Optimize-Lookup Standalone Library and Command Line Tool.
- Hundict - Extracteur de dictionnaire bilingue des corpus parallèles.
- HUNSPELL - Vérificateur orthographique et bibliothèque d'analyseurs morphologiques et programme conçu pour les langues avec une morphologie riche et une composition de mots complexe ou un codage de caractères.
- HUNTAG - Un tagger séquentiel pour la PNL en utilisant l'apprentissage d'entropie maximal et les modèles de Markov cachés.
- ICU-DOTNET - C # Wrapper pour ICU4C.
- ICU4C - Miroir du projet SVN à http://source.icu-project.org/repos/icu/icu/. La branche FieldWorks a des améliorations spécifiques à FieldWorks.
- Ilanguage - Un analyseur morphologique indépendant du langage semi-supervisé utile pour endiguer le texte du langage inconnu, ou obtenir une estimation approximative des analyses possibles pour les morphèmes en un mot. Entrée: un corpus. Utilise la compression, l'entropie maximale et le champ de champ.
- IPA-HELP - IPA aide.
- Itweets-geodata - Geodata des tweets indigènes.
- JQUERY.IME - Bibliothèque de méthodes d'entrée basées sur JQuery.
- KBDGEN - Générez des claviers et des dispositions de clavier pour divers systèmes d'exploitation.
- Koreksyon - Outils pour développer et mettre en œuvre des capacités de décollement des sorts et de vérification de la grammaire dans les langues à faible ressource.
- L20N.JS - L20N réinvente la localisation du logiciel. Les utilisateurs devraient être en mesure de bénéficier de l'ensemble du pouvoir expressif des langues naturelles. L20N maintient les choses simples simples et rend en même temps des choses complexes possibles. Il s'agit de l'implémentation JavaScript de L20N. http://l20n.org.
- Langid.py - Système d'identification du langage autonome.
- Langtech une multitude de ressources fournies à SVN par l'Université de Tromsø. Les détails sont ici et en anglais ici.
- Lego Unified Concepticon - Matériel relatif au concepticon LEGO Unified.
- Lex4all - lexique de prononciation pour tout langage à faible ressource http://lex4all.github.io/lex4all/.
- LEXDB - LEXDB est une base de données de suivi apparentée lexical. Il stocke la pleine provenance de tous les lexèmes et jugements apparentés, et permet l'exportation dans un certain nombre de dialectes de lien. La base de données est écrite dans le framework Web flexible Python / Django.
- LFMerge - Envoyer / recevoir pour LanguageForge.org.
- Liblevenshtein - Une bibliothèque pour générer des transducteurs à l'état fini basé sur Levenshtein Automata.
- Libpalaso - Bibliothèque Palaso: un ensemble de bibliothèques .NET utiles pour les développeurs de logiciels linguistiques.
- Matrice de grammaire Lingo La matrice de grammaire Lingo est un cadre pour le développement de grammaires à couverture générale, de précision et de précision pour diverses langues.
- LINGPY - LINGPY: Bibliothèque Python pour les tâches quantitatives en linguistique historique http://lingpy.org.
- Linguistic Linguistica est un programme conçu pour explorer l'apprentissage non supervisé du langage naturel, en mettant principalement sur la morphologie (structure de mots). Il s'exécute sous Windows, Mac OS X et Linux, et est écrit en C ++ dans le cadre de développement QT. Ses exigences sur la mémoire dépendent de la taille du corpus analysé.
- Plugin à longue pression - jQuery pour soulager l'écriture de personnages accentués ou rares. http://toki-woki.net/lab/long-press/.
- Tagging à faible ressource-ressource-2014-Tagging POS à faible ressource: 2014
- LRL - Pour les travaux concernant les langues de ressources faibles.
- MACVOIKKO - Un serveur d'orthographe OS X basé sur VOIKKO.
- Machine - La machine est une bibliothèque de traitement du langage naturel pour .NET qui se concentre sur la fourniture d'outils pour le traitement des langages pauvres en ressources (utilisés par Flex).
- Make-Extensions - Scripts pour générer des extensions de vérification orthographique de Hunpell.
- MGIZA - Un outil d'alignement du mot basé sur la célèbre Giza ++, étendu pour prendre en charge le multi-threading, la formation de curriculum vitae et une formation incrémentielle.
- Traduction minoritaire Traduction Minority Translate est un programme simple pour aider à la génération de contenu sur des wikipedias de petite taille (en fait n'importe quelle taille) en donnant des pointeurs sur des articles existants dans d'autres wikipedias de langue, afin que l'utilisateur puisse facilement traduire ou adapter les textes existants et ainsi augmenter la taille et l'utilisation de leurs éditions Wikipedia.
- Morfessor - Morfessor est un outil de segmentation morphologique non supervisée et semi-supervisée.
- MORPHOLM - Modèles de langue conscient de la morphologie.
- MORPH-TEST - Un script Python pour exécuter des tests pour la génération et l'analyse d'un transducteur morphologique construit en utilisant l'infrastructure Giella. Fonctionne avec HFST, les outils FST de Xerox et avec Foma.
- Mosesdecoder - Moïse, le système de traduction machine.
- MOZ-L10N-TIERS - Crée un pseudo-local pour évaluer la hiérarchisation des chaînes pour L10N.
- Mukurtucms - Le Mukurtu Content Management System (CMS) est une plate-forme basée sur Internet conçue pour permettre l'archivage des ressources culturelles numériques
- MyThes - MyThes est un simple thésaurus qui utilise un fichier de données texte structuré et un fichier d'index avec une recherche binaire pour rechercher des mots et des phrases et renvoyer des informations sur une partie de la parole, des significations et des synonymes.
- MyWorksafe - Smart & Simple Backup pour les travailleurs du développement du langage. http://software.sil.org/myworksafe/.
- Nabu - Nabu est un système de gestion des éléments médiatiques numériques qui fournit un catalogue d'éléments audio et vidéo, des métadonnées pour ces éléments et des informations sur l'état du flux de travail des éléments. www.paradisc.org.au
- Natural - JavaScript Installations de langage naturel général pour le nœud.
- NIST 2008 Évaluation de la traduction automatique ouverte
- NLTK - Kit d'outils en langage naturel Python . Nltk Source http://www.nltk.org/.
- Node-Panlex - Client Node.js pour Panlex.
- NORMA - Un outil de normalisation d'orthographe automatique.
- NPLM - Fork de https://nlg.isi.edu/software/nplm/ avec quelques ajustements d'efficacité et adaptation pour une utilisation dans Mosesdecoder.
- Octothorpe - truc wiki propulsé par Couchdb.
- ODTXSLT - Effectuez la transformation XSLT sur le contenu d'un package (comme ODT, DOCX, etc.).
- Old-Webapp - Base de données linguistique en ligne --- Logiciel de création d'applications Web pour documenter en collaboration Languages.http: //www.onlinelinguisticDatabase.org.
- Old - La base de données linguistique en ligne (ancienne): logiciel pour le travail linguistique sur le terrain. http://www.onlineLinguisticDatabase.org.
- Old-Pyramid - La base de données linguistique en ligne a migré vers le cadre Pyramid.
- Omegat-Hfst-Tokenzer - Omegat-HFST-Tokenzer fournit une tokénisation basée sur FST dans Omegat.
- OpenDatAkit Open Data Kit (ODK) est une suite d'outils open source qui aide les organisations, auteur, champ et gérer des solutions de collecte de données mobiles
- OpenNLP - La bibliothèque Apache OpenNLP est une boîte à outils basée sur l'apprentissage automatique pour le traitement du texte du langage naturel. Site web.
- Ops-Devbox - ANSIBLE Playbook pour une machine de développeur (Linux).
- Panlex-Tools - Ce package contient des scripts pour transformer les ressources lexicales en un format adapté à l'importation dans Panlex. La documentation peut être trouvée sur https://dev.panlex.org.
- PDSC-COLLECTION-VOIEUR - BROCKER DE LA COLLECTE PARADISEC
- Paradigme - Le paradigme est une implémentation .NET (C #) de l'œuvre de Joseph E. Grimes de 1983 intitulée "Positions Affix et cooccurrences: le programme Paradigm".
- Pathway - Préparation des données linguistiques pour la publication.
- PDFDROPLET - Bibliothèque et GUI pour l'imposition de pages PDF (par exemple 2-up) http://software.sil.org/pdfdroplet/.
- Pepper - Le poivre est un cadre de convertisseur open source enfichable, basé sur Java pour les données linguistiques.
- Assistant phonologie-assistant - L'assistant de phonologie est un outil de découverte. Fourni avec un corpus de données phonétiques, il trace automatiquement les sons et grâce à ses capacités de recherche, aide un utilisateur à découvrir et à tester les règles du son dans une langue.
- Pressagio - Pressagio est une bibliothèque qui prédit du texte basé sur des modèles N-gram. Par exemple, vous pouvez envoyer une chaîne et la bibliothèque renverra les compléments de mots les plus probables pour le dernier jeton de la chaîne.
- PrimerPro - Le but de PrimerPro est d'aider l'alphabétisation dans le développement des amorces pour une langue donnée.
- Pydelphin - Bibliothèques Python pour Delph-in (Friendly Fork).
- RBGPARSER - Parser de dépendance basé sur des graphiques.
- Rosetta Pangloss - Le système de pangloss du projet Rosetta.
- SALM - SALM: Array du suffixe et ses applications dans le traitement du langage empirique par la joie.
- SALT - Un modèle basé sur un graphique pour stocker et manipuler les données linguistiques.
- Saymore - Un outil pour effectuer des tâches de documentation en langue commune telles que la conservation de tous les fichiers et métadonnées résultants organisés, la conversion de fichiers en formats d'archives et la transcription.
- SECWEPEMC-FACEBOOK - Traduire Facebook en langues non étayées.
- SEGPARSER - Algorithme gourmand randomisé pour la segmentation conjointe, le marquage POS et l'analyse de dépendance.
- Semis - construire et utiliser un corpus de semences pour le projet de langue humaine.
- Skype dans votre langue - traduit Skype en langues non pris en charge.
- Solid - Solid est un outil logiciel qui peut être utilisé pour vérifier, nettoyer et convertir les données du lexique au format standard (par exemple).
- Outils de conversion de la sphère, de nombreux corpus LDC contiennent des fichiers vocaux au format de sphère NIST. Les programmes ci-dessous convertissent les fichiers sphères en autres formats.
- StandardFormatLib - Bibliothèque de format standard.
- Stanford Corenlp - Stanford Corenlp: une suite Java d'outils NLP de base. https://stanfordnlp.github.io/corenlp/.
- Stanford Corenlp Python - Python Wrapper pour les outils Stanford Corenlp.
- Stanza - Outils Python partagés de Stanford NLP Group.
- str2ipa - dictionnaires de prononciation pour les langues avec des systèmes d'écriture proches des phonétiques.
- Sugali - Il s'agit d'un référentiel hérité du projet d'identification linguistique pour de nombreux (de nombreux) langages pour le cours de projet logiciel, projets NLP pour les langages à faible ressource.
- Sugar comme l'identification du langage pour les langues de ressources faibles (par Susanne, Guy et Liling).
- SYLLABIPY - Interface Python pour les algorithmes de syllabification universel
- Tasty-Imitation-Keyboard - Un clavier personnalisé pour iOS8 + qui sert d'imitation savoureuse du clavier Apple par défaut. Construit en utilisant Swift et les dernières technologies Apple!.
- Teckit - une boîte à outils de conversion de codage de texte.
- Teny - Outils pour la traduction machine à faible ressource.
- Teradict - Traduire les mots anglais en centaines de langues!.
- Tesseract.js - OCR JavaScript pur pour 62 langues ?? http://tesseract.projectnaptha.com/.
- TEXNLP - TexnLP: Texas Natural Language Traitement Outils.
- TIMBL TIMBL est un package logiciel open source implémentant plusieurs algorithmes d'apprentissage basés sur la mémoire, parmi lesquels IB1-IG, une implémentation de la classification du voisin K-Dearest avec une pondération des fonctionnalités adaptée aux espaces de fonctionnalités symboliques, et Igtree, une approximation de la décision d'IB1-IG. Tous les algorithmes implémentés ont en commun qu'ils stockent explicitement une représentation de l'ensemble de formation en mémoire. Pendant les tests, les nouveaux cas sont classés par extrapolation à partir des cas stockés les plus similaires.
- Toney - logiciel de classification des tons.
- Toolbox de Field Linguist - Toolbox est un outil de gestion et d'analyse des données pour les linguistes de terrain. Il est particulièrement utile pour maintenir des données lexicales et pour l'analyse et le texte interlinéant, mais il peut être utilisé pour gérer pratiquement tout type de données.
- Scripts de la boîte à outils pour Elan - Miroir des scripts à outils d'Alexander Koenig https://tla.mpi.nl/tools/tla-tools/elan/thirdparty/.
- ToolsForfieldLinguistics - une collection de scripts et de recettes pour la linguistique.
- Transcripteur - Un outil de transcription HTML5 pour Aikuma
- Transtitit-Engine - Un moteur de translittération écrit en javascript.
- Tsammalex Données - Tsammalex est une base de données lexicale multilingue sur les plantes et les animaux.
- Tweet2Learn - une application pour faciliter l'utilisation de votre langue maternelle sur Twitter.
- Twitter_langid - un réseau de neurones hiérarchiques pour l'identification du langage.
- Universaldependences DOCS - Dépendances universelles Documentation en ligne http://uversaldependencies.org/docs/.
- Outils Universaldependces - Divers utilitaires pour le traitement des données.
- Vocbench Vocbench est un outil de montage en ligne, multilingue, qui gère le thésaure, les listes d'autorité et les glossaires à l'aide de Skos-XL.
- wavesurfer.js - Forme d'onde navigable construite sur le web audio et canvas https://wavesurfer-js.org/ (a également un plugin elan).
- Template Web - Il s'agit d'un modèle Web qui peut être utilisé pour présenter des ressources d'apprentissage des langues pour faciliter les efforts de revitalisation du langage. Il comprend un dictionnaire qui parle et un phrasicon, contenant des phrases et des phrases.
- WebCorpus - Ce projet est une collection de scripts et de programmes pour créer un webcorpus à partir de données rampantes.
- Wikt2Dict - outil d'analyse Wiktionary pour de nombreuses éditions linguistiques.
- Wikipron - Récupération des prononciations IPA pour les entrées Wiktionary
- Word Generator WordGenerator génère des mots hypothétiques à partir des spécifications de leur structure de syllabe.
- Wordboundary - Une expérience dans la détection et la segmentation des limites des mots.
- WordByWord - WordByWord est un formateur de vocabulaire multimédia gratuit et open source et facile à utiliser développé par Vera Ferreira, Peter Bouda et Ricardo Filipe chez Cidles avec le soutien des Fondations des langues menacées.
- WSI4URLANG - Induction de sens des mots (WSI) pour les langues sous-ressources (Urlang).
- XDXF_Makedict - Format de dictionnaire XDXF et logiciel de conversion du dictionnaire "Makedict" (référentiel officiel).
Aiders de configuration de la disposition du clavier
- jQuery.ime - éditeur de méthode d'entrée jQuery utilisé sur Wikipedia
- KBDGEN - Générez des claviers et des dispositions de clavier pour Windows, MacOS, X11, iOS, Android et Chrome, à partir d'un seul fichier YAML simple. Enregistre également les langages inconnus de Windows, de sorte qu'après l'installation, il existe une association correcte et robuste entre le code BCP 47 désigné (y compris la prise en charge complète de l'ISO 639-3) et des outils de langage installés tels que les claviers, les vérificateurs d'orthographe et d'autres outils.
- Clavier - clavier virtuel à l'aide de jQuery ~ https://mottie.github.io/keyboard/.
- Claviers - Keyman open source Keyman Keyboards.
- Keyman - Méthodes d'entrée croisée de Keyman. Keyman vous permet de taper plus de 1 000 langages sur Windows, iPhone, iPad, tablettes et téléphones Android, et même instantanément dans votre navigateur Web. Site web.
- KeyboardLayoutEditor - Editor de mise en page du clavier https://code.google.com/archive/p/keyboardlayoutetor/.
- Éditeur de mise en page du clavier - Éditeur de mise en page du clavier http://www.keyboard-layout-editor.com
- LipiKa-ime - Moteur de méthode d'entrée (IME) pour Mac OS X avec prise en charge intégrée pour toutes les langues Indic.
- Xkeyboardconfig - la base de données de configuration du clavier non Arch pour la fenêtre x. L'objectif est de fournir les données open source cohérentes, bien structurées et fréquemment publiées de données de configuration du clavier X pour les implémentations du système de fenêtre X (libre, open source et commerciale). Le projet est ciblé sur les systèmes basés sur XKB.
Annotation
- AGTK - AGTK est une suite de composants logiciels pour la création d'outils pour annotation des signaux linguistiques, des données de séries chronologiques qui documentent tout type de comportement linguistique (par exemple audio, vidéo). Les structures de données internes sont basées sur des graphiques d'annotation. (Le projet original est sur sourceforge: https://sourceforge.net/projects/agtk/).
- Brendano - Langue de fragment de graphique pour l'annotation syntaxique facile https://www.cs.cmu.edu/~ark/fudg/.
- Elan Elan est un outil professionnel pour la création d'annotations complexes sur les ressources vidéo et audio.
- Eopas - Système de présentation et d'annotation en ligne ethnoer.
- Flat - Folia Linguistic Annotation Tool - Flat est un environnement d'annotation linguistique basé sur le Web basé autour du format Folia (http://proycon.github.io/folia/), un riche format basé sur XML pour l'annotation linguistique. Flat permet aux utilisateurs de visualiser les documents Folia annotés et d'enrichir ces documents avec de nouvelles annotations, une grande variété de types d'annotation linguistique est prise en charge par le paradigme Folia. Il s'agit d'un outil centré sur le document qui préserve et visualise entièrement la structure du document.
- GFL_SYNTAX - Langue de fragment de graphique pour l'annotation syntaxique facile https://www.cs.cmu.edu/~ark/fudg/.
- Graf-Python - La bibliothèque Graf-Python est une mise en œuvre de python open source pour analyser et écrire des fichiers GRAF / XML comme décrit dans ISO 24612. L'analyseur de la bibliothèque crée un graphique d'annotation à partir des fichiers. L'utilisateur peut ensuite interroger le graphique d'annotation via l'API de Graf-Python.
- Kwaras - Outils pour la gestion d'Elan Corpus.
- LDC Word Aligner LDC Word Aligner est un outil logiciel utilisé pour l'annotation manuelle de l'alignement des mots développé pour soutenir les tâches d'alignement des mots arabes-anglais et chinois-anglais. Il a une interface propre et facile à utiliser. Depuis son développement en 2009, LDC a utilisé LDC Word Aligner pour générer plus de 1 000 000 de jetons de données d'alignement de mots annotées à partir d'une variété de genres, notamment la diffusion, les nouvelles et les sources Web. Site web.
- Poio-Analyzer - Poio est une collection d'outils logiciels pour les linguistes travaillant dans la documentation linguistique, la linguistique descriptive et / ou la typologie du langage. Il permet aux linguistes de gérer et d'analyser leurs données. L'éditeur interlinéaire de Poio permet d'ajouter des annotations morpho-syntaxiques aux transcriptions. It supports various file formats for input, but will only output standardized XML defined by the Corpus Encoding Standard and the Text Encoding Initiative. Several tools for analyzing linguistic data will be made available to further process annotated data. Poio tools are written in Python and are based on PyQt.
- poio-api - Poio API is a free and open source Python library to access and search data from language documentation in your linguistic analysis workflow. It converts file formats like Elan's EAF, Toolbox files, Typecraft XML and others into annotation graphs as defined in ISO 24612. Those graphs, for which we use an implementation called “Graph Annotation F…
- pyannotation - PyAnnotation is a Python Library to access and manipulate linguistically annotated corpus files.
- XTrans Trans is a next generation multi-platform, multilingual, multi-channel transcription tool that supports manual transcription and annotation of audio recordings. The XTrans toolkit provides new and efficient solutions to common transcription challenges and addresses critical gaps in existing tools.Designed with input from experienced human transcribers working with real world data, XTrans provides a flexible and intuitive graphical user interface for a multitude of speech annotation tasks including (virtual) segmentation of audio into smaller units like turns and sentences; speaker identification; orthographic transcription in any language; and labeling of structural elements of the transcript like topics.
Format Specifications
- spec - The official specification for the DLx linguistic data format. https://digitallinguistics.github.io/spec/.
- FoLiA FoLiA: Format for Linguistic Annotation - FoLiA is a rich XML-based annotation format for the representation of language resources (including corpora) with linguistic annotations. A wide variety of linguistic annotations are support, making FoLiA a useful format for NLP tasks and data interchange. http://proycon.github.io/folia/
- xdxf_makedict - XDXF dictionary format and "makedict" dictionary converting software (official repository).
i18n-related Repositories
- Express-Lingua - An i18n middleware for the Express.js framework.
- Polyglot.js Give your JavaScript the ability to speak many languages.
- Transifex - System for providing a nice, userfriendly/project oriented approach to translating
.po files. Great for non-technical users, free for open-source projects, decent for minority languages; however , it can take a while to get a new language added to the Transifex system because the ticketing system Transifex uses results in them losing tickets sometimes. Provides translation memory, ability to appoint reviewers, etc. Transifex used to have an open source system that you could host on your own, but that seems to have disappeared.
Audio automation
- arctic-prompts - Generate prompts PDF for CMU ARCTIC dataset.
- AudioWebService - a simple nodejs server which accepts upload of audio and runs it through praat.
- AuToBI - Automatic prosodic annotation tool written in Java.
- BashScriptsForPhonetics - ( Fork of a dormant project).
- esv-text-audio-aligner - ESV Text/Audio Aligner to programmatically obtain the timings for each word in the corresponding audio.
- html5-audio-read-along - HTML5 Audio Read-Along.
- ipa-chart - International Phonetic Alphabet (IPA) Unicode Chart and Character Picker.
- kaldi-svn-archive - An read-only archive of the original Kaldi SVN repository (mainly to keep sandboxes available).
- lex4all - pronunciation LEXicons for Any Low-resource Language ( Fork of a student project).
- Montreal-Forced-Aligner - Python interface for forced text/speech alignment.
- node-pocketsphinx
- opensauce - GNU Octave-compatible version of VoiceSauce.
- pocketsphinx - PocketSphinx is a lightweight speech recognition engine, specifically tuned for handheld and mobile devices, though it works equally well on the desktop.
- pocketsphinx-ios-demo - Simple demo for iOS.
- pocketsphinx-python - Python module installed with setup.py.
- pocketsphinx-ruby - Ruby speech recognition with Pocketsphinx.
- pocketsphinx-wp-demo - Demo to run pocketsphinx on WP8 platform.
- pocketsphinx.js - Speech recognition in JavaScript.
- praat-py - From my PhD days: Praat-Py is a custom build of Praat, the computer program used by linguists for doing phonetic analysis on sound files, to allow for scripts to be written in the Python programming language, rather than in Praat's built-in language. ( Fork of a dormant project).
- Praat-Scripts - Mietta's Scripts.
- PraatTextGridJS - A small library which can parse TextGrid into json and json into TextGrid.
- PraatontheWeb - Web implementation of Praat. Source code, running demo scripts on web, samples and documentation.
- prosodicParsing - different kinds of HMMs to use for incorporating prosody into basic parsing.
- Prosodylab-Aligner - Python interface for forced audio alignment using HTK and SoX.
- prosodylab.alignertools
- Recordmp3js - Record MP3 files directly from the browser using JS and HTML.
- sphinx4 - Pure Java speech recognition library.
- sphinxbase
- sphinxtrain
- TLSphinx - Swift wrapper around Pocketsphinx.
Text-to-Speech (TTS)
- espeak - eSpeak is a compact open source software speech synthesizer for English and other languages, for Linux and Windows. http://espeak.sourceforge.net.
- MARY TTS - MARY TTS -- an open-source, multilingual text-to-speech synthesis system written in pure java http://mary.dfki.de.
- Ossian - Ossian is a collection of Python code for building text-to-speech (TTS) systems, with an emphasis on easing research into building TTS systems with minimal expert supervision.
Automatic Speech Recognition (ASR)
- Elpis - Elpis is software for creating speech recognition models and applying them to the transcription of audio. As of 2022, it gives access to Kaldi and Huggingface Transformers.
- kaldi - This is now the official location of the Kaldi project.
- Persephone - Persephone aims to make state-of-the-art phonemic transcription accessible to people involved in language documentation, who have a training corpus of about one to four hours of transcribed speech. As of 2022, Persephone is superseded by Elpis.
Text automation
- clld - Cross Linguistic Linked Data python library.
- LaTeX2HTML5 - LaTeX web components.
- MultilingualCorporaExtractor - Node io Spider for extracting multilingual corpora ( Fork of a student project).
- SeedLing - Building and Using A Seed Corpus for the Human Language Project ( Fork of a student project).
Expérimentation
- experigen - A framework for creating linguistic experiments.
- GamifyPsycholinguisticsExperiments - A simple node server to gamify linguistics experiments, runs offline on a laptop for small scale experiements and online on a server for large scale experiments. Data is sent to a Google spreadsheet. ( Fork of a dormant project).
- OpenSesame - Graphical experiment builder for the social sciences.
- OPrime - Open Source Experimentation Libraries - Online and Offline for Android and HTML5.
- psychopyMegProsody - Runs MegProsody using PsychoPy.
- PsychScript - A HTML5/Javascript library for running behavioural experiments online.
Flashcards
- Anki - Anki is a program to make and share flaschard decks (including audio) for any language or writing system. https://apps.ankiweb.net/.
- awesome-anki - A curated list of awesome Anki add-ons, decks and resources.
- VocabLift - Language-learning tool that uses vocabulary from LIFT-format dictionaries produced by programs such as Fieldworks Language Explorer and WeSay.
Natural language generation
- OpenCCG - OpenCCG library for parsing and realization with CCG. Includes mini-grammars for Inuit, Nezperce, Basque and others.
Computing systems
- Common Language Resources and Technology Infrastructure Norway / Clarino - One of their projects (not clearly listed here) is about providing an online system for language analysis, so users can connect resources visually, dump in text, and get a result. Kind of like the Yahoo! Pipes but for language processing. Uses the ABEL cluster.
Android Applications
- Aikuma - Android software for recording and translation.
- Android Speech Recognition Trainer - Speech recognition training app for low resource languages which interfaces with FieldDB corpora.
- android-template - This is a template of an Android word-learning app that may be used a way to introduce a language. It includes a quiz. For the documentation, go to http://eddersko.github.io/android-template/.
- AndroidFieldDB - An Android app which lets the user build a custom visual and auditory vocabulary, useful for guided anomia treatment and self designed language lessons by heritage speakers.
- AndroidFieldDBElicitationRecorder - A general purpose video recording tool.
- AndroidLanguageLessons - Lets heritage speakers create self designed language lessons.
- AndroidProductionExperiment - Android App to run perception experiments.
- Bevara - Android Phone Application designed for Linguistic Fieldwork to help preserve, maintain, and save endangered languages.
- ojoVoz - A mobile app for sending georeferenced image and voice recordings from an Adroid phone to an email address. For more information, please go to http://sautiyawakulima.net/ojovoz/.
- pocketsphinx-android - pocketsphinx build for Android.
- pocketsphinx-android-demo
Chrome Extensions
- babelfrog - Chrome extension to help learn languages as you browse.
- DictionaryChromeExtension - Dictionary for websites in low-resource languages. App and codebase which connects to a Wiktionary to provide definitions of any term on any website (current languages Cherokee 194,426 entries, Inuktitut 251 entries, Kartuli 7,363 entries, Plains Cree (incubation) 0 entries) use.
FieldDB
FieldDB is actively worked on by the FieldDB (Formally known as OpenSourceFieldlinguistics) group. These repos explicitly work with it but could be repurposed for other projects.
- FieldDB - An offline/online field database which adapts to its user's terminology and I-Language, has plugins for various data automation routines along the process of primary data collection to cleaning to publication and archival. utiliser.
FieldDB Webservices/Components/Plugins
- AndroidLanguageLearningClientForFieldDB-sikuli - Sikuli tests for AndroidLanguageLearningClientForFieldDB.
- AuthenticationWebService - A node.js web service which mananges users and corpora creation and authentication.
- bower-fielddb-angular - A bower repository which hosts fielddb-angular components, bower install fielddb-angular --save.
- bower-fielddb - A bower repository which hosts fielddb core components, bower install fielddb --save.
- fielddb-spreadsheet-sikuli - sikuli tests for the spreadsheet module use.
- FieldDBActivityFeed - A fielddb activity feed widget which can be embedded in other codebases, websites etc use.
- FieldDBGlosser - A semi-unsupervised language independent morphological analyzer useful for stemming unknown language text, or getting a rough estimate of possible parses for morphemes in a word. bower install fielddb-glosser --save.
- FieldDBLexicon - A lexicon browser/editor web widget for FieldDB databases.
- LanguageClassDashboard - App which provides a view of FieldDB corpora for language teachers use.
- LexiconWebService - A node.js ElasticSearch wrapper for indexing/training lexicons from corpora.
- LexiconWebServiceSample - A node.js web server which implements the fieldlinguist's lexicon API for the FieldDB project.
Academic Research Paper-Specific Repositories
- Gargantua - Fast Unsupervised Sentence Aligner described in "Improved unsupervised sentence alignment for symmetrical and asymmetrical parallel corpora", COLING 2010.
- ldc-kiy - Materials for: The experimental state of mind in elicitation: illustrations from tonal fieldwork. Dubmitted to Language Documentation & Conservation, How to study a tone language .
- Learning to map into a Univerisal POS tagset Yuan Zhang, Roi Reichart, Regina Barzilay and Amir Globerson
- low-resource-pos-tagging-2014 and low-resource-pos-tagging-2014 Published in: Learning a Part-of-Speech Tagger from Two Hours of Annotation. Dan Garrette and Jason Baldridge . In Proceedings of NAACL 2013. And in: Real-World Semi-Supervised Learning of POS-Taggers for Low-Resource Languages. Dan Garrette, Jason Mielens, and Jason Baldridge . In Proceedings of ACL 2013.
- orthotree - Linguistic family tree based on orthographic distance.
- type-supervised-tagging-2012emnlp This repository contains the code, scripts, and instructions needed to reproduce the results in the paper: Type-Supervised Hidden Markov Models for Part-of-Speech Tagging with Incomplete Tag Dictionaries. Dan Garrette and Jason Baldridge . In Proceedings of EMNLP 2012. This code is frozen as of the version used to obtain the results in the paper. It will not be maintained. To see the updated code, visit nlp
- visualizing-language - For visualizations of WALS and other typological databases.
- WALS-APiCS - Code for working with WALS-APiCS (Atlas of Pidgin and Creole Language Structures) complexity metrics.
Example Repositories
These are repositories that are generally only interesting for training purposes or seeing how something is done.
- CorpusWebService - über-simple node.js-Proxy to enable CORS request for couchdb.
- CorporaForFieldLinguistics - Small corpora from diverse language typologies, useful for testing scripts.
- startR
- lucenerevolution-2013 - Demo examples for linguistics in Lucene and Solr.
- berlin-buzzwords-2013 - Demo examples for Lucene, Solr, ElasticSearch and OpenNLP from Berlin Buzzwords 2013 talk.
Polices
- fontinline - Make inline stroke paths from an outline font.
- Noto Fonts - Noto is Google's free font family that aims to support all the world's scripts. Its design goal is to achieve visual harmonization across languages. Noto fonts are under Apache License 2.0.
- Unicodify Unicodify is a suite of programs for converting text in a variety of 8-bit encodings to Unicode (using the UTF-16 encoding). Unicodify was particularly designed to handle HTML-based text using non-ISCII 8-bit fonts to render South Asian scripts. However, elements of the suite can map other types of non-ASCII 8-bit encodings, such as Latin-2, ISCII and PASCII.
Corpora
These corpora are useful for working with tools on endangered languages. Monolingual corpora that are more for archival efforts should most likely not be included here.
- bible-corpus - A multilingual parallel corpus created from translations of the Bible.
- poio-corpus - The Poio Corpus is a freely available collection of language resources for the lesser-used languages. The data is extracted from free sources like Wikipedia, dictionaries, documents, websites and others.
Organizations
On GitHub
- batumi - Speech recognition and natural language processing for low-resource languages
- BloomBooks
- unicode-cldr - Unicode Common Locale Data Repository (CLDR) Project http://cldr.unicode.org
- cmusphinx - Mirror of the SourceForge repositories
- dativebase - Tools for working with OLD.
- divvun - The Divvun group at UiT develops proofing tools, keyboard apps and other language technology solutions for indigenous and minority languages, especially the Sámi languages. Site web.
- FieldDB
- GiellaLT - home for keyboard layouts, lexicons and morphologies for indigenous and minority languages, especially for morphologically complex languages, using mainly rule-based techonlogies. The resources are used by Divvun (above) and Giellatekno (below) to build a number of tools for the language communities. Almost everything is open source.
- HFST - Helsinki Finite-State Technology. Site web.
- hunspell
- keymanapp - Website.
- langtech - Language Technology Group, University of Melbourne
- lex4all
- longnow
- MontrealCorpusTools
- moses-smt - Statistical Machine Translation.
- mukurtucms
- NLTK - Natural Language Toolkit.
- PhonologicalCorpusTools)
- Projet de recherche sur l'écriture - Crowdsourcing or conducting large scale psycholinguistics experiments (or statistically significant field linguistics).
- prosodylab - Prosodylab at McGill University, Canada
- SIL International (Dev) SIL International- Another SIL organization, with many repositories.
- SIL International - SIL (originally known as the Summer Institute of Linguistics, Inc.) is probably the leading organization which provides software and tools tailored for use by field linguists and lexicographers working on endangered languages. A little known fact is that much of it's code is open sourced on GitHub and SIL is happy to recieve open source contributions and collaborate on open source projects.
- SIL NRSI - SIL Non-Roman Script Initiative. The NRSI is a department of SIL International, whose task is to provide assistance, research and development for SIL International and its partners to support the use of non-Roman and complex scripts in language development.
- StanfordNLP https://nlp.stanford.edu
- ucsd-field-lab - University of California, San Diego
- UniversalDependencies - Universal Dependencies (UD) is a project that is developing cross-linguistically consistent treebank annotation for many languages, with the goal of facilitating multilingual parser development, cross-lingual learning, and parsing research from a language typology perspective. The annotation scheme is based on an evolution of (universal) Stanford dependencies (de Marneffe et al., 2006, 2008, 2014), Google universal part-of-speech tags (Petrov et al., 2012), and the Interset interlingua for morphosyntactic tagsets (Zeman, 2008). The general philosophy is to provide a universal inventory of categories and guidelines to facilitate consistent annotation of similar constructions across languages, while allowing language-specific extensions when necessary.
- utcompling - The University of Texas at Austin's Computational Linguistics Lab. Site web.
Other OSS Organizations
- Giellatekno - Giellatekno combines cutting-edge linguistic and computational research into the analysis of Saami and other morphologically-rich languages, with the development of practical applications. We focus on deep linguistic modeling and on highly efficient and robust computational analysis with a wide empirical coverage. They use svn for their code: all of it can be found here, sorted by language.
- LOWLANDS - LOWLANDS – Parsing low-resource languages and domains https://ccc.ku.dk/research/lowlands/
- LTRC: Language Technologies Research Center IIIT Hyderabad LTRC addresses the complex problem of understanding and processing natural languages in both speech and text mode. LTRC conducts research on both basic and applied aspects of language technology. It is the largest academic centre of speech and language technology in South Asia. LTRC carries out its work through four labs, which work in synergy with each other, as listed above.
- The Language Archive Part of the MPI
Tutoriels
- How to Write a Spelling Corrector by Peter Norvig.
Language Specific Projects
For each language, we include the ISO 639-3 code, and the main autonym for that language.
afrikaans
afr :: Afrikaans
- Afrikaanse rekenaarlinguïstiek (Afrikaans computational linguistics) — wordlists, corpora, morphological analyser, tagger, word decompounder. Available upon email.
albanais
sqi :: shqip
- Apertium rules for Albanian - Machine Translation rules
- out-of-copyright-albanian-authors - authors scraped from the albanian language wikipedia who are out of copyright.
- Plis keyboard - The Plis keyboard is a keyboard or computer keyboard layout for the Albanian language.
- spell checking - Here you find a collection of Albanian words and information about them. Aspell, Ispell, and MySpell are included.
Alutiiq
ems :: sugpiaq
- wiinaq - Word Wiinaq is a Kodiak Alutiiq dictionary web application with automatically generated ending tables and souped-up search capabilities. It is written in Python using Django.
Amharique
amh :: አማርኛ
- HornMorpho - Morphological analysis and generation of Amharic and Oromo verbs and nouns and Tigrinya verbs
Basque
eus :: euskara
- Matxin - An open-source transfer machine translation engine. Linguistic information for the translation from Spanish and Basque (es-eu) is included.
bengali
ben :: বাংলা
- Bangla-অঙ্কুর for Mac This project aims to develop a phonetic based Bangla typing system for Macintosh computer which can be developed into a transliteration technique in the future.
- Bengali Writer - `Bengali Writer' is a set of utilities for computerized editing and typesetting in Bengali, a language of India and Bangladesh. It comprises a set of fonts for Bengali in several formats (METAFONT, BDF, PS), a text editor with spell-cheking, export, and more. (Original project is on SourceForge: https://sourceforge.net/projects/bengaliwriter/).
- Ekushey Bangla Computing and Localization Project for the Bangla speaking people.
- Lekho - A collection of tools and resources for using bangla on computers (Original project is on SourceForge: https://sourceforge.net/projects/lekho/).
Chichewa
nya :: chicheŵa
- Chichewa - NLP resources for Chichewa.
Galicien
glg :: galego
- an-metri-gal - Análise métrico de texto en verso en lingua galega (Galician language) gl-ES
- android_gl_dict - Android Galician (gl_ES) Keyboard Dictionary
- aspell-gl - Galician dictionary for aspell
- CitiusSentiment - Sentiment analysis (opinion mining) for Portuguese, English, Spanish, and Galician
- CitiusTagger - A PoS-Tagger and Named Entity Classification tool for Portuguese, English, Galician, and Spanish
- Conshuga - Galician verb conjugator
- corpora - This is a collection of corpus of Galician (or related to Galicia) words / Colección de corpus de palabras en galego (ou relacionadas con Galicia)
- DepPattern - Dependency Syntactic Parsing for Portuguese, Spanish, English, and Galician, including MetaRomance parser
- DOGA_scraper - Galician Official journal scraper
- elFinder-language - Galician - Gallego / language for elFinder
- EuroWordNetLemon - EuroWordNet lemon lexicons generated from the LMF versions of the Multilingual Central Repository (MCR) EuroWordNet lexicons. It includes lexicons for Spanish, Catalan, Basque & Galician.
- GalegoDroid - Galician Translator for Android
- galeXtra - Multiword Extractor for Portuguese, English, Spanish, Galician, French
- Galician-Dependency-Treebank - This Galician Dependency Treebank has been developed by transliterating and adapting lexically the Portuguese part (Bosque 7.3 by the Floresta sintá(c)tica project) of the CONLL-X 2006.
- Galician-Fuzzy-Text-watch - Based on Fuzzy Text International by Jesse Hallett, uses the galician language to display time.
- galician-locale-for-mac - Galician locale for Mac OS X
- gl-syllabler - Split galician language words into syllables
- gl- Galician OmegaT Localisation
- hunspell-gl-ciencias - Project oriented into developing a science and maths Galician language Hunspell dictionary
- hunspell-gl - Galician hunspell dictionaries
- hyphen-gl - Galician hyphenation rules
- javagalician-java6 - The Java Galician Locale is an implementation of Java localization SPIs which will allow the Java VM to use the Galician Language (locales "gl" and "gl_ES"), one of the official languages of Spain, which is not included in Sun's JVM distribution.
- Linguakit - Multilingual toolkit for NLP: dependency parser, PoS tagger, NERC, multiword extractor, sentiment analysis, etc.
- ParlamentoGalicia - Project based on the information extracted from the transcriptions of the sessions held in the Galician Parlament
- poss-gl - Galician translation of Producing Open Source Software, by Karl Fogel
- rima - Find rhyming words in galician language.
- stopwords-gl - Galician stopwords collection
- texlive-babel-galician - TeXLive babel-galician package
- UD_Galician-CTG - The Galician UD treebank is based on the automatic parsing of the Galician Technical Corpus created at the University of Vigo by the the TALG NLP research group.
- UD_Galician-TreeGal - The Galician-TreeGal is a treebank for Galician developed at LyS Group (Universidade da Coruña).
- UL_Galician-TreeGal - CoNLL-UL Repository for UD_Galician-TreeGal
Apertium
- apertium-cat-glg - Apertium translation pair for Catalan and Galician
- apertium-dict-en-gl - English-Galician language pair for Apertium
- apertium-dict-es-gl - Spanish-Galician language pair for Apertium
- apertium-dict-pt-gl - Portuguese-Galician language pair for Apertium
- apertium-en-gl - Apertium translation pair for English and Galician
- apertium-es-gl - Apertium translation pair for Spanish and Galician
- apertium-glg - Apertium linguistic data for Galician
- Apertium-pt-gl.pt-gl-LMF - This is the LMF version of the Apertium bilingual ditionary for Portugues and Galician languages
- apertium-pt-gl - Apertium translation pair for Portuguese and Galician
géorgien
kat :: ქართული
- awesome-georgia - A curated list of awesome libraries and packages specific/related to Georgia (country).
- Gadatsqvetilebebi - გადაწყვეტილებები; Web spider and corpora importer for public legal decisions.
- GeoWordsDatabase - Around 310 000 unique Georgian words https://bumbeishvili.github.io/GeoWordsDatabase/.
- Kartuli Speech Recognition - ანდროიდის ქართველი მომხმარებლებისთვის სიტყვის ამოცნობის სისტემის შექმნა. Codebase to turn any webpage from any alphabet into another alphabet, the default is to turn latin letters into Kartuli. use "Do your friends keep commenting on Facebook with English keyboards (either because they forgot to switch, or because they didn't/can't install a Georgian keyboard)? Now you can read the web through კართული eyes.".
- KartuliChromeExtension - Chrome აპლიკაცია, რომელიც ყველა ინგლისურ ასო-ბგერას აჩვენებს ქართულ ასო-ბგერად.
- QartuliDaBunebismetkveleba - მათემატიკისა და ბუნებისმეტყველების ინტერაქტიული სახელმძღვანელო მე-2 - მე-3 კლასის მოსწავლეებისათვის.
- SakartvelosUzenaesiSasamartloSarke - საქართველოს უზენაესი სასამართლო სარკე.
- SamartlosSakonstitutsioSasamartdoSarke - სამართლოს საკონსტიტუციო სასამართდო სარკე.
- translitit-latin-to-mkhedruli-georgian - A Latin to ქართული (Mkhedruli Georgian) transliteration function written in JavaScript.
- translitit-mkhedruli-georgian-to-ipa - A Latin to ქართული (Mkhedruli Georgian) transliteration function written in JavaScript.
- Declensions - Methods to generate declensions for Georgian language
Polices
- Stichoza/font-larisome - Iconic font for Georgian currency inspired by Font-Awesome (CSS).
- Lotuashvili/BPGNateli - Bower package for BPG Nateli font (CSS).
- thecotne/georgian-webfonts - Package for georgian fonts (CSS).
Internationalization and Localization (i18n/l10n)
- Stichoza/money-num-to-string - Convert a number/money to localized string (PHP, JavaScript).
- natchkebiailia/NumberToWord - Convert numbers to localized strings (JavaScript).
- d0ragon/number-to-words-ka - Convert numbers to localized strings (PHP).
- dimakura/ka - Common functionality for georgian projects (Ruby).
- dimakura/ka.js - Georgian language support for node and browser (JavaScript).
- akalongman/kautilities - Convert Georgian letters to Latin and vice-versa (PHP).
- Landish/Laravel-Ka - Laravel Georgian Language Pack.
- Landish/RedactorJS-GE - Redactor WYSIWYG HTML Editor Georgian Language Pack (JavaScript).
- wenzhixin/bootstrap-table - Bootstrap table with extra features. l10n by @Lotuashvili and @Stichoza.
- moment/moment - A lightweight date library (JavaScript).
- ioseb/geokbd - Georgian keyboard library (JavaScript).
Guarani
grn :: Guarani
- ParaMorfo - morphological analysis and generation of Spanish and Guarani verbs, nouns, and adjectives.
Haoussa
hau :: هَرْشَن هَوْسَ
- Hausa - Repository for Hausa NLP tools.
hindi
hin :: हिन्दी
- hindi-morph - An open source morphological analyzer for Hindi.
Høgnorsk
nno :: Høgnorsk
- hunspell-hn_NO - A beginning to a spellchecking tool for Høgnorsk, a conservative variant of Norwegian Nynorsk, based on a set of corpuses.
islandais
isl :: íslenska
- IceNLP - IceNLP is an open source Natural Language Processing (NLP) toolkit for analyzing and processing Icelandic text. The toolkit is implemented in Java.
Inuktitut
iku :: Inuktitut
- InuktitutAlignerData - Scripts for alignment of laboratory speech production data.
- InuktitutComputing - Inuktitut Morphological Analyser, transcoder, transliterator, corpus tools, and lexical lists for working with Inuktitut. Usable online at http://inuktitutcomputing.ca/index.php.
irlandais
gle :: Gaeilge
- aimsigh - Source for the now-defunct aimsigh.com Irish search engine.
- caighdean - Code for standardizing Irish language text.
- fleiscin - Irish hyphenation patterns for TeX https://cadhan.com/fleiscin/.
- GaelSpell - Sources for an Irish language spell checker.
- tesseract-gle-uncial - OCR for old Irish fonts.
Kinyarwanda
kin :: Ikinyarwanda
- kin-morph-fst - Kinyarwanda morphological analyzer.
- TurboTagger & TurboParser for Kinyarwanda (download) TurboTagger & TurboParser for Kinyarwanda
kurde
kur :: Kurdî
- Kurlex - Morphological analyser and lexicon, written in the Alexina framework, licensed under the LGPL-LR.
- kurmanji-stemmer - NLTK based kurmanji stemmer
Lingala
lin :: Lingála
- Lingala NLP NLP tools and resources for Lingala
Lushootseed
lut :: Lushootseed
- Lushootseed - Joshua Crowgey's work on Lushootseed http://students.washington.edu/jcrowgey/lushootseed/.
malais
msa :: Bahasa Melayu
- MorfoMalayu - morphological analysis of Malay words.
malgache
mlg :: Malagasy
- Global Voices Malagasy Project This page provides a link to a corpus of parallel news articles in Malagasy and English from the Global Voices project. This corpus was collected and aligned at the sentence level by Victor Chahuneau.
Manx
glv :: Gaelg
- aspell-gv - Manx Gaelic dictionary for aspell.
- gaelg - NLP resources for Manx Gaelic, mainly in support of the gv2ga MT engine.
Migmaq
mic :: Mi'kmaq
- migmaq-lessons - Repository for website building Mi'gmaq language lessons.
Minderico
drc :: Piação do Ninhou
- fredericajordarzambarino - A web based game for mobile devices in minderico based in the "Who Wants to be a Millionaire" TV show.
Nishnaabe
oji :: Ojibwe, Oddawa, Chippewa, Anishinaabemowin, ᐊᓂᔑᓈᐯᒧᐎᓐ
- Ojibway-iphone-app - An iPhone app with audio and images for learning the Ojibway language.
- OjibwayMap - An iPhone app with audio and images for learning Ojibway language and culture.
- nishanimate - A desktop app to facilitate Nishnaabe-language acquisition via animations produced by the natural language processing of audio-accompanied text.
Oromo
orm :: Oromo
- hornmorpho - morphological analysis and generation of amharic and oromo verbs and nouns. and tigrinya verbs
Quechua
que :: Runa Simi
- AntiMorfo - morphological analysis and generation of Quechua nouns, adjectives, and verbs and Spanish verbs.
- Morphology, spellchecker - XFST and FOMA, plus OpenOffice plugin.
Sami
sma :: Sámi/Saami
- divvun-webdemo - simple webdemo for divvun grammar checker. Site web.
- Giellatekno A host of Sámi tools.
- Mobile keyboards (iOS and Android), learning apps, dictionaries, morphologies, syntax disambiguators, some amount of project collaboration with Apertium on shallow translation between Saami languages, and
- Oahpa! - A learning portal for Saami languages. Includes WordPress based, media rich lesson-based learning, and morphological and syntactic exercizes generated from the morphological and syntactic tools
- Neahttadigisánit - A morphologically sensitive dictionary, with modes for 'social media input' (which allows users to type a 'relaxed' version of the orthography ( acdnstz will be recognized also as áčđŋšŧz̄ ), and also includes a JavaScript bookmarklet to offer click-to-read dictionary lookup functionality. Also available for other Uralic, and non-Uralic languages. Giellatekno does a lot for other minority Uralic languages. Following are some keywords for CTRL+F friendliness:
- Saami languages: North Saami, Lule Saami, South Saami // Inari Saami, Kildin Saami, Pite Saami, Skolt Saami.
- Other Uralic languages: Erzya, Finnish, Hill Mari, Ingrian, Khanty, Kven, Komi, Livonian, Meadow Mari, Moksha, Nenets, Nganasan, Olonetsian, Udmurt, Veps.
- Other languages: Buriat, Cornish, Faroese, Greenlandic, Iñupiaq, Northern Haida, Ojibwe, Plains Cree, Russian.
Gaélique écossais
gla :: Gàidhlig
- aspell-gd - Scottish Gaelic dictionary for aspell.
- briathrachan - This is the source code to Briathrachan, a Gaelic-English dictionary app for iOS.
- gaidhlig - NLP resources for Scottish Gaelic, mainly in support of gd2ga/ga2gd MT engines.
- gd-fcfg - Context-free feature-based grammar of Scottish Gaelic in the NLTK format.
- gdbank - Some tools and resources for natural language processing of Scottish Gaelic. https://www.tantallon.org.uk/cggblog/.
- hunspell-gd - Files for building Scottish Gaelic spell checkers.
Secwepemctsín
shs :: Secwepemctsín
- secwepemctsnem - A project to help people learn Secwepemctsín.
somali
som :: Soomaaliga
- somorph - Somali morphological and syntactic analyzers and generators built on XFST and VISL-CG Constraint Grammar. Up to date version checked in on Giellatekno's repository.
- qaamuus.net morphologically aware dictionary based on lexical resources found online, and the somali morphology.
Tigrinya
tir :: ትግርኛ
- HornMorpho - morphological analysis and generation of Amharic and Oromo verbs and nouns and Tigrinya verbs.
Uralic
urj :: Uralic languages
- UralicNLP - A Python library for processing Uralic languages (Finnish, Skolt Sami, Erzya, Moksha, Komi-Zyrian and so on). The library provides an easy programmatic access to Giellatekno resources such as FST morphology and CG disambiguators. Other functionalities include UD parser, API for the Online Dictionary of Uralic Languages and interface to SemFi and SemUr semantic databases. The library is under active development and new features are added from time to time.
zoulou
zul :: zulu
- Ukwabelana An open-source morphological Zulu corpus
Licence
© Richard Littauer 2014-2017