Idiomas de bajos recursos
Recursos para la conservación, desarrollo y documentación de idiomas de bajos recursos (humanos).
Según algunas estimaciones, la mitad de los 7,000 ~ se espera que se extinguen este siglo. Sin embargo, hay mucho trabajo de académicos, académicos independientes, organizaciones, comunidades e individuos que se destinan a detener o ralentizar esta tendencia. Esta lista está destinada a proporcionar una lista de código fuente abierto que sea útil para documentar, conservar, desarrollar, preservar o trabajar con lenguajes en peligro de extinción.
Grupo flojo
Tenemos un grupo flojo para la discusión en vivo. ¡Únete a nosotros aquí!
Publicación
Se publicó un documento blanco que describe este repositorio en el Taller CCURL LREC 2016 (colaboración y computación para idiomas con recursos subsorratados). El documento está en este repositorio, en la carpeta papers . Descargue el documento en bruto aquí: código de código abierto que sirve idiomas en peligro de extinción.
Contribuir
Para editar esta lista en GitHub, simplemente haga clic aquí. Si desea discutir algo relacionado con esto, abra un problema. Si conoce cualquier recurso disponible que no esté en esta lista, agregue, ya sea usando el enlace de arriba o enviando solicitudes de extracción.
Hay más detalles sobre la contribución de la guía contribuyente.
Si está interesado en discutir la lista en una capacidad fuera de línea, póngase en contacto con @richardlitt. Estaría más que feliz de tener una llamada telefónica o un intercambio de correo electrónico.
Tabla de contenido
Tabla de contenido generado con DoctoC
- Definiciones
- Repositorios genéricos
- Proyectos y servicios públicos de léxicografía de un solo idioma
- Software
- Ayudantes de configuración de diseño del teclado
- Anotación
- Especificaciones de formato
- Repositorios relacionados con I18N
- Automatización de audio
- Texto a voz (TTS)
- Reconocimiento automático de voz (ASR)
- Automatización de texto
- Experimentación
- Tarjetas
- Generación del lenguaje natural
- Sistemas informáticos
- Aplicaciones de Android
- Extensiones de cromo
- FieldDB
- FieldDB Webservices/componentes/complementos
- Repositorios específicos del trabajo de investigación académica
- Ejemplo de repositorios
- Fuentes
- Corp para
- Organizaciones
- En Github
- Otras organizaciones de OSS
- Tutoriales
- Proyectos específicos del idioma
- africaans
- albanés
- Alutiiq
- Amárico
- vasco
- bengalí
- Chichewa
- gallego
- georgiano
- Fuentes
- Internacionalización y localización (I18N/L10N)
- guaraní
- Hausa
- hindi
- Høgnorsk
- islandés
- Inuktitut
- irlandés
- Kinyarwanda
- kurdo
- Lingala
- Soschozo
- malayo
- madagascarí
- de la isla de Man
- Migmaq
- Minderico
- Nishnaabe
- Oromo
- quechua
- Sami
- Gaélico escocés
- Secwepemctsín
- somalí
- Tigrinya
- Urálico
- zulú
- Licencia
Definiciones
Los idiomas en peligro de extinción son idiomas humanos que están en peligro de extinción. Esta lista también abarca idiomas minoritarios, idiomas que hablan una población estable pero pequeña (por ejemplo, maltés o hawai); y los idiomas bajos o con recursos poco recursos, que pueden ser hablados por una gran población pero están subrepresentados digitalmente (por ejemplo, quechua). Estos idiomas comparten ciertas características en común; El más pertinente son los datos escasos y la falta de recursos, que van desde correctores de hechizos hasta gramáticas y de traducción a máquina. Otros idiomas de recursos poco recursos que no caen en esta lista incluyen idiomas construidos (por ejemplo, klingon o na'vi), lenguajes informáticos (por ejemplo, javascript o lua) y idiomas extintos que son tan escasos como para ser reproducidos computacionalmente para la mayoría de los fines (por ejemplo, topian).
Open Source "promueve un acceso universal a través de una licencia gratuita para el diseño o plan de un producto, y la redistribución universal de ese diseño o plan, incluidas mejoras posteriores por cualquier persona". (Wiki). Esto es importante porque el dinero y los recursos asignados a un idioma o proyecto que no son de código abierto se gasta a expensas de la posible extensibilidad en otros lugares.
Esta lista solía ser nombrada endangered-languages . Fue renombrado para reflejar que el peligro es un término cargado que ambos pueden no reflejar las opiniones de las comunidades de idiomas que hablan idiomas minoritarios. low-resource-languages enfocan esta lista en la falta de recursos digitales en comparación con otros idiomas de alta recursos.
Tools which are built for these languages are not included (unless relevant for dialects or variants): Arabic, Bulgarian, Catalan, Chinese, Croatian, Czech, Danish, Dutch, English, Estonian, Finnish, Flemish, French, German, Greek, Hebrew, Hungarian, Indonesian, Italian, Japanese, Korean, Latvian, Lithuanian, Norwegian, Norwegian (Bokmål), Persa, polaco, portugués, rumano, ruso, serbio, eslovaco, esloveno, español, sueco, tailandés, turco, ucraniano, valenciano, vietnamita. Esta lista proviene de la lista de lenguajes de contenido más populares para sitios web, en esta página de Wikipedia. Se podrían usar otras métricas: si tiene otra, ¡sugiértelo!
Esta lista es particularmente buena en una cosa; mostrando los tipos de herramientas que existen en el campo, genéricamente. Sin embargo, para una investigación en profundidad en un lenguaje o suite de herramientas específico, no funciona excepcionalmente bien. Por ejemplo, enumerar todos los paquetes de lenguaje de Firefox o los módulos de lenguaje de apertio para cada lenguaje de bajo recurso sería inútil, como incluiría todas las herramientas disponibles para el vasco observado en el wiki de ACL, lo que significa principalmente herramientas de catalogación a través del grupo IXA, algunas de las cuales son de código abierto y otras no. En su lugar, vea esta lista como un punto de partida para más investigación.
¿Busca recursos para idiomas de código? Eche un vistazo a la increíble colección de listas.
Repositorios genéricos
Proyectos y servicios públicos de léxicografía de un solo idioma
Utilidades
- Proyecto para diccionarios electrónicos gratuitos es un proyecto para un Java Midlet para teléfonos móviles, para diccionarios de idiomas indígenas.
- Sitio webonario que aloja diccionarios digitales para idiomas individuales.
- Wesay: permite que las comunidades de idiomas construyan sus propios diccionarios. https://software.sil.org/wesay/ (por el SIL International).
Software
- 4lang - Diccionario conceptual con máquinas Eilenberg.
- acentuate.us alias "Charlifter". Unicodificación estadística de texto plano para muchos idiomas
- Alineación-With-Openfst: esta es una implementación del marco de AutoCoder de CRF para cuatro tareas: alineación de palabras de BITEXT, etiquetado de parte del voz, conmutación de código, análisis de dependencia.
- Apertium Apertium es una caja de herramientas para construir sistemas de traducción automática de transferencia de transferencia baja de código abierto, especialmente adecuados para pares de idiomas relacionados: incluye el motor, las herramientas de mantenimiento y los datos lingüísticos abiertos para varios pares de idiomas.
- Ark-Tweet-NLP-Tagger de parte de voz CMU ARK Twitter ( Fork ).
- Artofreading - Scripts de índice y procesamiento relacionados con la colección Art of Reading Illustration.
- Bayesline: una clasificación bayesiana multinomial para la identificación del idioma.
- Biblia-Corpus-Tools: una colección de herramientas para leer/procesar el corpus bíblico multilingüe.
- BloomDesktop - Bloom Desktop es una aplicación híbrida C#/javascript/HTML/CSS que "reduce drásticamente la barra" para las comunidades de idiomas que desean libros en sus propios idiomas. Bloom ofrece un sistema de bajo entrenamiento y alta salida donde los altavoces de lengua materna y sus defensores trabajan juntos para fomentar tanto la autoría comunitaria como el acceso a materia externa ... https://bloomlibrary.org/.
- BloomLibrary - Aplicación de una sola página de Bloom Library, usando AngularJS & Bootstrap, parse.com Backend. https://bloomlibrary.org/.
- Brain - Redes neuronales en JavaScript.
- Herramientas de morfología de Bristol Uni MT: este repositorio es un espejo de los guiones previamente disponibles en http://www.cs.bris.ac.uk/research/machinelearning/morphology/resources.jsp. Incluyó: Ukwabelana - Un Corpus de Zulu Morfológico de código abierto y Emma: una nueva métrica de evaluación para el análisis morfológico.
- Brown Cluster - Implementación de C ++ del algoritmo de agrupación de palabras marrón.
- INCORTALCON INCORTALCONC es un programa de concordancia que se ejecuta de forma nativa en el leopardo de Mac Os X 10.5 o posterior. Originalmente fue diseñado para uso casual (análisis preliminar o fines de no investigación), aunque [el mantenedor] lo ha estado utilizando para su propia investigación (y otros pueden haberlo hecho). Puede generar líneas de concordancia KWIC, grupos de palabras, análisis de colocación y recuento de palabras.
- CDEC - decodificador, alineador y optimizador de modelos para la traducción de máquina estadística y otros modelos de predicción estructurados basados en (en su mayoría) formalismos sin contexto.
- Charlint Charlint es una herramienta de normalización/verificación de personajes escrita en Perl. Entre los demás, implementa la forma de normalización C de Unicode TR 15, como una plataforma de prueba para la normalización uniforme temprana en el modelo de caracteres W3C.
- Coro: un sistema de control de versiones diseñado para habilitar flujos de trabajo apropiados para equipos de desarrollo de lenguaje típicos que se distribuyan geográficamente.
- Almeja-Mediador de la aplicación de lingüística computacional: convierta rápidamente las aplicaciones NLP en servicios web RESTful con un front-end de aplicación web. Proporciona una especificación de la aplicación de su línea de comando, su entrada, salida y parámetros, y la almeja envuelve su aplicación para formar un servicio web RESTFULE completo.
- CMU Sphinx CMUSPHINX es un vocabulario grande y independiente del orador reconocedor de voz continuo lanzado bajo la licencia de estilo BSD. También es una colección de herramientas y recursos de código abierto que permite a los investigadores y desarrolladores construir sistemas de reconocimiento de voz.
- CNminlangWebCollect - Detección de idiomas del sitio web de minorías chinas y recopilación de sitios web.
- COG - COG es una herramienta para comparar idiomas utilizando lexicostadística y técnicas de lingüística comparativa. Se puede utilizar para automatizar gran parte del proceso de comparación de listas de palabras de diferentes variedades de idiomas. http://sillsdev.github.io/cog/.
- Converextract: Convertir Excel, Word y PowerPoint con texto no unicode (como texto que requiere fuentes SIL) en Unicode, al tiempo que preserva el formateo del archivo original.
- CorpUSTOols - Phonological CorpUSTOOLS http://phonologicalCorpuscools.github.io/corpustools/.
- CTK: construido alrededor del kernel de alineador de oraciones de Champollion de LDC, Champollion Tool Kit (CTK) tiene como objetivo proporcionar herramientas de alineación de oraciones de texto paralelas listas para usar para tantos pares de idiomas como sea posible. (El proyecto original está en SourceForge: http://champollion.sourceforge.net).
- DataTags: un sistema para evaluar la sensibilidad y el riesgo de privacidad de un conjunto de datos, y asignar una etiqueta para describir cómo se debe transferir, almacenar y acceder el conjunto de datos. ( Tenedor ).
- Dataverse: un marco de repositorio de datos para compartir y publicar datos de investigación.
- Dative - Dative: Software para trabajo de campo lingüístico http://www.dative.ca.
- Dative: una aplicación de una sola página que interactúa con múltiples bases de datos de servicios web de trabajo de campo lingüístico. Sitio web.
- DeeplearToolBox - Matlab/Octave Toolbox para el aprendizaje profundo. Incluye redes de creencias profundas, autoencoders apilados, redes neuronales convolucionales, autoencoders convolucionales y redes neuronales de vainilla. Cada método tiene ejemplos para comenzar.
- Desmeme - Base de datos y herramientas para explorar plantillas lingüísticas.
- DICTDB - Base de datos del diccionario para la traducción del idioma.
- Discutsegraphs: herramienta basada en Python para convertir y fusionar datos lingüísticos anotados por múltiples capas.
- Divvun-GramCheck: este programa busca los formularios especificados como lecturas de formato de gramática de restricción, y busca etiquetas de error en un archivo XML con mensajes legibles por humanos. Está destinado a usarse como una etapa tardía de una tubería de verificador de gramática.
- Divvun -Keyboard: aplicaciones de teclado para iOS y Android con diseños de teclado para idiomas indígenas y minoritarios
- Divvunspell -
hfst-ospell (a continuación) reescrito en Rust, para una sólida concurrencia y gestión de memoria. Es de uso práctico aproximadamente 10 veces más rápido que hfst-ospell . Utiliza los mismos archivos ZHFST que hfst-ospell , que están disponibles para todos los idiomas en la org Github Org (ver más abajo). - DLTK - Kit de herramientas de idiomas Deutsch. Más.
- Epitran - Conversión de grafema a fonema (G2P) para muchos idiomas de baja recursos.
- Anciano: Repositorio electrónico de datos de lenguaje en peligro de extinción: repositorio electrónico de datos de lenguaje en peligro de extinción: una herramienta de catalogación de datos lingüística colaborativa ontológicamente que cumplen con la web.
- Enchant - Enchant SpellChecking Library https://abiword.github.io/enchant/.
- EXSITE9: EXSITE9 es una aplicación de escritorio que fue creada para facilitar a los investigadores etiquetar de manera fácil y rápida sus archivos de datos con metadatos descriptivos y posteriormente empacar sus archivos de datos y metadatos asociados listos para enviar a un repositorio. EXSITE9 también permite la organización estructural de dichos archivos dentro de que realmente mueva su ubicación física en el almacenamiento de su archivo local; permitiéndole organizar correctamente sus archivos y metadatos listos para el embalaje.
- Fast_Align: alineador de palabras simple y rápido sin supervisión.
- FastText - Biblioteca para representación y clasificación de texto rápido.
- Fieldworks - Fieldworks es un conjunto de herramientas de software para datos de lenguaje y culturales, con soporte para scripts complejos. https://software.sil.org/fieldworks/ Fieldworks Language Explorer (o Flex, For Short) está diseñado para ayudar a los lingüistas de campo a realizar muchas tareas de documentación y análisis de idiomas comunes. Puede ayudarlo: provocar y registrar información léxica, crear diccionarios, interinarizar textos, analizar las características del discurso, el estudio de la morfología.
- Franc - Detección del lenguaje natural https://wooorm.com/franc/.
- FWDocumentation - Documentación del desarrollador para Fieldworks (herramientas de software para datos de lenguaje y culturales, con soporte para scripts complejos).
- FWLocalizaciones - Localizaciones para Fieldworks.
- FWSupportTools: herramientas adicionales para el desarrollo de Fieldworks.
- GAIA - GAIA es una interfaz de usuario telefónica basada en HTML5 para el proyecto Boot 2 Gecko. Nota: Para obtener detalles de qué ramas se usan para lo que se libera, consulte el wiki. Si está interesado en configurar un teclado en un nuevo idioma, vea esto.
- Giellakbd-Android: una bifurcación de Latinime (de Google para Android), dirigida a los idiomas marginados que también merecen un estado de primera clase en los sistemas operativos móviles. Utilizado por KBDGEN (ver en otra parte de esta página).
- Giellakbd -ios: una reimplementación de código abierto del teclado iOS nativo de Apple con un enfoque específico en el soporte para teclados localizados. Utilizado por KBDGEN (ver en otra parte de esta página).
- GIZA-PP-GIZA ++ es un kit de herramientas de traducción automática estadística que se utiliza para entrenar los modelos IBM 1-5 y un modelo de alineación de palabras HMM. Este paquete también contiene la fuente de la herramienta MKCLS que genera las clases de palabras necesarias para capacitar a algunos de los modelos de alineación.
- GV -Crawl - Global Voices Bitext Crawler para crear corpus paralelos.
- Glotlid: identificación del lenguaje FastText con soporte para más de 2000 etiquetas.
- Glottolog Data: Glottolog proporciona información de referencia integral para los idiomas del mundo.
- Gramadóir - Motor de verificación de gramática diseñado para el rápido desarrollo de verificadores de gramática para idiomas minoritarios y otros idiomas con recursos computacionales limitados.
- Grind: un complemento InDesign 5.5 diseñado para permitir que se usen fuentes inteligentes habilitadas para grafito en Adobe InDesign. Este proyecto integra la tecnología de fuentes inteligentes Graphite 2 de SIL con nuestra propia implementación de un complemento de compositor de párrafo.
- HermitCraB-HermitCraB.net es un analizador morfológico/fonológico flexible que adopta un enfoque de elementos y procesos.
- HFST -OSPell - Biblioteca de corrector ortográfico HFST y herramienta de línea de comandos.
- HFST-OSPell-JS-ANIFICACIONES DE NODO PARA HFST-OSPELL.
- HFST-Optimized-Lookup-HFST Optimized-Lookup Biblioteca independiente y herramienta de línea de comandos.
- Hundicto - Extractor de diccionario bilingüe de corpus paralelos.
- HUNSPELL - Biblioteca y programa de analizador de ortografía y programa de analizador Morfológico diseñado para idiomas con rica morfología y composición de palabras complejas o codificación de caracteres.
- Huntag: un etiquetador secuencial para PNL que utiliza el aprendizaje de entropía máxima y los modelos ocultos de Markov.
- ICU -Dotnet - WRAPPER C# para ICU4C.
- ICU4C - Proyecto Mirror of SVN en http://source.icu-project.org/repos/icu/icu/. La sucursal de Fieldworks tiene algunas mejoras específicas de Fieldworks.
- Ilanguage: un analizador morfológico independiente de lenguaje semiupervado útil para detener el texto del lenguaje desconocido, o obtener una estimación aproximada de posibles analizados para los morfemas en una palabra. Entrada: un corpus. Utiliza compresión, entropía máxima y fijación.
- IPA -HELP - IPA ayuda.
- Tweets -geodata - Geodata de tweets indígenas.
- jQuery.ime - Biblioteca de métodos de entrada basados en jQuery.
- KBDGEN: genere teclados y diseños de teclado para varios sistemas operativos.
- KOREKSYON-Herramientas para desarrollar e implementar capacidades de verificación de hechizos y verificación de gramática en idiomas de baja recursos.
- L20N.JS - L20N Reinventa la localización del software. Los usuarios deben poder beneficiarse de todo el poder expresivo de los idiomas naturales. L20N mantiene las cosas simples simples, y al mismo tiempo hace posible las cosas complejas. Esta es la implementación de JavaScript de L20N. http://l20n.org.
- Langid.py - Sistema de identificación de lenguaje independiente.
- Langtech Una gran cantidad de recursos proporcionados en SVN por la Universidad de Tromsø. Los detalles están aquí y en inglés aquí.
- Lego Unified Concepton: material relacionado con el Lego Unified Concepton.
- LEX4All - Léxicos de pronunciación para cualquier lenguaje de baja recursos http://lex4all.github.io/lex4all/.
- LEXDB - LEXDB es una base de datos de seguimiento cognado léxico. Almacena la procedencia completa de todos los lexemas y juicios afines, y permite la exportación en varios dialectos de Nexus. La base de datos está escrita en el marco web flexible de Python/Django.
- LFMerge - Enviar/Recibir para LanguageForge.org.
- Liblevenshtein: una biblioteca para generar transductores de estado finitos basado en autómatas Levenshtein.
- Libpalaso - Biblioteca Palaso: un conjunto de bibliotecas .NET útiles para desarrolladores de software de lenguaje.
- Matriz de gramática Lingo La matriz de gramática de Lingo es un marco para el desarrollo de gramáticas implementadas de cobertura amplia, precisión e implementada para diversos idiomas.
- Lingpy - Lingpy: Biblioteca de Python para tareas cuantitativas en lingüística histórica http://lingpy.org.
- Linguistica Linguistica es un programa diseñado para explorar el aprendizaje no supervisado del lenguaje natural, con un enfoque principal en la morfología (estructura de palabras). Se ejecuta en Windows, Mac OS X y Linux, y está escrito en C ++ dentro del marco de desarrollo QT. Sus demandas de la memoria dependen del tamaño del corpus analizado.
- Larga Press - JQuery Plugin para aliviar la escritura de personajes acentuados o raros. http://toki-woki.net/lab/long-press/.
- Pos de baja recursos-POS-2014 POS de baja recursos: 2014
- LRL - Para el trabajo sobre los bajos idiomas de recursos.
- Macvoikko: un servidor de ortografía de OS X basado en Voikko.
- Machine: la máquina es una biblioteca de procesamiento del lenguaje natural para .NET que se centra en proporcionar herramientas para procesar lenguajes pobres en recursos (utilizado por Flex).
- Making -Extensions - Scripts para generar extensiones Hunspell SpellChing.
- MGIZA: una herramienta de alineación de palabras basada en GIZA ++ famosa, extendida para admitir múltiples subprocesos, capacitación de currículums y capacitación incremental.
- Minority Translate Minority Translate es un programa simple para ayudar a la generación de contenido en wikipedias de tamaño más pequeño (en realidad cualquier tamaño) dando punteros a los artículos existentes en otras wikipedias de lenguaje, para que el usuario pueda traducir o adaptar fácilmente los textos existentes y, por lo tanto, aumentar el tamaño y la uso de sus ediciones de wikipedia.
- Morfessor - Morfessor es una herramienta para la segmentación morfológica no supervisada y semi -supervisada.
- Morpholm - Modelos de lenguaje conscientes de la morfología.
- Morph -Test: un guión de Python para ejecutar pruebas para la generación y el análisis de un transductor morfológico construido utilizando la infraestructura de Giella. Trabaja con HFST, Xerox 'FST Herramientas y con FOMA.
- Mosesdecoder - Moisés, el sistema de traducción automática.
- MOZ-L10N TIERS: crea un pseudo-loce para evaluar la priorización de la cadena para L10N.
- MUKURTUCMS - El Sistema de Gestión de Contenido de Mukurtu (CMS) es una plataforma basada en Internet diseñada para permitir el archivo de recursos culturales digitales
- MYTHES - Mythes es un simple diccionario de tesauro que utiliza un archivo de datos de texto estructurado y un archivo de índice con búsqueda binaria para buscar palabras y frases y devolver información sobre parte del habla, los significados y los sinónimos.
- MyWorksafe: copia de seguridad inteligente y simple para trabajadores de desarrollo del idioma. http://software.sil.org/myworksafe/.
- NABU - NABU es un sistema de gestión de elementos de medios digitales que proporciona un catálogo de elementos de audio y video, metadatos para estos elementos e información sobre el estado de flujo de trabajo de los elementos. www.paradisec.org.au
- Natural - JavaScript Instalaciones generales de lenguaje natural para nodo.
- NIST 2008 Evaluación de traducción a máquina abierta
- NLTK - Kit de herramientas de lenguaje natural de Python . Fuente NLTK http://www.nltk.org/.
- Node -Panlex - Node.js Client para Panlex.
- Norma: una herramienta para la normalización de la ortografía automática.
- NPLM - FUNCIÓN DE https://nlg.isi.edu/software/nplm/ con algunos ajustes de eficiencia y adaptación para su uso en Mosesdecoder.
- Octothorpe - Cosa Wiki con alimentación de CouchDB.
- ODTXSLT - Realice la transformación XSLT en el contenido de un paquete (como ODT, DOCX, etc.).
- Old-WebApp-Base de datos lingüística en línea --- Software para crear aplicaciones web para documentar colaborativamente lenguajes.http: //www.onlinelinguisticdatabase.org.
- Antigua: la base de datos lingüística en línea (antigua): software para el trabajo de campo lingüístico. http://www.onlinelinguisticdatabase.org.
- Old -Pyramid: la base de datos lingüística en línea migró al marco Pyramid.
- OMEGAT-HFST-TOKINIZER-OMEGAT-HFST-TOKINAYIZAY proporciona tokenización basada en FST en Omegat.
- OpenDatakit Open Data Kit (ODK) es un conjunto de herramientas de código abierto que ayuda a las organizaciones de autor, campo y soluciones de recopilación de datos móviles
- OpenNLP: la biblioteca Apache OpenNLP es un kit de herramientas basado en el aprendizaje automático para el procesamiento del texto del lenguaje natural. Sitio web.
- OPS -DEVBOX - Ansible Playbook para una máquina desarrolladora (Linux).
- Panlex -Tools: este paquete contiene scripts para transformar los recursos léxicos en un formato adecuado para importar a Panlex. La documentación se puede encontrar en https://dev.panlex.org.
- PDSC-Collection-Viewer-Browser de colección Paradisec
- Paradigm - Paradigm es una implementación de .NET (C#) del trabajo de Joseph E. Grimes '1983 titulado "Posiciones y coincurrencias: el programa de paradigma".
- Vía: preparación de datos de idiomas para su publicación.
- PDFDROPLET - Biblioteca y GUI para la imposición de páginas PDF (por ejemplo, 2 -up) http://software.sil.org/pdfdroplet/.
- Pepper: Pepper es un marco de convertidor de código abierto en Java, basado en Java, para datos lingüísticos.
- Asistente de fonología - Asistente de fonología es una herramienta de descubrimiento. Proporcionado con un corpus de datos fonéticos, traza automáticamente los sonidos y a través de sus capacidades de búsqueda, ayuda a un usuario a descubrir y probar las reglas del sonido en un idioma.
- Pressagio: Pressagio es una biblioteca que predice el texto basado en modelos N -Gram. Por ejemplo, puede enviar una cadena y la biblioteca devolverá las terminaciones de palabras más probables para el último token en la cadena.
- PrimerPro: el propósito de PrimerPro es ayudar al trabajador de alfabetización en el desarrollo de cebadores para un idioma determinado.
- Pydelphin - Bibliotecas de Python para Delph -in (Horne Fork).
- RBGParser - Parser de dependencia basado en gráficos.
- Rosetta Pangloss - El sistema Pangloss del Proyecto Rosetta.
- Salm - Salm: matriz de sufijo y sus aplicaciones en el procesamiento del lenguaje empírico por alegría.
- Salt: un modelo basado en gráficos para almacenar y manipular datos lingüísticos.
- Saymore: una herramienta para realizar tareas comunes de documentación del idioma, como mantener todos los archivos resultantes y meta datos organizados, convertir archivos en formatos de archivo y transcripción.
- Secwepemc -FaceBook - Traducir Facebook en idiomas no compatibles.
- SegParser: algoritmo codicioso aleatorizado para la segmentación conjunta, etiquetado POS y análisis de dependencia.
- Pedling: construir y usar un corpus de semillas para el proyecto del lenguaje humano.
- Skype en su idioma: traduzca Skype en idiomas no compatibles.
- SOLID: SOLID es una herramienta de software que se puede usar para verificar, limpiar y convertir los datos de léxico de formato estándar (por ejemplo, Toolbox).
- Herramientas de conversión de la esfera Muchos corpus LDC contienen archivos de voz en formato NIST Sphere. Los programas a continuación convierten los archivos de la esfera a otros formatos.
- StandardFormAtlib - Biblioteca de formato estándar.
- Stanford Corenlp - Stanford Corenlp: una suite Java de Core NLP Tools. https://stanfordnlp.github.io/corenlp/.
- Stanford Corenlp Python - Python Wrapper for Stanford Corenlp Tools.
- Estrofa - Herramientas de pitón compartidas de Stanford NLP Group.
- STR2IPA-Diccionarios de pronunciación para idiomas con sistemas de escritura cercanos a fonéticos.
- SUGALI - Este es un repositorio heredado del proyecto de identificación de idiomas para muchos (muchos) proyectos de idiomas para el curso del proyecto de software, proyectos NLP para idiomas de baja recursos.
- Like Ligud Identification para idiomas de bajos recursos (por Susanne, Guy and Liling).
- Syllabipy - Interfaz Python para algoritmos de silabificación universal
- Tasty-Iimitation-Kequel: un teclado personalizado para iOS8+ que sirve como una imitación sabrosa del teclado de Apple predeterminado. ¡Construido con Swift y las últimas tecnologías de Apple!
- Teckit: un kit de herramientas de conversión de codificación de texto.
- Teny - Herramientas para la traducción automática de baja recursos.
- Teradict - ¡Traduce las palabras en inglés en cientos de idiomas!.
- Tesseract.js - JavaScript Pure OCR para 62 idiomas? http://tasseract.projectnaptha.com/.
- Texnlp - Texnlp: herramientas de procesamiento del lenguaje natural de Texas.
- Timbl Timbl es un paquete de software de código abierto que implementa varios algoritmos de aprendizaje basados en la memoria, entre los cuales IB1-IG, una implementación de la clasificación de vecinos K-Nears más con una ponderación de características adecuada para espacios de características simbólicas e Igtree, una aproximación del árbol de decisiones de IB1-IG. Todos los algoritmos implementados tienen en común que almacenan alguna representación del conjunto de capacitación explícitamente en la memoria. Durante las pruebas, los nuevos casos se clasifican por extrapolación de los casos almacenados más similares.
- Toney - Software de clasificación de tono.
- La caja de herramientas de Field Linguist - Toolbox es una herramienta de administración de datos y análisis para lingüistas de campo. Es especialmente útil para mantener datos léxicos y para analizar e interlineizar el texto, pero se puede usar para administrar prácticamente cualquier tipo de datos.
- Scripts de caja de herramientas para Elan - Mirror de los scripts de caja de herramientas de Alexander Koenig https://tla.mpi.nl/tools/tla-tools/elan/thirdparty/.
- HerramientasFieldlinguistics: una colección de scripts y recetas para la lingüística.
- Transcriptor: una herramienta de transcripción HTML5 para Aikuma
- Translitit -Engine - Un motor de transliteración escrito en JavaScript.
- Datos de Tsammalex: Tsammalex es una base de datos léxica multilingüe en plantas y animales.
- Tweet2Learn: una aplicación para facilitar el uso de su idioma nativo en Twitter.
- Twitter_langid: una red neuronal jerárquica de palabras de carácter para la identificación del lenguaje.
- UniversalDependences Docs - Documentación en línea de Dependencias Universales http://universaldependences.org/docs/.
- Herramientas de UniversalDependences: varias utilidades para procesar los datos.
- Vocbench Vocbench es una herramienta basada en la web, multilingüe, edición y flujo de trabajo que administra el tesauri, las listas de autoridad y los glosarios utilizando SKOS-XL.
- Wavesurfer.js - Forma de onda navegable construida en audio web y lienzo https://wavesurfer-js.org/ (también tiene un complemento Elan).
- Templato web: esta es una plantilla basada en la web que puede usarse para presentar recursos de aprendizaje de idiomas para ayudar a los esfuerzos de revitalización del lenguaje. Incluye un diccionario parlante y una frasicón, que contiene oraciones y frases.
- WebCorpus: este proyecto es una colección de scripts y programas para crear un WebCorpus a partir de datos rastreados.
- WIKT2DICT - Herramienta de analizador Wiktionario para muchas ediciones de idiomas.
- Wikipron: recupere las pronunciaciones de IPA para las entradas de Wiktionario
- Generador de palabras WordGenerator genera palabras hipotéticas a partir de especificaciones de su estructura de sílabas.
- Wordboundary: un experimento en la detección y segmentación de los límites de las palabras.
- WordByword-WordByword es un entrenador de vocabulario multimedia gratuito, de código abierto, fácil de usar, desarrollado por Vera Ferreira, Peter Bouda y Ricardo Filipe en Cidles con el apoyo de la base para los idiomas en peligro de extinción.
- WSI4URLANG - Word Sense Induction (WSI) para idiomas de recursos subsorresurados (Urlang).
- XDXF_Makedict - Formato de diccionario XDXF y software de conversión de diccionario "Makedict" (repositorio oficial).
Ayudantes de configuración de diseño del teclado
- jQuery.ime - editor de métodos de entrada jQuery utilizado en Wikipedia
- KBDGEN: genere teclados y diseños de teclado para Windows, MacOS, X11, iOS, Android y Chrome, a partir de un solo archivo YAML simple. También registra idiomas desconocidos para Windows, de modo que después de la instalación, existe una asociación correcta y robusta entre el código BCP 47 designado (incluido el soporte completo para ISO 639-3) y herramientas de lenguaje instaladas como teclados, verificadores de ortografía y otras herramientas.
- Teclado: teclado virtual usando jQuery ~ https://mottie.github.io/keyboard/.
- Tecillos: Abra los teclados de teclado de origen.
- Keyman - Métodos de entrada de plataforma cruzada Keyman. Keyman hace posible que escriba más de 1,000 idiomas en Windows, iPhone, iPad, tabletas y teléfonos Android, e incluso instantáneamente en su navegador web. Sitio web.
- KeyboardLayoutEditor - Editor de diseño del teclado https://code.google.com/archive/p/keyboardLayouteditor/.
- Editor de diseño del teclado-Editor de diseño del teclado http://www.keyboard-laayout-editor.com
- Lipika-Tim-Entrada Method Engine (IME) para Mac OS X con soporte incorporado para todos los idiomas IND.
- XKeyboardConfig: la base de datos de configuración de teclado sin arco para la ventana X. El objetivo es proporcionar la fuente abierta consistente, bien estructurada y frecuentemente lanzada de datos de configuración de teclado X para implementaciones del sistema de ventana X (gratuito, código abierto y comercial). El proyecto está dirigido a sistemas basados en XKB.
Anotación
- AGTK - AGTK es un conjunto de componentes de software para crear herramientas para anotar señales lingüísticas, datos de series de tiempo que documentan cualquier tipo de comportamiento lingüístico (por ejemplo, audio, video). Las estructuras de datos internos se basan en gráficos de anotación. (El proyecto original está en SourceForge: https://sourceforge.net/projects/agtk/).
- Brendano - Lenguaje de fragmentos gráficos para una fácil anotación sintáctica https://www.cs.cmu.edu/~ark/fudg/.
- Elan Elan es una herramienta profesional para la creación de anotaciones complejas sobre recursos de video y audio.
- EOPAS - Sistema de presentación en línea de Ethnoer y anotación.
- Herramienta de anotación lingüística de Flat - Folia: Flat es un entorno de anotación lingüística basado en la web basado en el formato folial (http://proycon.github.io/folia/), un rico formato basado en XML para la anotación lingüística. Flat permite a los usuarios ver documentos de folia anotados y enriquecer estos documentos con nuevas anotaciones, se apoya una amplia variedad de tipos de anotación lingüística a través del paradigma del folia. Es una herramienta centrada en el documento que conserva y visualiza la estructura de documentos.
- GFL_SYNTAX - Lenguaje de fragmentos gráficos para una fácil anotación sintáctica https://www.cs.cmu.edu/~ark/fudg/.
- GRAF-PYTHON-La biblioteca Graf-Python es una implementación de Python de código abierto para analizar y escribir archivos GRAF/XML como se describe en ISO 24612. El analizador de la biblioteca crea un gráfico de anotación de los archivos. El usuario puede consultar el gráfico de anotación a través de la API de Graf-Python.
- Kwaras - Herramientas para la gestión de Elan Corpus.
- Alineador de palabras de LDC LDC Alineador de palabras es una herramienta de software utilizada para la anotación manual de la alineación de palabras desarrollada para apoyar las tareas de alineación de palabras de inglés y inglés chino. Tiene una interfaz limpia y fácil de usar. Desde su desarrollo en 2009, LDC ha utilizado el alineador de palabras de LDC para generar más de 1,000,000 de tokens de datos de alineación de palabras anotadas de una variedad de géneros, incluidas fuentes basadas en la transmisión, noticias de noticias y web. Sitio web.
- Poio -Analyzer - Poio es una colección de herramientas de software para lingüistas que trabajan en documentación del lenguaje, lingüística descriptiva y/o tipología del lenguaje. Permite a los lingüistas administrar y analizar sus datos. El editor interlineal de POIO permite agregar anotaciones sintácticas morfo a las transcripciones. It supports various file formats for input, but will only output standardized XML defined by the Corpus Encoding Standard and the Text Encoding Initiative. Several tools for analyzing linguistic data will be made available to further process annotated data. Poio tools are written in Python and are based on PyQt.
- poio-api - Poio API is a free and open source Python library to access and search data from language documentation in your linguistic analysis workflow. It converts file formats like Elan's EAF, Toolbox files, Typecraft XML and others into annotation graphs as defined in ISO 24612. Those graphs, for which we use an implementation called “Graph Annotation F…
- pyannotation - PyAnnotation is a Python Library to access and manipulate linguistically annotated corpus files.
- XTrans Trans is a next generation multi-platform, multilingual, multi-channel transcription tool that supports manual transcription and annotation of audio recordings. The XTrans toolkit provides new and efficient solutions to common transcription challenges and addresses critical gaps in existing tools.Designed with input from experienced human transcribers working with real world data, XTrans provides a flexible and intuitive graphical user interface for a multitude of speech annotation tasks including (virtual) segmentation of audio into smaller units like turns and sentences; speaker identification; orthographic transcription in any language; and labeling of structural elements of the transcript like topics.
Format Specifications
- spec - The official specification for the DLx linguistic data format. https://digitallinguistics.github.io/spec/.
- FoLiA FoLiA: Format for Linguistic Annotation - FoLiA is a rich XML-based annotation format for the representation of language resources (including corpora) with linguistic annotations. A wide variety of linguistic annotations are support, making FoLiA a useful format for NLP tasks and data interchange. http://proycon.github.io/folia/
- xdxf_makedict - XDXF dictionary format and "makedict" dictionary converting software (official repository).
i18n-related Repositories
- Express-Lingua - An i18n middleware for the Express.js framework.
- Polyglot.js Give your JavaScript the ability to speak many languages.
- Transifex - System for providing a nice, userfriendly/project oriented approach to translating
.po files. Great for non-technical users, free for open-source projects, decent for minority languages; however , it can take a while to get a new language added to the Transifex system because the ticketing system Transifex uses results in them losing tickets sometimes. Provides translation memory, ability to appoint reviewers, etc. Transifex used to have an open source system that you could host on your own, but that seems to have disappeared.
Audio automation
- arctic-prompts - Generate prompts PDF for CMU ARCTIC dataset.
- AudioWebService - a simple nodejs server which accepts upload of audio and runs it through praat.
- AuToBI - Automatic prosodic annotation tool written in Java.
- BashScriptsForPhonetics - ( Fork of a dormant project).
- esv-text-audio-aligner - ESV Text/Audio Aligner to programmatically obtain the timings for each word in the corresponding audio.
- html5-audio-read-along - HTML5 Audio Read-Along.
- ipa-chart - International Phonetic Alphabet (IPA) Unicode Chart and Character Picker.
- kaldi-svn-archive - An read-only archive of the original Kaldi SVN repository (mainly to keep sandboxes available).
- lex4all - pronunciation LEXicons for Any Low-resource Language ( Fork of a student project).
- Montreal-Forced-Aligner - Python interface for forced text/speech alignment.
- node-pocketsphinx
- opensauce - GNU Octave-compatible version of VoiceSauce.
- pocketsphinx - PocketSphinx is a lightweight speech recognition engine, specifically tuned for handheld and mobile devices, though it works equally well on the desktop.
- pocketsphinx-ios-demo - Simple demo for iOS.
- pocketsphinx-python - Python module installed with setup.py.
- pocketsphinx-ruby - Ruby speech recognition with Pocketsphinx.
- pocketsphinx-wp-demo - Demo to run pocketsphinx on WP8 platform.
- pocketsphinx.js - Speech recognition in JavaScript.
- praat-py - From my PhD days: Praat-Py is a custom build of Praat, the computer program used by linguists for doing phonetic analysis on sound files, to allow for scripts to be written in the Python programming language, rather than in Praat's built-in language. ( Fork of a dormant project).
- Praat-Scripts - Mietta's Scripts.
- PraatTextGridJS - A small library which can parse TextGrid into json and json into TextGrid.
- PraatontheWeb - Web implementation of Praat. Source code, running demo scripts on web, samples and documentation.
- prosodicParsing - different kinds of HMMs to use for incorporating prosody into basic parsing.
- Prosodylab-Aligner - Python interface for forced audio alignment using HTK and SoX.
- prosodylab.alignertools
- Recordmp3js - Record MP3 files directly from the browser using JS and HTML.
- sphinx4 - Pure Java speech recognition library.
- sphinxbase
- sphinxtrain
- TLSphinx - Swift wrapper around Pocketsphinx.
Text-to-Speech (TTS)
- espeak - eSpeak is a compact open source software speech synthesizer for English and other languages, for Linux and Windows. http://espeak.sourceforge.net.
- MARY TTS - MARY TTS -- an open-source, multilingual text-to-speech synthesis system written in pure java http://mary.dfki.de.
- Ossian - Ossian is a collection of Python code for building text-to-speech (TTS) systems, with an emphasis on easing research into building TTS systems with minimal expert supervision.
Automatic Speech Recognition (ASR)
- Elpis - Elpis is software for creating speech recognition models and applying them to the transcription of audio. As of 2022, it gives access to Kaldi and Huggingface Transformers.
- kaldi - This is now the official location of the Kaldi project.
- Persephone - Persephone aims to make state-of-the-art phonemic transcription accessible to people involved in language documentation, who have a training corpus of about one to four hours of transcribed speech. As of 2022, Persephone is superseded by Elpis.
Text automation
- clld - Cross Linguistic Linked Data python library.
- LaTeX2HTML5 - LaTeX web components.
- MultilingualCorporaExtractor - Node io Spider for extracting multilingual corpora ( Fork of a student project).
- SeedLing - Building and Using A Seed Corpus for the Human Language Project ( Fork of a student project).
Experimentación
- experigen - A framework for creating linguistic experiments.
- GamifyPsycholinguisticsExperiments - A simple node server to gamify linguistics experiments, runs offline on a laptop for small scale experiements and online on a server for large scale experiments. Data is sent to a Google spreadsheet. ( Fork of a dormant project).
- OpenSesame - Graphical experiment builder for the social sciences.
- OPrime - Open Source Experimentation Libraries - Online and Offline for Android and HTML5.
- psychopyMegProsody - Runs MegProsody using PsychoPy.
- PsychScript - A HTML5/Javascript library for running behavioural experiments online.
Tarjetas
- Anki - Anki is a program to make and share flaschard decks (including audio) for any language or writing system. https://apps.ankiweb.net/.
- awesome-anki - A curated list of awesome Anki add-ons, decks and resources.
- VocabLift - Language-learning tool that uses vocabulary from LIFT-format dictionaries produced by programs such as Fieldworks Language Explorer and WeSay.
Natural language generation
- OpenCCG - OpenCCG library for parsing and realization with CCG. Includes mini-grammars for Inuit, Nezperce, Basque and others.
Computing systems
- Common Language Resources and Technology Infrastructure Norway / Clarino - One of their projects (not clearly listed here) is about providing an online system for language analysis, so users can connect resources visually, dump in text, and get a result. Kind of like the Yahoo! Pipes but for language processing. Uses the ABEL cluster.
Android Applications
- Aikuma - Android software for recording and translation.
- Android Speech Recognition Trainer - Speech recognition training app for low resource languages which interfaces with FieldDB corpora.
- android-template - This is a template of an Android word-learning app that may be used a way to introduce a language. It includes a quiz. For the documentation, go to http://eddersko.github.io/android-template/.
- AndroidFieldDB - An Android app which lets the user build a custom visual and auditory vocabulary, useful for guided anomia treatment and self designed language lessons by heritage speakers.
- AndroidFieldDBElicitationRecorder - A general purpose video recording tool.
- AndroidLanguageLessons - Lets heritage speakers create self designed language lessons.
- AndroidProductionExperiment - Android App to run perception experiments.
- Bevara - Android Phone Application designed for Linguistic Fieldwork to help preserve, maintain, and save endangered languages.
- ojoVoz - A mobile app for sending georeferenced image and voice recordings from an Adroid phone to an email address. For more information, please go to http://sautiyawakulima.net/ojovoz/.
- pocketsphinx-android - pocketsphinx build for Android.
- pocketsphinx-android-demo
Chrome Extensions
- babelfrog - Chrome extension to help learn languages as you browse.
- DictionaryChromeExtension - Dictionary for websites in low-resource languages. App and codebase which connects to a Wiktionary to provide definitions of any term on any website (current languages Cherokee 194,426 entries, Inuktitut 251 entries, Kartuli 7,363 entries, Plains Cree (incubation) 0 entries) use.
FieldDB
FieldDB is actively worked on by the FieldDB (Formally known as OpenSourceFieldlinguistics) group. These repos explicitly work with it but could be repurposed for other projects.
- FieldDB - An offline/online field database which adapts to its user's terminology and I-Language, has plugins for various data automation routines along the process of primary data collection to cleaning to publication and archival. usar.
FieldDB Webservices/Components/Plugins
- AndroidLanguageLearningClientForFieldDB-sikuli - Sikuli tests for AndroidLanguageLearningClientForFieldDB.
- AuthenticationWebService - A node.js web service which mananges users and corpora creation and authentication.
- bower-fielddb-angular - A bower repository which hosts fielddb-angular components, bower install fielddb-angular --save.
- bower-fielddb - A bower repository which hosts fielddb core components, bower install fielddb --save.
- fielddb-spreadsheet-sikuli - sikuli tests for the spreadsheet module use.
- FieldDBActivityFeed - A fielddb activity feed widget which can be embedded in other codebases, websites etc use.
- FieldDBGlosser - A semi-unsupervised language independent morphological analyzer useful for stemming unknown language text, or getting a rough estimate of possible parses for morphemes in a word. bower install fielddb-glosser --save.
- FieldDBLexicon - A lexicon browser/editor web widget for FieldDB databases.
- LanguageClassDashboard - App which provides a view of FieldDB corpora for language teachers use.
- LexiconWebService - A node.js ElasticSearch wrapper for indexing/training lexicons from corpora.
- LexiconWebServiceSample - A node.js web server which implements the fieldlinguist's lexicon API for the FieldDB project.
Academic Research Paper-Specific Repositories
- Gargantua - Fast Unsupervised Sentence Aligner described in "Improved unsupervised sentence alignment for symmetrical and asymmetrical parallel corpora", COLING 2010.
- ldc-kiy - Materials for: The experimental state of mind in elicitation: illustrations from tonal fieldwork. Dubmitted to Language Documentation & Conservation, How to study a tone language .
- Learning to map into a Univerisal POS tagset Yuan Zhang, Roi Reichart, Regina Barzilay and Amir Globerson
- low-resource-pos-tagging-2014 and low-resource-pos-tagging-2014 Published in: Learning a Part-of-Speech Tagger from Two Hours of Annotation. Dan Garrette and Jason Baldridge . In Proceedings of NAACL 2013. And in: Real-World Semi-Supervised Learning of POS-Taggers for Low-Resource Languages. Dan Garrette, Jason Mielens, and Jason Baldridge . In Proceedings of ACL 2013.
- orthotree - Linguistic family tree based on orthographic distance.
- type-supervised-tagging-2012emnlp This repository contains the code, scripts, and instructions needed to reproduce the results in the paper: Type-Supervised Hidden Markov Models for Part-of-Speech Tagging with Incomplete Tag Dictionaries. Dan Garrette and Jason Baldridge . In Proceedings of EMNLP 2012. This code is frozen as of the version used to obtain the results in the paper. It will not be maintained. To see the updated code, visit nlp
- visualizing-language - For visualizations of WALS and other typological databases.
- WALS-APiCS - Code for working with WALS-APiCS (Atlas of Pidgin and Creole Language Structures) complexity metrics.
Example Repositories
These are repositories that are generally only interesting for training purposes or seeing how something is done.
- CorpusWebService - über-simple node.js-Proxy to enable CORS request for couchdb.
- CorporaForFieldLinguistics - Small corpora from diverse language typologies, useful for testing scripts.
- startR
- lucenerevolution-2013 - Demo examples for linguistics in Lucene and Solr.
- berlin-buzzwords-2013 - Demo examples for Lucene, Solr, ElasticSearch and OpenNLP from Berlin Buzzwords 2013 talk.
Fuentes
- fontinline - Make inline stroke paths from an outline font.
- Noto Fonts - Noto is Google's free font family that aims to support all the world's scripts. Its design goal is to achieve visual harmonization across languages. Noto fonts are under Apache License 2.0.
- Unicodify Unicodify is a suite of programs for converting text in a variety of 8-bit encodings to Unicode (using the UTF-16 encoding). Unicodify was particularly designed to handle HTML-based text using non-ISCII 8-bit fonts to render South Asian scripts. However, elements of the suite can map other types of non-ASCII 8-bit encodings, such as Latin-2, ISCII and PASCII.
Corpora
These corpora are useful for working with tools on endangered languages. Monolingual corpora that are more for archival efforts should most likely not be included here.
- bible-corpus - A multilingual parallel corpus created from translations of the Bible.
- poio-corpus - The Poio Corpus is a freely available collection of language resources for the lesser-used languages. The data is extracted from free sources like Wikipedia, dictionaries, documents, websites and others.
Organizaciones
On GitHub
- batumi - Speech recognition and natural language processing for low-resource languages
- BloomBooks
- unicode-cldr - Unicode Common Locale Data Repository (CLDR) Project http://cldr.unicode.org
- cmusphinx - Mirror of the SourceForge repositories
- dativebase - Tools for working with OLD.
- divvun - The Divvun group at UiT develops proofing tools, keyboard apps and other language technology solutions for indigenous and minority languages, especially the Sámi languages. Sitio web.
- FieldDB
- GiellaLT - home for keyboard layouts, lexicons and morphologies for indigenous and minority languages, especially for morphologically complex languages, using mainly rule-based techonlogies. The resources are used by Divvun (above) and Giellatekno (below) to build a number of tools for the language communities. Almost everything is open source.
- HFST - Helsinki Finite-State Technology. Sitio web.
- hunspell
- keymanapp - Website.
- langtech - Language Technology Group, University of Melbourne
- lex4all
- longnow
- MontrealCorpusTools
- moses-smt - Statistical Machine Translation.
- mukurtucms
- NLTK - Natural Language Toolkit.
- PhonologicalCorpusTools)
- Projet de recherche sur l'écriture - Crowdsourcing or conducting large scale psycholinguistics experiments (or statistically significant field linguistics).
- prosodylab - Prosodylab at McGill University, Canada
- SIL International (Dev) SIL International- Another SIL organization, with many repositories.
- SIL International - SIL (originally known as the Summer Institute of Linguistics, Inc.) is probably the leading organization which provides software and tools tailored for use by field linguists and lexicographers working on endangered languages. A little known fact is that much of it's code is open sourced on GitHub and SIL is happy to recieve open source contributions and collaborate on open source projects.
- SIL NRSI - SIL Non-Roman Script Initiative. The NRSI is a department of SIL International, whose task is to provide assistance, research and development for SIL International and its partners to support the use of non-Roman and complex scripts in language development.
- StanfordNLP https://nlp.stanford.edu
- ucsd-field-lab - University of California, San Diego
- UniversalDependencies - Universal Dependencies (UD) is a project that is developing cross-linguistically consistent treebank annotation for many languages, with the goal of facilitating multilingual parser development, cross-lingual learning, and parsing research from a language typology perspective. The annotation scheme is based on an evolution of (universal) Stanford dependencies (de Marneffe et al., 2006, 2008, 2014), Google universal part-of-speech tags (Petrov et al., 2012), and the Interset interlingua for morphosyntactic tagsets (Zeman, 2008). The general philosophy is to provide a universal inventory of categories and guidelines to facilitate consistent annotation of similar constructions across languages, while allowing language-specific extensions when necessary.
- utcompling - The University of Texas at Austin's Computational Linguistics Lab. Sitio web.
Other OSS Organizations
- Giellatekno - Giellatekno combines cutting-edge linguistic and computational research into the analysis of Saami and other morphologically-rich languages, with the development of practical applications. We focus on deep linguistic modeling and on highly efficient and robust computational analysis with a wide empirical coverage. They use svn for their code: all of it can be found here, sorted by language.
- LOWLANDS - LOWLANDS – Parsing low-resource languages and domains https://ccc.ku.dk/research/lowlands/
- LTRC: Language Technologies Research Center IIIT Hyderabad LTRC addresses the complex problem of understanding and processing natural languages in both speech and text mode. LTRC conducts research on both basic and applied aspects of language technology. It is the largest academic centre of speech and language technology in South Asia. LTRC carries out its work through four labs, which work in synergy with each other, as listed above.
- The Language Archive Part of the MPI
Tutoriales
- How to Write a Spelling Corrector by Peter Norvig.
Language Specific Projects
For each language, we include the ISO 639-3 code, and the main autonym for that language.
africaans
afr :: Afrikaans
- Afrikaanse rekenaarlinguïstiek (Afrikaans computational linguistics) — wordlists, corpora, morphological analyser, tagger, word decompounder. Available upon email.
albanés
sqi :: shqip
- Apertium rules for Albanian - Machine Translation rules
- out-of-copyright-albanian-authors - authors scraped from the albanian language wikipedia who are out of copyright.
- Plis keyboard - The Plis keyboard is a keyboard or computer keyboard layout for the Albanian language.
- spell checking - Here you find a collection of Albanian words and information about them. Aspell, Ispell, and MySpell are included.
Alutiiq
ems :: sugpiaq
- wiinaq - Word Wiinaq is a Kodiak Alutiiq dictionary web application with automatically generated ending tables and souped-up search capabilities. It is written in Python using Django.
Amárico
amh :: አማርኛ
- HornMorpho - Morphological analysis and generation of Amharic and Oromo verbs and nouns and Tigrinya verbs
vasco
eus :: euskara
- Matxin - An open-source transfer machine translation engine. Linguistic information for the translation from Spanish and Basque (es-eu) is included.
bengalí
ben :: বাংলা
- Bangla-অঙ্কুর for Mac This project aims to develop a phonetic based Bangla typing system for Macintosh computer which can be developed into a transliteration technique in the future.
- Bengali Writer - `Bengali Writer' is a set of utilities for computerized editing and typesetting in Bengali, a language of India and Bangladesh. It comprises a set of fonts for Bengali in several formats (METAFONT, BDF, PS), a text editor with spell-cheking, export, and more. (Original project is on SourceForge: https://sourceforge.net/projects/bengaliwriter/).
- Ekushey Bangla Computing and Localization Project for the Bangla speaking people.
- Lekho - A collection of tools and resources for using bangla on computers (Original project is on SourceForge: https://sourceforge.net/projects/lekho/).
Chichewa
nya :: chicheŵa
- Chichewa - NLP resources for Chichewa.
gallego
glg :: galego
- an-metri-gal - Análise métrico de texto en verso en lingua galega (Galician language) gl-ES
- android_gl_dict - Android Galician (gl_ES) Keyboard Dictionary
- aspell-gl - Galician dictionary for aspell
- CitiusSentiment - Sentiment analysis (opinion mining) for Portuguese, English, Spanish, and Galician
- CitiusTagger - A PoS-Tagger and Named Entity Classification tool for Portuguese, English, Galician, and Spanish
- Conshuga - Galician verb conjugator
- corpora - This is a collection of corpus of Galician (or related to Galicia) words / Colección de corpus de palabras en galego (ou relacionadas con Galicia)
- DepPattern - Dependency Syntactic Parsing for Portuguese, Spanish, English, and Galician, including MetaRomance parser
- DOGA_scraper - Galician Official journal scraper
- elFinder-language - Galician - Gallego / language for elFinder
- EuroWordNetLemon - EuroWordNet lemon lexicons generated from the LMF versions of the Multilingual Central Repository (MCR) EuroWordNet lexicons. It includes lexicons for Spanish, Catalan, Basque & Galician.
- GalegoDroid - Galician Translator for Android
- galeXtra - Multiword Extractor for Portuguese, English, Spanish, Galician, French
- Galician-Dependency-Treebank - This Galician Dependency Treebank has been developed by transliterating and adapting lexically the Portuguese part (Bosque 7.3 by the Floresta sintá(c)tica project) of the CONLL-X 2006.
- Galician-Fuzzy-Text-watch - Based on Fuzzy Text International by Jesse Hallett, uses the galician language to display time.
- galician-locale-for-mac - Galician locale for Mac OS X
- gl-syllabler - Split galician language words into syllables
- gl- Galician OmegaT Localisation
- hunspell-gl-ciencias - Project oriented into developing a science and maths Galician language Hunspell dictionary
- hunspell-gl - Galician hunspell dictionaries
- hyphen-gl - Galician hyphenation rules
- javagalician-java6 - The Java Galician Locale is an implementation of Java localization SPIs which will allow the Java VM to use the Galician Language (locales "gl" and "gl_ES"), one of the official languages of Spain, which is not included in Sun's JVM distribution.
- Linguakit - Multilingual toolkit for NLP: dependency parser, PoS tagger, NERC, multiword extractor, sentiment analysis, etc.
- ParlamentoGalicia - Project based on the information extracted from the transcriptions of the sessions held in the Galician Parlament
- poss-gl - Galician translation of Producing Open Source Software, by Karl Fogel
- rima - Find rhyming words in galician language.
- stopwords-gl - Galician stopwords collection
- texlive-babel-galician - TeXLive babel-galician package
- UD_Galician-CTG - The Galician UD treebank is based on the automatic parsing of the Galician Technical Corpus created at the University of Vigo by the the TALG NLP research group.
- UD_Galician-TreeGal - The Galician-TreeGal is a treebank for Galician developed at LyS Group (Universidade da Coruña).
- UL_Galician-TreeGal - CoNLL-UL Repository for UD_Galician-TreeGal
Apertium
- apertium-cat-glg - Apertium translation pair for Catalan and Galician
- apertium-dict-en-gl - English-Galician language pair for Apertium
- apertium-dict-es-gl - Spanish-Galician language pair for Apertium
- apertium-dict-pt-gl - Portuguese-Galician language pair for Apertium
- apertium-en-gl - Apertium translation pair for English and Galician
- apertium-es-gl - Apertium translation pair for Spanish and Galician
- apertium-glg - Apertium linguistic data for Galician
- Apertium-pt-gl.pt-gl-LMF - This is the LMF version of the Apertium bilingual ditionary for Portugues and Galician languages
- apertium-pt-gl - Apertium translation pair for Portuguese and Galician
georgiano
kat :: ქართული
- awesome-georgia - A curated list of awesome libraries and packages specific/related to Georgia (country).
- Gadatsqvetilebebi - გადაწყვეტილებები; Web spider and corpora importer for public legal decisions.
- GeoWordsDatabase - Around 310 000 unique Georgian words https://bumbeishvili.github.io/GeoWordsDatabase/.
- Kartuli Speech Recognition - ანდროიდის ქართველი მომხმარებლებისთვის სიტყვის ამოცნობის სისტემის შექმნა. Codebase to turn any webpage from any alphabet into another alphabet, the default is to turn latin letters into Kartuli. use "Do your friends keep commenting on Facebook with English keyboards (either because they forgot to switch, or because they didn't/can't install a Georgian keyboard)? Now you can read the web through კართული eyes.".
- KartuliChromeExtension - Chrome აპლიკაცია, რომელიც ყველა ინგლისურ ასო-ბგერას აჩვენებს ქართულ ასო-ბგერად.
- QartuliDaBunebismetkveleba - მათემატიკისა და ბუნებისმეტყველების ინტერაქტიული სახელმძღვანელო მე-2 - მე-3 კლასის მოსწავლეებისათვის.
- SakartvelosUzenaesiSasamartloSarke - საქართველოს უზენაესი სასამართლო სარკე.
- SamartlosSakonstitutsioSasamartdoSarke - სამართლოს საკონსტიტუციო სასამართდო სარკე.
- translitit-latin-to-mkhedruli-georgian - A Latin to ქართული (Mkhedruli Georgian) transliteration function written in JavaScript.
- translitit-mkhedruli-georgian-to-ipa - A Latin to ქართული (Mkhedruli Georgian) transliteration function written in JavaScript.
- Declensions - Methods to generate declensions for Georgian language
Fuentes
- Stichoza/font-larisome - Iconic font for Georgian currency inspired by Font-Awesome (CSS).
- Lotuashvili/BPGNateli - Bower package for BPG Nateli font (CSS).
- thecotne/georgian-webfonts - Package for georgian fonts (CSS).
Internationalization and Localization (i18n/l10n)
- Stichoza/money-num-to-string - Convert a number/money to localized string (PHP, JavaScript).
- natchkebiailia/NumberToWord - Convert numbers to localized strings (JavaScript).
- d0ragon/number-to-words-ka - Convert numbers to localized strings (PHP).
- dimakura/ka - Common functionality for georgian projects (Ruby).
- dimakura/ka.js - Georgian language support for node and browser (JavaScript).
- akalongman/kautilities - Convert Georgian letters to Latin and vice-versa (PHP).
- Landish/Laravel-Ka - Laravel Georgian Language Pack.
- Landish/RedactorJS-GE - Redactor WYSIWYG HTML Editor Georgian Language Pack (JavaScript).
- wenzhixin/bootstrap-table - Bootstrap table with extra features. l10n by @Lotuashvili and @Stichoza.
- moment/moment - A lightweight date library (JavaScript).
- ioseb/geokbd - Georgian keyboard library (JavaScript).
guaraní
grn :: Guarani
- ParaMorfo - morphological analysis and generation of Spanish and Guarani verbs, nouns, and adjectives.
Hausa
hau :: هَرْشَن هَوْسَ
- Hausa - Repository for Hausa NLP tools.
hindi
hin :: हिन्दी
- hindi-morph - An open source morphological analyzer for Hindi.
Høgnorsk
nno :: Høgnorsk
- hunspell-hn_NO - A beginning to a spellchecking tool for Høgnorsk, a conservative variant of Norwegian Nynorsk, based on a set of corpuses.
islandés
isl :: íslenska
- IceNLP - IceNLP is an open source Natural Language Processing (NLP) toolkit for analyzing and processing Icelandic text. The toolkit is implemented in Java.
Inuktitut
iku :: Inuktitut
- InuktitutAlignerData - Scripts for alignment of laboratory speech production data.
- InuktitutComputing - Inuktitut Morphological Analyser, transcoder, transliterator, corpus tools, and lexical lists for working with Inuktitut. Usable online at http://inuktitutcomputing.ca/index.php.
irlandés
gle :: Gaeilge
- aimsigh - Source for the now-defunct aimsigh.com Irish search engine.
- caighdean - Code for standardizing Irish language text.
- fleiscin - Irish hyphenation patterns for TeX https://cadhan.com/fleiscin/.
- GaelSpell - Sources for an Irish language spell checker.
- tesseract-gle-uncial - OCR for old Irish fonts.
Kinyarwanda
kin :: Ikinyarwanda
- kin-morph-fst - Kinyarwanda morphological analyzer.
- TurboTagger & TurboParser for Kinyarwanda (download) TurboTagger & TurboParser for Kinyarwanda
kurdo
kur :: Kurdî
- Kurlex - Morphological analyser and lexicon, written in the Alexina framework, licensed under the LGPL-LR.
- kurmanji-stemmer - NLTK based kurmanji stemmer
Lingala
lin :: Lingála
- Lingala NLP NLP tools and resources for Lingala
Lushootseed
lut :: Lushootseed
- Lushootseed - Joshua Crowgey's work on Lushootseed http://students.washington.edu/jcrowgey/lushootseed/.
malayo
msa :: Bahasa Melayu
- MorfoMalayu - morphological analysis of Malay words.
madagascarí
mlg :: Malagasy
- Global Voices Malagasy Project This page provides a link to a corpus of parallel news articles in Malagasy and English from the Global Voices project. This corpus was collected and aligned at the sentence level by Victor Chahuneau.
de la isla de Man
glv :: Gaelg
- aspell-gv - Manx Gaelic dictionary for aspell.
- gaelg - NLP resources for Manx Gaelic, mainly in support of the gv2ga MT engine.
Migmaq
mic :: Mi'kmaq
- migmaq-lessons - Repository for website building Mi'gmaq language lessons.
Minderico
drc :: Piação do Ninhou
- fredericajordarzambarino - A web based game for mobile devices in minderico based in the "Who Wants to be a Millionaire" TV show.
Nishnaabe
oji :: Ojibwe, Oddawa, Chippewa, Anishinaabemowin, ᐊᓂᔑᓈᐯᒧᐎᓐ
- Ojibway-iphone-app - An iPhone app with audio and images for learning the Ojibway language.
- OjibwayMap - An iPhone app with audio and images for learning Ojibway language and culture.
- nishanimate - A desktop app to facilitate Nishnaabe-language acquisition via animations produced by the natural language processing of audio-accompanied text.
Oromo
orm :: Oromo
- hornmorpho - morphological analysis and generation of amharic and oromo verbs and nouns. and tigrinya verbs
quechua
que :: Runa Simi
- AntiMorfo - morphological analysis and generation of Quechua nouns, adjectives, and verbs and Spanish verbs.
- Morphology, spellchecker - XFST and FOMA, plus OpenOffice plugin.
Sami
sma :: Sámi/Saami
- divvun-webdemo - simple webdemo for divvun grammar checker. Sitio web.
- Giellatekno A host of Sámi tools.
- Mobile keyboards (iOS and Android), learning apps, dictionaries, morphologies, syntax disambiguators, some amount of project collaboration with Apertium on shallow translation between Saami languages, and
- Oahpa! - A learning portal for Saami languages. Includes WordPress based, media rich lesson-based learning, and morphological and syntactic exercizes generated from the morphological and syntactic tools
- Neahttadigisánit - A morphologically sensitive dictionary, with modes for 'social media input' (which allows users to type a 'relaxed' version of the orthography ( acdnstz will be recognized also as áčđŋšŧz̄ ), and also includes a JavaScript bookmarklet to offer click-to-read dictionary lookup functionality. Also available for other Uralic, and non-Uralic languages. Giellatekno does a lot for other minority Uralic languages. Following are some keywords for CTRL+F friendliness:
- Saami languages: North Saami, Lule Saami, South Saami // Inari Saami, Kildin Saami, Pite Saami, Skolt Saami.
- Other Uralic languages: Erzya, Finnish, Hill Mari, Ingrian, Khanty, Kven, Komi, Livonian, Meadow Mari, Moksha, Nenets, Nganasan, Olonetsian, Udmurt, Veps.
- Other languages: Buriat, Cornish, Faroese, Greenlandic, Iñupiaq, Northern Haida, Ojibwe, Plains Cree, Russian.
Gaélico escocés
gla :: Gàidhlig
- aspell-gd - Scottish Gaelic dictionary for aspell.
- briathrachan - This is the source code to Briathrachan, a Gaelic-English dictionary app for iOS.
- gaidhlig - NLP resources for Scottish Gaelic, mainly in support of gd2ga/ga2gd MT engines.
- gd-fcfg - Context-free feature-based grammar of Scottish Gaelic in the NLTK format.
- gdbank - Some tools and resources for natural language processing of Scottish Gaelic. https://www.tantallon.org.uk/cggblog/.
- hunspell-gd - Files for building Scottish Gaelic spell checkers.
Secwepemctsín
shs :: Secwepemctsín
- secwepemctsnem - A project to help people learn Secwepemctsín.
somalí
som :: Soomaaliga
- somorph - Somali morphological and syntactic analyzers and generators built on XFST and VISL-CG Constraint Grammar. Up to date version checked in on Giellatekno's repository.
- qaamuus.net morphologically aware dictionary based on lexical resources found online, and the somali morphology.
Tigrinya
tir :: ትግርኛ
- HornMorpho - morphological analysis and generation of Amharic and Oromo verbs and nouns and Tigrinya verbs.
Uralic
urj :: Uralic languages
- UralicNLP - A Python library for processing Uralic languages (Finnish, Skolt Sami, Erzya, Moksha, Komi-Zyrian and so on). The library provides an easy programmatic access to Giellatekno resources such as FST morphology and CG disambiguators. Other functionalities include UD parser, API for the Online Dictionary of Uralic Languages and interface to SemFi and SemUr semantic databases. The library is under active development and new features are added from time to time.
zulú
zul :: zulu
- Ukwabelana An open-source morphological Zulu corpus
Licencia
© Richard Littauer 2014-2017