Idiomas de baixo recurso
Recursos para conservação, desenvolvimento e documentação de idiomas de baixo recurso (humanos).
Segundo algumas estimativas, espera -se que metade dos 7.000 ~ idiomas falados atualmente se extinguam neste século. No entanto, há muito trabalho de acadêmicos, acadêmicos independentes, organizações, comunidades e indivíduos que vão para parar ou diminuir essa tendência. Esta lista visa fornecer uma lista de código -fonte aberto que seria útil para documentar, conservar, desenvolver, preservar ou trabalhar com idiomas ameaçados.
Grupo Slack
Temos um grupo frouxo para discussão ao vivo. Junte -se a nós aqui!
Publicação
Um white paper descrevendo este repositório foi publicado no LREC 2016 CCURL Workshop (colaboração e computação para idiomas com poucos recursos). O artigo está neste repositório, na pasta papers . Faça o download do papel bruto aqui: Código acelerado Open que atende idiomas em extinção.
Contribuir
Para editar esta lista no Github, basta clicar aqui. Se você deseja discutir qualquer coisa relacionada a isso, abra um problema. Se você conhece algum recurso disponível que não esteja nesta lista, adicione -o, usando o link acima ou enviando solicitações de tração.
Há mais detalhes sobre a contribuição no guia contribuinte.
Se você estiver interessado em discutir a lista com alguma capacidade offline, entre em contato com @Richardlitt. Eu ficaria mais do que feliz por ter um telefonema ou troca de email.
Índice
Índice gerado com Doctoc
- Definições
- Repositórios genéricos
- Projetos e serviços públicos de lexicografia de linguagem única
- Software
- Ajudadores de configuração de layout do teclado
- Anotação
- Especificações de formato
- Repositórios relacionados à I18N
- Automação de áudio
- Text-to-fala (TTS)
- Reconhecimento automático de fala (ASR)
- Automação de texto
- Experimentação
- Flashcards
- Geração de linguagem natural
- Sistemas de computação
- Aplicações Android
- Extensões cromadas
- FieldDB
- FieldDBV Services/Components/Plugins
- Repositórios específicos de papel de pesquisa acadêmica
- Exemplo de repositórios
- Fontes
- Corpora
- Organizações
- No github
- Outras organizações OSS
- Tutoriais
- Projetos específicos de idiomas
- afrikaans
- albanês
- Alutiiq
- Amárico
- Basco
- bengali
- Chichewa
- Galian
- Georgiano
- Fontes
- Internacionalização e localização (I18N/L10N)
- Guarani
- Hausa
- hindi
- Høgnorsk
- islandês
- Inuktitut
- irlandês
- Kinyarwanda
- curdo
- Lingala
- Lushootseed
- malaio
- malgaxe
- Manx
- Migmaq
- Minderico
- Nishnaabe
- Oromo
- Quechua
- Sami
- Gaélico escocês
- SECWEPEMCTSÍ
- Somali
- Tigrinya
- Urral
- zulu
- Licença
Definições
Línguas ameaçadas são línguas humanas que correm o risco de extinção. Esta lista também abrange idiomas minoritários - idiomas falados por uma população estável, mas pequena, (por exemplo, maltesa ou hava'ian); e idiomas baixos ou com poucos recursos, que podem ser falados por uma grande população, mas estão sub-representados digitalmente (por exemplo, quíchua). Esses idiomas compartilham certas características em comum; O mais pertinente são os dados escassos e a falta de recursos, variando de verificadores ortográficos a gramáticas e corporos de tradução da máquina. Outras linguagens com poucos recursos que não se enquadram nesta lista incluem idiomas construídos (por exemplo, klingon ou Na'VI), linguagens de computador (por exemplo, javascript ou lua) e idiomas extintos que são tão escassos que tornam computacionalmente irrelevantes para a maioria dos propósitos (por exemplo, paraquarianos).
O código aberto "promove um acesso universal por meio de uma licença gratuita para o design ou o plano de um produto, e a redistribuição universal desse design ou plano, incluindo melhorias subsequentes por qualquer pessoa". (Wiki). Isso é importante porque o dinheiro e os recursos alocados em relação a um idioma ou projeto que não são de código aberto são gastos às custas de possível extensibilidade em outros lugares.
Esta lista costumava ser denominada endangered-languages . Foi renomeado para refletir que o ameaça é um termo carregado que ambos podem não refletir as opiniões das comunidades de idiomas que falam idiomas minoritários. low-resource-languages concentram essa lista na falta de recursos digitais em comparação com outros idiomas de alto recurso.
Tools which are built for these languages are not included (unless relevant for dialects or variants): Arabic, Bulgarian, Catalan, Chinese, Croatian, Czech, Danish, Dutch, English, Estonian, Finnish, Flemish, French, German, Greek, Hebrew, Hungarian, Indonesian, Italian, Japanese, Korean, Latvian, Lithuanian, Norwegian, Norwegian (Bokmål), persa, polonês, português, romeno, russo, sérvio, eslovaco, esloveno, espanhol, sueco, tailandês, turco, ucraniano, valência, vietnamita. Esta lista vem da lista dos idiomas mais populares de conteúdo para sites, nesta página da Wikipedia. Outras métricas podem ser usadas - se você tiver outra, sugira!
Esta lista é particularmente boa em uma coisa; mostrando os tipos de ferramentas que existem em campo, genericamente. No entanto, para pesquisas detalhadas sobre um idioma específico ou conjunto de ferramentas, ele não tem um desempenho excepcionalmente bem. Por exemplo, listar todos os pacotes de idiomas do Firefox ou módulos de idiomas de Apertium para cada linguagem de baixo recurso seria inútil, pois incluiria todas as ferramentas disponíveis para o basco observado no Wiki da ACL, o que principalmente significaria catalogação de ferramentas através do grupo IXA, alguns dos quais são de código aberto e outros não. Em vez disso, veja esta lista como um ponto de partida para mais pesquisas.
Procurando recursos para idiomas de código? Dê uma olhada na coleção Awesome Lists.
Repositórios genéricos
Projetos e serviços públicos de lexicografia de linguagem única
Utilitários
- O projeto para dicionários eletrônicos gratuitos é um projeto para um meio de java para telefones celulares - para dicionários de idiomas indígenas.
- Site Webonary que hospeda dicionários digitais para idiomas únicos.
- Wesay - permite que as comunidades de linguagem construam seus próprios dicionários. https://software.sil.org/wesay/ (pelo internacional SIL).
Software
- 4lang - Dicionário conceitual usando máquinas Eilenberg.
- acentue.us também conhecido como "Charlifter". Unicodificação estatística do texto simples para muitos idiomas
- Alinhamento-With-Openfst-Esta é uma implementação da estrutura do CRF AutoEncoder para quatro tarefas: alinhamento de palavras BEDEXT, marcação de parte de fala, comutação de código, análise de dependência.
- Apertium Apertium é uma caixa de ferramentas para criar sistemas de tradução de máquina de transferência rasa de código aberto, especialmente adequado para pares de idiomas relacionados: inclui o motor, as ferramentas de manutenção e os dados lingüísticos abertos para vários pares de idiomas.
- Ark-Tweet-NLP-CMU Ark Twitter Parte de falar o tagger ( garfo ).
- ArtOfreading - Scripts de índice e processamento relacionados à arte da coleção de ilustrações de leitura.
- Bayesline - Uma classificação bayesiana multinomial para identificação de idiomas.
- Toolas da Bíblia-Corpus-Uma coleção de ferramentas para ler/processamento do corpus multilíngue da Bíblia.
- BLOOMDESKTOP - O Bloom Desktop é um aplicativo híbrido C#/javascript/html/css windows que "reduz dramaticamente a barra" para comunidades de idiomas que desejam livros em seus próprios idiomas. A Bloom oferece um sistema de baixo treinamento e alto saída, onde os falantes da língua materna e seus advogados trabalham juntos para promover a autoria comunitária e o acesso a materiais externos… https://bloomlibrary.org/.
- Bloomlibrary - Bloom Library Single Page App, usando o AngularJS & Bootstrap, parse.com Backend. https://bloomlibrary.org/.
- Cérebro - redes neurais em JavaScript.
- Ferramentas de morfologia da UNI MT Bristol - Este repo é um espelho de scripts disponíveis anteriormente em http://www.cs.bris.ac.uk/research/machinelearning/morphology/resources.jsp. Incluído: UKWABELANA - Um Zulu Corpus e Emma de código aberto: uma nova métrica de avaliação para análise morfológica.
- Brown Cluster - Implementação de C ++ do algoritmo de cluster de palavras marrons.
- O CasualCon CasualConc é um programa de concordância que é executado nativamente no Mac OS X 10.5 Leopard ou posterior. Foi originalmente projetado para uso casual (análise preliminar ou fins não pesquisadores), embora [o mantenedor] o tenha usado para sua própria pesquisa (e que os outros tenham). Pode gerar linhas de concordância KWIC, aglomerados de palavras, análise de colocação e contagem de palavras.
- CDEC - Decodificador, alinhador e otimizador de modelos para tradução de máquinas estatísticas e outros modelos de previsão estruturados com base em (principalmente) formalismos sem contexto.
- Charlint Charlint é uma ferramenta de normalização/verificação de personagem escrita em Perl. Entre os outros, ele implementa a normalização da forma C do Unicode TR 15, como uma plataforma de teste para normalização uniforme precoce no modelo de caracteres W3C.
- Coro - um sistema de controle de versão projetado para permitir fluxos de trabalho apropriados para equipes típicas de desenvolvimento de idiomas que são distribuídas geograficamente.
- CLAM-Mediador de aplicação de lingüística computacional-Transforme rapidamente aplicativos PNL em serviços Web Restful com um front-end de aplicativo da Web. Você fornece uma especificação do seu aplicativo de linha de comando, sua entrada, saída e parâmetros e o CLAM envolve seu aplicativo para formar um RESTful Web Service de pleno.
- A CMU Sphinx Cmusphinx é um grande vocabulário independente do alto-falante, reconhecedor de discurso contínuo liberado sob licença de estilo BSD. É também uma coleção de ferramentas e recursos de código aberto que permite que pesquisadores e desenvolvedores construam sistemas de reconhecimento de fala.
- CNMINLANGWEBCOLLECT - Coleta de detecção de idiomas e sites de idiomas de minorias chinesas.
- COG - COG é uma ferramenta para comparar linguagens usando lexicoestatística e técnicas de linguística comparativa. Ele pode ser usado para automatizar grande parte do processo de comparação de listas de palavras de diferentes variedades de idiomas. http://sillsdev.github.io/cog/.
- Convertextract - Converter Excel, Word e PowerPoint Arquivos com texto não unicode (como o texto que requer fontes SIL) em Unicode, preservando a formatação do arquivo original.
- Corpustools - corpustools fonológicos http://phonologicalcorpustools.github.io/corpustools/.
- CTK-Construído em torno do Kernel Aligner de frases Champollion da LDC, o Champollion Tool Kit (CTK) visa fornecer ferramentas de alinhamento de sentença de texto paralelo prontas para uso para o maior número possível de pares de idiomas. (O projeto original está no SourceForge: http://champollion.sourceforge.net).
- DATATAGS - Um sistema para avaliar o risco de sensibilidade e privacidade de um conjunto de dados e atribuir uma tag para descrever como o conjunto de dados deve ser transferido, armazenado e acessado. ( Garfo ).
- DataSverse - Uma estrutura de repositório de dados para compartilhar e publicar dados de pesquisa.
- Dativo - Dativo: Software para Trabalho de Campo Linguístico http://www.dative.ca.
- Dative - um aplicativo de uma página que interage com vários bancos de dados de serviços da Web de campo lingüístico. Site.
- Caixa de ferramentas do DeeplearntoolBox - MATLAB/OCTAVE para aprendizado profundo. Inclui redes de crenças profundas, autoencoders empilhados, redes neurais convolucionais, autoencoders convolucionais e redes neurais de baunilha. Cada método tem exemplos para você começar.
- DESMEME - Banco de dados e ferramentas para explorar modelos linguísticos.
- DICTDB - Banco de dados de dicionário para tradução de idiomas.
- Discurso -Graphs - Ferramenta baseada em Python para converter e mesclar dados lingüísticos anotados multicamadas.
- Divvun-Gramcheck-Este programa faz uma pesquisa FST em formulários especificados como leituras de formato gramatical restrições e procura as manchas de erros em um arquivo XML com mensagens legíveis por humanos. Ele deve ser usado como um estágio tardio de um pipeline de verificador de gramática.
- Divvun -teclado - aplicativos de teclado para iOS e Android com layouts de teclado para idiomas indígenas e minoritários
- DivvUnSpell -
hfst-ospell (abaixo) reescrito em ferrugem, para concorrência robusta e gerenciamento de memória. Está em uso prático cerca de 10x mais rápido que hfst-ospell . Ele usa os mesmos arquivos ZHFST que hfst-ospell , que estão disponíveis para todos os idiomas na organização Giellalt Github (veja abaixo). - DLTK - Kit de ferramentas de linguagem deutsch. Mais.
- Epitran - Conversão de grafema para fonema (G2P) para muitos idiomas de baixo resistência.
- Ancião: Repositório eletrônico de dados de idiomas ameaçados-Repositório eletrônico de dados de idiomas em extinção: uma ferramenta de catalogação de dados lingüísticos colaborativos baseada na Web.
- Enchant - Biblioteca de Escolas ortográficas encantador https://abiword.github.io/enchant/.
- Exsite9 - Exsite9 é um aplicativo de desktop que foi criado para facilitar os pesquisadores com facilidade e rapidez seus arquivos de dados com metadados descritivos e, posteriormente, empacotar seus arquivos de dados e metadados associados prontos para submissão a um repositório. O Exsite9 também permite a organização estrutural dos referidos arquivos dentro de mover sua localização física no armazenamento de arquivos local; permitindo que você organize corretamente seus arquivos e metadados prontos para embalagens.
- fast_align - Alinhador de palavras simples e rápido e rápido.
- FastText - Biblioteca para representação e classificação de texto rápido.
- Trabalhos de campo - O Fieldworks é um conjunto de ferramentas de software para dados de idioma e cultura, com suporte para scripts complexos. https://software.sil.org/fieldworks/ Fieldworks Language Explorer (ou Flex, para curta) foi projetado para ajudar os linguistas de campo a executar muitas tarefas comuns de documentação e análise de idiomas. Pode ajudá -lo: eliciar e registrar informações lexicais, criar dicionários, interlinearizar textos, analisar características do discurso, estudar morfologia.
- Franc - Detecção de Linguagem Natural https://wooorm.com/franc/.
- FWDocumentação - Documentação do desenvolvedor para trabalhos de campo (ferramentas de software para dados de idioma e cultura, com suporte para scripts complexos).
- FWLocalizações - Localizações para trabalhos de campo.
- FWSupportTools - Ferramentas adicionais para o desenvolvimento de trabalhos de campo.
- GAIA - GAIA é uma interface do usuário do telefone HTML5 para o projeto Boot 2 Gecko. NOTA: Para detalhes de quais ramificações são usadas para quais lançamentos, consulte o wiki. Se você estiver interessado em configurar um teclado em um novo idioma, consulte isso.
- Giellakbd-Android-Um garfo de latino (do Google para Android), direcionando idiomas marginalizados que também merecem status de primeira classe em sistemas operacionais móveis. Usado por KBDGEN (veja em outros lugares nesta página).
- GIELLAKBD -IOS - Uma reimplementação de código aberto do teclado iOS nativo da Apple, com um foco específico no suporte para teclados localizados. Usado por KBDGEN (veja em outros lugares nesta página).
- Giza-pp-Giza ++ é um kit de ferramentas de tradução de máquina estatística usado para treinar os modelos IBM 1-5 e um modelo de alinhamento de palavras HMM. Este pacote também contém a fonte da ferramenta MKCLS, que gera as classes de palavras necessárias para o treinamento de alguns dos modelos de alinhamento.
- GV -CRAWL - Global Voices Bitext Crawler para criar corpora paralela.
- GLOTLID - Identificação da linguagem FastText com suporte para mais de 2000 rótulos.
- Glottolog Data - Glottolog fornece informações abrangentes de referência para os idiomas do mundo.
- Gramadóir - mecanismo de verificação de gramática, projetado para o rápido desenvolvimento de verificadores gramaticais para idiomas minoritários e outros idiomas com recursos computacionais limitados.
- Grind - Um plug -in do INDESIGN 5.5 Projetado permite que as fontes inteligentes ativadas por grafite sejam usadas no Adobe InDesign. Este projeto integra a tecnologia de fontes inteligentes grafite 2 da SIL com nossa própria implementação de um plug -in de compositor de parágrafos.
- Hermitcrab-Hermitcrab.net é um analisador morfológico/fonológico flexível que adota uma abordagem de item e processo.
- HFST -OSPLEL - Biblioteca de verificador de ortografia HFST e ferramenta de linha de comando.
- HFST-OSPLOPL-JS-LINHAS DE NODE PARA HFST-OSPLEL.
- HFST-Otimized-LOOKUP-HFST Otimize-Up Standalone Library and Command Line Ferramenta.
- Hundict - Extrator de dicionário bilíngue de corpora paralela.
- HUNSPELL - Verificador ortográfico e biblioteca e programa de analisador morfológico projetados para idiomas com rica morfologia e composição complexa de palavras ou codificação de caracteres.
- Huntag - um tagger seqüencial para PNL usando o máximo aprendizado de entropia e modelos ocultos de Markov.
- ICU -DOTNET - C# Wrapper para UCU4C.
- ICU4C - Mirror of SVN Project em http://source.icu-project.org/repos/iCu/iCu/. A filial de trabalhos de campo possui alguns aprimoramentos específicos dos trabalhos de campo.
- Ilanguage - Um analisador morfológico independente de linguagem semi -supervisionado útil para o texto de linguagem desconhecida ou obter uma estimativa aproximada de possíveis pastas para morfemas em uma palavra. Entrada: um corpus. Usa compactação, entropia máxima e fieldlinguistics.
- IPA -HELP - IPA ajuda.
- itweets -geodata - geodata de tweets indígenas.
- JQuery.ime - biblioteca de métodos de entrada baseada em jQuery.
- KBDGEN - Gere teclados e layouts de teclado para vários sistemas operacionais.
- KOREKSYON-Ferramentas para desenvolver e implementar recursos de verificação de ortografia e verificação gramatical em idiomas de baixo resistência.
- L20N.JS - L20N Reinventa a localização do software. Os usuários devem ser capazes de se beneficiar de todo o poder expressivo de idiomas naturais. O L20N mantém as coisas simples simples e, ao mesmo tempo, torna as coisas complexas possíveis. Esta é a implementação JavaScript do L20N. http://l20n.org.
- LANGID.PY - Sistema de identificação de idiomas independente.
- Langtech uma série de recursos fornecidos na SVN pela Universidade de Tromsø. Os detalhes estão aqui e em inglês aqui.
- LEGO Unified Concepticon - Material relacionado ao conceito LEGO Unified.
- Lex4all - léxicos de pronúncia para qualquer idioma de baixo resistência http://lex4all.github.io/lex4all/.
- LEXDB - O LEXDB é um banco de dados de rastreamento de cognatos lexicais. Ele armazena a proveniência completa de todos os lexemas e julgamentos cognatos e permite a exportação em vários dialetos nexus. O banco de dados está escrito na estrutura flexível da Web Python/Django.
- LFMERGE - Enviar/Receber para LanguageForge.org.
- Liblevenshtein - Uma biblioteca para gerar transdutores de estado finitos com base nos autômatos Levenshtein.
- Libpalaso - Biblioteca Palaso: um conjunto de bibliotecas .NET útil para desenvolvedores de software de idiomas.
- Matriz gramatical de linguagem A matriz gramatical da linguagem é uma estrutura para o desenvolvimento de gramáticas implementadas e de ampla cobertura, precisão para diversas línguas.
- Lingpy - Lingpy: Biblioteca Python para tarefas quantitativas em linguística histórica http://lingpy.org.
- Linguistica Linguistica é um programa projetado para explorar o aprendizado não supervisionado da linguagem natural, com foco primário na morfologia (estrutura de palavras). Ele é executado no Windows, Mac OS X e Linux e está escrito em C ++ na estrutura de desenvolvimento QT. Suas demandas de memória dependem do tamanho do corpus analisado.
- O plug -in JQuery Long -Press - para facilitar a escrita de caracteres acentuados ou raros. http://toki-woki.net/lab/long-press/.
- Baixo resistência-POS-POS-2014 POS de baixo recurso POS: 2014
- LRL - Para o trabalho relativo de idiomas baixos de recursos.
- Macvoikko - Um servidor de ortografia do OS X baseado em Voikko.
- Máquina - A máquina é uma biblioteca de processamento de linguagem natural para .NET, focado em fornecer ferramentas para processar idiomas pobres de recursos (usados pelo Flex).
- Extensões de maquiagem - Scripts para gerar extensões de verificação ortográfica de Hunspell.
- MGIZA - Uma ferramenta de alinhamento de palavras baseada em Gizé ++ famosa, estendido para apoiar o threading múltiplo, retomar o treinamento e o treinamento incremental.
- A tradução minoritária traduzida é um programa simples para ajudar a geração de conteúdo em Wikipedias de tamanho menor (na verdade qualquer tamanho), dando dicas a artigos existentes em outras wikipedias de idiomas, para que o usuário possa traduzir ou adaptar facilmente os textos existentes e, assim, aumentar o tamanho e a usuabilização de suas edições da Wikipedia.
- Morfessor - Morfessor é uma ferramenta para segmentação morfológica não supervisionada e semi -supervisionada.
- Morpholm - modelos de idiomas com reconhecimento de morfologia.
- Morph -Test - Um script Python para executar testes para geração e análise de um transdutor morfológico construído usando a infraestrutura de Giella. Trabalha com as ferramentas FST HFST, Xerox e com foma.
- MosesDecoder - Moisés, o sistema de tradução da máquina.
- MOZ-L10N-TIERS-Cria uma pseudo-localização para avaliar a priorização de strings para L10N.
- Mukurtucms - O Mukurtu Content Management System (CMS) é uma plataforma baseada na Internet projetada para permitir o arquivamento de recursos culturais digitais
- Mythes - Mythes é um sinônimo simples que usa um arquivo de dados de texto estruturado e um arquivo de índice com pesquisa binária para procurar palavras e frases e retornar informações sobre parte da fala, significados e sinônimos.
- MyWorkSafe - Backup inteligente e simples para trabalhadores de desenvolvimento de idiomas. http://software.sil.org/myworksafe/.
- Nabu - Nabu é um sistema de gerenciamento de itens de mídia digital que fornece um catálogo de itens de áudio e vídeo, metadados para esses itens e informações sobre o status do fluxo de trabalho dos itens. www.paradisec.org.au
- Natural - Javascript Geral Natural Language Instalações para o nó.
- NIST 2008 ABERTA DE TRADUÇÃO DA MÁQUINA AVISO
- NLTK - kit de ferramentas de linguagem natural python . NLTK Source http://www.nltk.org/.
- cliente node -panlex - node.js para panlex.
- NORMA - Uma ferramenta para a normalização automática de ortografia.
- NPLM - Fork de https://nlg.isi.edu/software/nplm/ com alguns ajustes de eficiência e adaptação para uso em MosesDecoder.
- OCTOTHORPE - Coisa do wiki movido a CouchDB.
- ODTXSLT - Execute a transformação XSLT no conteúdo de um pacote (como ODT, DOCX, etc.).
- Old-WebApp-Banco de Dados Linguístico Online-Software para criar aplicativos da Web para documentar colaborativamente Languages.http: //www.onlinelinguisticdatabase.org.
- Antigo - o banco de dados linguístico online (antigo): software para trabalho de campo linguístico. http://www.onlinelinguisticdatabase.org.
- O Old -Pirâmide - Banco de Dados Linguístico Online migrou para a estrutura da pirâmide.
- Omegat-HFST-Tokenizer-Omegat-HFST-Tokenizer fornece tokenização baseada em FST em Omegat.
- O Opendatakit Open Data Kit (ODK) é um conjunto de ferramentas de código aberto que ajuda as organizações autoras, campo e gerenciam soluções de coleta de dados móveis
- OpenNLP - A biblioteca Apache OpenNLP é um kit de ferramentas baseado em aprendizado de máquina para o processamento do texto da linguagem natural. Site.
- OPS -DEVBOX - Ansible Playbook para uma máquina de desenvolvedor (Linux).
- PANLEX -TOOLS - Este pacote contém scripts para transformar os recursos lexicais em um formato adequado para importação no Panlex. A documentação pode ser encontrada em https://dev.panlex.org.
- PDSC-Collection-Viewer-Navegador de coleções Paradisec
- Paradigma - Paradigma é uma implementação .NET (C#) do trabalho de Joseph E. Grimes de 1983, intitulado "Posições de Afixos e Coocrreências: O Programa Paradigma".
- Caminho - Preparando dados de idiomas para publicação.
- PDFDroPlet - Biblioteca e GUI para imposição de páginas em PDF (por exemplo, 2 -up) http://software.sil.org/pdfdroplet/.
- Pepper - Pepper é uma estrutura de conversor de código aberto baseado em Java, baseado em Java, para dados lingüísticos.
- Assistente de fonologia - Assistente de fonologia é uma ferramenta de descoberta. Fornecido com um corpus de dados fonéticos, ele mostra automaticamente os sons e, por meio de seus recursos de pesquisa, ajuda um usuário a descobrir e testar as regras do som em um idioma.
- Pressagio - Pressagio é uma biblioteca que prevê o texto baseado nos modelos N -Gram. Por exemplo, você pode enviar uma string e a biblioteca retornará as conclusões de palavras mais prováveis para o último token na string.
- PrimerPro - O objetivo do PrimerPro é ajudar o trabalhador de alfabetização no desenvolvimento de iniciadores para um determinado idioma.
- Pydelphin - Bibliotecas Python para Delph -In (Friendly Fork).
- RBGPARSER - Analisador de dependência baseado em gráfico.
- Rosetta Pangloss - O sistema Pangloss do Projeto Rosetta.
- Salm - Salm: Array de sufixo e suas aplicações no processamento de linguagem empírica por alegria.
- SALT - Um modelo baseado em gráfico para armazenar e manipular dados linguísticos.
- Saymore - Uma ferramenta para fazer tarefas de documentação de idiomas comuns, como manter todos os arquivos resultantes e meta -dados organizados, convertendo arquivos em formatos de arquivamento e transcrição.
- Secwepemc -facebook - traduz o Facebook em idiomas não suportados.
- Segparser - algoritmo ganancioso randomizado para segmentação articular, marcação de POS e análise de dependência.
- PEDLING - Construindo e usando um corpus de semente para o projeto de linguagem humana.
- Skype em seu idioma - traduza o Skype em idiomas não suportados.
- Solid - Solid é uma ferramenta de software que pode ser usada para verificar, limpar e converter dados de léxico de formato padrão (por exemplo, Toolbox).
- Ferramentas de conversão de esfera Muitas corpora LDC contêm arquivos de fala no formato NIST SPHETE. Os programas abaixo convertem arquivos de esfera em outros formatos.
- StandardFormatLib - Biblioteca de formato padrão.
- Stanford Corenlp - Stanford Corenlp: uma suíte Java das ferramentas principais da NLP. https://stanfordnlp.github.io/corenlp/.
- Stanford Corenlp Python - Python Wrapper for Stanford Corenlp Tools.
- Stanza - Ferramentas compartilhadas do Stanford NLP Group Python.
- STR2IPA-Dicionários de pronúncia para idiomas com sistemas de escrita quase fonéticos.
- Sugali - Este é um repositório herdado do projeto de identificação de idiomas para muitos (muitos) projetos de idiomas para o curso de projeto de software, projetos de PNL para idiomas de baixo resistência.
- Sugar - Identificação da linguagem para idiomas de baixo recurso (por Susanne, Guy e Liling).
- Syllabipy - Interface Python para Algoritmos de Silabificação Universal
- Tortel-IMITATION-TECKEDO-um teclado personalizado para iOS8+ que serve como uma imitação saborosa do teclado padrão da Apple. Construído usando Swift e as mais recentes tecnologias da Apple!.
- Teckit - um kit de ferramentas de conversão de codificação de texto.
- TENY - Ferramentas para tradução da máquina de baixo recurso.
- Teradict - Traduza palavras em inglês em centenas de idiomas!.
- TESSERACT.JS - JavaScript puro OCR para 62 idiomas ?? http://tesseract.projectnaptha.com/.
- TEXNLP - TEXNLP: Ferramentas de processamento de linguagem natural do Texas.
- O TIMBL TIMBL é um pacote de software de código aberto que implementa vários algoritmos de aprendizado baseado em memória, entre os quais o IB1-IG, uma implementação da classificação vizinha mais parecida com K com ponderação de recursos adequada para espaços de recursos simbólicos e Igtree, uma aproximação de árvore de decisão do IB1-IG. Todos os algoritmos implementados têm em comum que armazenam alguma representação do conjunto de treinamento explicitamente na memória. Durante os testes, novos casos são classificados por extrapolação dos casos armazenados mais semelhantes.
- Toney - Software de classificação de tons.
- Caixa de ferramentas do linguista de campo - Caixa de ferramentas é uma ferramenta de gerenciamento e análise de dados para linguistas de campo. É especialmente útil para manter dados lexicais e para analisar e interlinearizar o texto, mas pode ser usado para gerenciar praticamente qualquer tipo de dados.
- Scripts da caixa de ferramentas para Elan - Mirror de scripts da caixa de ferramentas de Alexander Koenig https://tla.mpi.nl/tools/tla-tools/elan/thirdparty/.
- ToolsForFieldLinguistics - Uma coleção de scripts e receitas para linguística.
- Transcritor - uma ferramenta de transcrição HTML5 para Aikuma
- Engine translitit - um mecanismo de transliteração escrito em JavaScript.
- Tsammalex Data - Tsammalex é um banco de dados lexical multilíngue em plantas e animais.
- Tweet2Learn - Um aplicativo para facilitar o uso do seu idioma nativo no Twitter.
- Twitter_langid - Uma rede neural hierárquica da palavra de personagem para identificação de idiomas.
- UniversalEpendências Docs - Documentação on -line de dependências universais http://universaldependências.org/docs/.
- Ferramentas da UniversityEpendências - vários utilitários para processar os dados.
- O VocBench Vocbench é uma ferramenta de fluxo de trabalho e de edição e edição e base baseada na Web que gerencia thesauri, listas de autoridade e glossários usando o SKOS-XL.
- Wavesurfer.js - Forma de onda navegável criada na Web Audio e Canvas https://wavesurfer-js.org/ (também possui um plugin Elan).
- Web-Template-Este é um modelo baseado na Web que pode ser usado para apresentar recursos de aprendizado de idiomas para ajudar os esforços de revitalização da linguagem. Inclui um dicionário falante e um phrasicon, contendo frases e frases.
- WebCorpus - Este projeto é uma coleção de scripts e programas para criar um WebCorpus a partir de dados rastejados.
- WIKT2DICT - Ferramenta de analisador do Wikcionário para muitas edições de idiomas.
- Wikipron - Recupera as pronúncias do IPA para entradas do Wikcionário
- O gerador de palavras WordGenerator gera palavras hipotéticas a partir de especificações de sua estrutura sílaba.
- WordBoundary - Um experimento na detecção e segmentação dos limites das palavras.
- WordByword-O WordByword é um treinador de vocabulário multimídia de código aberto e de código aberto gratuito, desenvolvido por Vera Ferreira, Peter Bouda e Ricardo Filipe em Cidles com o apoio da Fundação para idiomas ameaçados.
- WSI4urlang - Indução de Sensos de Palavras (WSI) para Línguas Riodenadas (Urlang).
- XDXF_MAKEITE - formato de dicionário XDXF e software de conversão de dicionário "Makedict" (repositório oficial).
Ajudadores de configuração de layout do teclado
- JQuery.ime - Editor de método de entrada jQuery usado na Wikipedia
- KBDGEN - Gere teclados e layouts de teclado para Windows, MacOS, X11, iOS, Android e Chrome, a partir de um único arquivo YAML simples. Também registra linguagens desconhecidas no Windows, para que, após a instalação, haja uma associação correta e robusta entre o código BCP 47 designado (incluindo suporte total para ISO 639-3) e ferramentas de idiomas instaladas, como teclados, verificadores ortográficos e outras ferramentas.
- Teclado - teclado virtual usando jQuery ~ https://mottie.github.io/keyboard/.
- Teclados - teclados de keyman de código aberto.
- Keyman - Métodos de entrada da plataforma de Keyman Cross. Keyman possibilita que você digite mais de 1.000 idiomas no Windows, iPhone, iPad, tablets e telefones Android e até instantaneamente no seu navegador da web. Site.
- KeyboardLayoutEditor - Editor de layout do teclado https://code.google.com/archive/p/keyboardlayouteditor/.
- Editor de layout do teclado-editor de layout do teclado http://www.keyboard-layout-editor.com
- LIPIKA-AME-MOTEM DO MÉTODO DE ENTRADA (IME) para Mac OS X com suporte integrado para todos os idiomas INDIX.
- XKEYBOLECONFIG - O banco de dados de configuração de teclado que não é do Arco para a janela X. O objetivo é fornecer o código aberto consistente, bem estruturado e frequentemente liberado dos dados de configuração do teclado X para implementações do sistema de janelas X (gratuito, código aberto e comercial). O projeto é direcionado para sistemas baseados em XKB.
Anotação
- AGTK - AGTK é um conjunto de componentes de software para criar ferramentas para anotar sinais linguísticos, dados de séries temporais que documentam qualquer tipo de comportamento linguístico (por exemplo, áudio, vídeo). As estruturas de dados internas são baseadas em gráficos de anotação. (O projeto original está no SourceForge: https://sourceforge.net/projects/agtk/).
- Brendano - Linguagem de fragmento de gráfico para anotação sintática fácil https://www.cs.cmu.edu/~ark/fudg/.
- Elan Elan é uma ferramenta profissional para a criação de anotações complexas em recursos de vídeo e áudio.
- EOPAS - Sistema de Apresentação e Anotação do Ethnoer Online.
- Flat - Folia Linginguistic Anotation Tool - A Flat é um ambiente de anotação lingüística baseada na Web baseada no formato Folia (http://proycon.github.io/folia/), um rico formato baseado em XML para anotação linguística. A Flat permite que os usuários visualizem documentos de folia anotados e enriquecem esses documentos com novas anotações, uma grande variedade de tipos de anotação linguística é suportada pelo paradigma de Folia. É uma ferramenta centrada no documento que preserva e visualiza totalmente a estrutura do documento.
- GFL_SYNTAX - Idioma de fragmento de gráfico para facilitar a anotação sintática https://www.cs.cmu.edu/~ark/fudg/.
- Graf-Python-A biblioteca Graf-Python é uma implementação de python de código aberto para analisar e gravar arquivos Graf/XML, conforme descrito na ISO 24612. O analisador da biblioteca cria um gráfico de anotação dos arquivos. O usuário pode consultar o gráfico de anotação através da API do Graf-Python.
- Kwaras - Ferramentas para a Gerenciamento de Elan Corpus.
- Alinhador de palavras ldc alinhador alinhador de palavras é uma ferramenta de software usada para anotação manual do alinhamento de palavras desenvolvido para apoiar tarefas de alinhamento em árabe e inglês e inglês-inglês. Possui uma interface limpa e fácil de usar. Desde o seu desenvolvimento em 2009, a LDC usou o Aligner de palavras LDC para gerar mais de 1.000.000 tokens de dados de alinhamento de palavras anotados de uma variedade de gêneros, incluindo transmissão, Newswire e fontes baseadas na Web. Site.
- POIO -ANALIDER - POIO é uma coleção de ferramentas de software para linguistas que trabalham em documentação de idiomas, lingüística descritiva e/ou tipologia de idiomas. Ele permite que os linguistas gerenciem e analisem seus dados. The Poio Interlinear Editor allows to add morpho-syntactic annotations to transcriptions. It supports various file formats for input, but will only output standardized XML defined by the Corpus Encoding Standard and the Text Encoding Initiative. Several tools for analyzing linguistic data will be made available to further process annotated data. Poio tools are written in Python and are based on PyQt.
- poio-api - Poio API is a free and open source Python library to access and search data from language documentation in your linguistic analysis workflow. It converts file formats like Elan's EAF, Toolbox files, Typecraft XML and others into annotation graphs as defined in ISO 24612. Those graphs, for which we use an implementation called “Graph Annotation F…
- pyannotation - PyAnnotation is a Python Library to access and manipulate linguistically annotated corpus files.
- XTrans Trans is a next generation multi-platform, multilingual, multi-channel transcription tool that supports manual transcription and annotation of audio recordings. The XTrans toolkit provides new and efficient solutions to common transcription challenges and addresses critical gaps in existing tools.Designed with input from experienced human transcribers working with real world data, XTrans provides a flexible and intuitive graphical user interface for a multitude of speech annotation tasks including (virtual) segmentation of audio into smaller units like turns and sentences; speaker identification; orthographic transcription in any language; and labeling of structural elements of the transcript like topics.
Format Specifications
- spec - The official specification for the DLx linguistic data format. https://digitallinguistics.github.io/spec/.
- FoLiA FoLiA: Format for Linguistic Annotation - FoLiA is a rich XML-based annotation format for the representation of language resources (including corpora) with linguistic annotations. A wide variety of linguistic annotations are support, making FoLiA a useful format for NLP tasks and data interchange. http://proycon.github.io/folia/
- xdxf_makedict - XDXF dictionary format and "makedict" dictionary converting software (official repository).
i18n-related Repositories
- Express-Lingua - An i18n middleware for the Express.js framework.
- Polyglot.js Give your JavaScript the ability to speak many languages.
- Transifex - System for providing a nice, userfriendly/project oriented approach to translating
.po files. Great for non-technical users, free for open-source projects, decent for minority languages; however , it can take a while to get a new language added to the Transifex system because the ticketing system Transifex uses results in them losing tickets sometimes. Provides translation memory, ability to appoint reviewers, etc. Transifex used to have an open source system that you could host on your own, but that seems to have disappeared.
Audio automation
- arctic-prompts - Generate prompts PDF for CMU ARCTIC dataset.
- AudioWebService - a simple nodejs server which accepts upload of audio and runs it through praat.
- AuToBI - Automatic prosodic annotation tool written in Java.
- BashScriptsForPhonetics - ( Fork of a dormant project).
- esv-text-audio-aligner - ESV Text/Audio Aligner to programmatically obtain the timings for each word in the corresponding audio.
- html5-audio-read-along - HTML5 Audio Read-Along.
- ipa-chart - International Phonetic Alphabet (IPA) Unicode Chart and Character Picker.
- kaldi-svn-archive - An read-only archive of the original Kaldi SVN repository (mainly to keep sandboxes available).
- lex4all - pronunciation LEXicons for Any Low-resource Language ( Fork of a student project).
- Montreal-Forced-Aligner - Python interface for forced text/speech alignment.
- node-pocketsphinx
- opensauce - GNU Octave-compatible version of VoiceSauce.
- pocketsphinx - PocketSphinx is a lightweight speech recognition engine, specifically tuned for handheld and mobile devices, though it works equally well on the desktop.
- pocketsphinx-ios-demo - Simple demo for iOS.
- pocketsphinx-python - Python module installed with setup.py.
- pocketsphinx-ruby - Ruby speech recognition with Pocketsphinx.
- pocketsphinx-wp-demo - Demo to run pocketsphinx on WP8 platform.
- pocketsphinx.js - Speech recognition in JavaScript.
- praat-py - From my PhD days: Praat-Py is a custom build of Praat, the computer program used by linguists for doing phonetic analysis on sound files, to allow for scripts to be written in the Python programming language, rather than in Praat's built-in language. ( Fork of a dormant project).
- Praat-Scripts - Mietta's Scripts.
- PraatTextGridJS - A small library which can parse TextGrid into json and json into TextGrid.
- PraatontheWeb - Web implementation of Praat. Source code, running demo scripts on web, samples and documentation.
- prosodicParsing - different kinds of HMMs to use for incorporating prosody into basic parsing.
- Prosodylab-Aligner - Python interface for forced audio alignment using HTK and SoX.
- prosodylab.alignertools
- Recordmp3js - Record MP3 files directly from the browser using JS and HTML.
- sphinx4 - Pure Java speech recognition library.
- sphinxbase
- sphinxtrain
- TLSphinx - Swift wrapper around Pocketsphinx.
Text-to-Speech (TTS)
- espeak - eSpeak is a compact open source software speech synthesizer for English and other languages, for Linux and Windows. http://espeak.sourceforge.net.
- MARY TTS - MARY TTS -- an open-source, multilingual text-to-speech synthesis system written in pure java http://mary.dfki.de.
- Ossian - Ossian is a collection of Python code for building text-to-speech (TTS) systems, with an emphasis on easing research into building TTS systems with minimal expert supervision.
Automatic Speech Recognition (ASR)
- Elpis - Elpis is software for creating speech recognition models and applying them to the transcription of audio. As of 2022, it gives access to Kaldi and Huggingface Transformers.
- kaldi - This is now the official location of the Kaldi project.
- Persephone - Persephone aims to make state-of-the-art phonemic transcription accessible to people involved in language documentation, who have a training corpus of about one to four hours of transcribed speech. As of 2022, Persephone is superseded by Elpis.
Text automation
- clld - Cross Linguistic Linked Data python library.
- LaTeX2HTML5 - LaTeX web components.
- MultilingualCorporaExtractor - Node io Spider for extracting multilingual corpora ( Fork of a student project).
- SeedLing - Building and Using A Seed Corpus for the Human Language Project ( Fork of a student project).
Experimentação
- experigen - A framework for creating linguistic experiments.
- GamifyPsycholinguisticsExperiments - A simple node server to gamify linguistics experiments, runs offline on a laptop for small scale experiements and online on a server for large scale experiments. Data is sent to a Google spreadsheet. ( Fork of a dormant project).
- OpenSesame - Graphical experiment builder for the social sciences.
- OPrime - Open Source Experimentation Libraries - Online and Offline for Android and HTML5.
- psychopyMegProsody - Runs MegProsody using PsychoPy.
- PsychScript - A HTML5/Javascript library for running behavioural experiments online.
Flashcards
- Anki - Anki is a program to make and share flaschard decks (including audio) for any language or writing system. https://apps.ankiweb.net/.
- awesome-anki - A curated list of awesome Anki add-ons, decks and resources.
- VocabLift - Language-learning tool that uses vocabulary from LIFT-format dictionaries produced by programs such as Fieldworks Language Explorer and WeSay.
Natural language generation
- OpenCCG - OpenCCG library for parsing and realization with CCG. Includes mini-grammars for Inuit, Nezperce, Basque and others.
Computing systems
- Common Language Resources and Technology Infrastructure Norway / Clarino - One of their projects (not clearly listed here) is about providing an online system for language analysis, so users can connect resources visually, dump in text, and get a result. Kind of like the Yahoo! Pipes but for language processing. Uses the ABEL cluster.
Android Applications
- Aikuma - Android software for recording and translation.
- Android Speech Recognition Trainer - Speech recognition training app for low resource languages which interfaces with FieldDB corpora.
- android-template - This is a template of an Android word-learning app that may be used a way to introduce a language. It includes a quiz. For the documentation, go to http://eddersko.github.io/android-template/.
- AndroidFieldDB - An Android app which lets the user build a custom visual and auditory vocabulary, useful for guided anomia treatment and self designed language lessons by heritage speakers.
- AndroidFieldDBElicitationRecorder - A general purpose video recording tool.
- AndroidLanguageLessons - Lets heritage speakers create self designed language lessons.
- AndroidProductionExperiment - Android App to run perception experiments.
- Bevara - Android Phone Application designed for Linguistic Fieldwork to help preserve, maintain, and save endangered languages.
- ojoVoz - A mobile app for sending georeferenced image and voice recordings from an Adroid phone to an email address. For more information, please go to http://sautiyawakulima.net/ojovoz/.
- pocketsphinx-android - pocketsphinx build for Android.
- pocketsphinx-android-demo
Chrome Extensions
- babelfrog - Chrome extension to help learn languages as you browse.
- DictionaryChromeExtension - Dictionary for websites in low-resource languages. App and codebase which connects to a Wiktionary to provide definitions of any term on any website (current languages Cherokee 194,426 entries, Inuktitut 251 entries, Kartuli 7,363 entries, Plains Cree (incubation) 0 entries) use.
FieldDB
FieldDB is actively worked on by the FieldDB (Formally known as OpenSourceFieldlinguistics) group. These repos explicitly work with it but could be repurposed for other projects.
- FieldDB - An offline/online field database which adapts to its user's terminology and I-Language, has plugins for various data automation routines along the process of primary data collection to cleaning to publication and archival. usar.
FieldDB Webservices/Components/Plugins
- AndroidLanguageLearningClientForFieldDB-sikuli - Sikuli tests for AndroidLanguageLearningClientForFieldDB.
- AuthenticationWebService - A node.js web service which mananges users and corpora creation and authentication.
- bower-fielddb-angular - A bower repository which hosts fielddb-angular components, bower install fielddb-angular --save.
- bower-fielddb - A bower repository which hosts fielddb core components, bower install fielddb --save.
- fielddb-spreadsheet-sikuli - sikuli tests for the spreadsheet module use.
- FieldDBActivityFeed - A fielddb activity feed widget which can be embedded in other codebases, websites etc use.
- FieldDBGlosser - A semi-unsupervised language independent morphological analyzer useful for stemming unknown language text, or getting a rough estimate of possible parses for morphemes in a word. bower install fielddb-glosser --save.
- FieldDBLexicon - A lexicon browser/editor web widget for FieldDB databases.
- LanguageClassDashboard - App which provides a view of FieldDB corpora for language teachers use.
- LexiconWebService - A node.js ElasticSearch wrapper for indexing/training lexicons from corpora.
- LexiconWebServiceSample - A node.js web server which implements the fieldlinguist's lexicon API for the FieldDB project.
Academic Research Paper-Specific Repositories
- Gargantua - Fast Unsupervised Sentence Aligner described in "Improved unsupervised sentence alignment for symmetrical and asymmetrical parallel corpora", COLING 2010.
- ldc-kiy - Materials for: The experimental state of mind in elicitation: illustrations from tonal fieldwork. Dubmitted to Language Documentation & Conservation, How to study a tone language .
- Learning to map into a Univerisal POS tagset Yuan Zhang, Roi Reichart, Regina Barzilay and Amir Globerson
- low-resource-pos-tagging-2014 and low-resource-pos-tagging-2014 Published in: Learning a Part-of-Speech Tagger from Two Hours of Annotation. Dan Garrette and Jason Baldridge . In Proceedings of NAACL 2013. And in: Real-World Semi-Supervised Learning of POS-Taggers for Low-Resource Languages. Dan Garrette, Jason Mielens, and Jason Baldridge . In Proceedings of ACL 2013.
- orthotree - Linguistic family tree based on orthographic distance.
- type-supervised-tagging-2012emnlp This repository contains the code, scripts, and instructions needed to reproduce the results in the paper: Type-Supervised Hidden Markov Models for Part-of-Speech Tagging with Incomplete Tag Dictionaries. Dan Garrette and Jason Baldridge . In Proceedings of EMNLP 2012. This code is frozen as of the version used to obtain the results in the paper. It will not be maintained. To see the updated code, visit nlp
- visualizing-language - For visualizations of WALS and other typological databases.
- WALS-APiCS - Code for working with WALS-APiCS (Atlas of Pidgin and Creole Language Structures) complexity metrics.
Example Repositories
These are repositories that are generally only interesting for training purposes or seeing how something is done.
- CorpusWebService - über-simple node.js-Proxy to enable CORS request for couchdb.
- CorporaForFieldLinguistics - Small corpora from diverse language typologies, useful for testing scripts.
- startR
- lucenerevolution-2013 - Demo examples for linguistics in Lucene and Solr.
- berlin-buzzwords-2013 - Demo examples for Lucene, Solr, ElasticSearch and OpenNLP from Berlin Buzzwords 2013 talk.
Fontes
- fontinline - Make inline stroke paths from an outline font.
- Noto Fonts - Noto is Google's free font family that aims to support all the world's scripts. Its design goal is to achieve visual harmonization across languages. Noto fonts are under Apache License 2.0.
- Unicodify Unicodify is a suite of programs for converting text in a variety of 8-bit encodings to Unicode (using the UTF-16 encoding). Unicodify was particularly designed to handle HTML-based text using non-ISCII 8-bit fonts to render South Asian scripts. However, elements of the suite can map other types of non-ASCII 8-bit encodings, such as Latin-2, ISCII and PASCII.
Corpora
These corpora are useful for working with tools on endangered languages. Monolingual corpora that are more for archival efforts should most likely not be included here.
- bible-corpus - A multilingual parallel corpus created from translations of the Bible.
- poio-corpus - The Poio Corpus is a freely available collection of language resources for the lesser-used languages. The data is extracted from free sources like Wikipedia, dictionaries, documents, websites and others.
Organizations
On GitHub
- batumi - Speech recognition and natural language processing for low-resource languages
- BloomBooks
- unicode-cldr - Unicode Common Locale Data Repository (CLDR) Project http://cldr.unicode.org
- cmusphinx - Mirror of the SourceForge repositories
- dativebase - Tools for working with OLD.
- divvun - The Divvun group at UiT develops proofing tools, keyboard apps and other language technology solutions for indigenous and minority languages, especially the Sámi languages. Site.
- FieldDB
- GiellaLT - home for keyboard layouts, lexicons and morphologies for indigenous and minority languages, especially for morphologically complex languages, using mainly rule-based techonlogies. The resources are used by Divvun (above) and Giellatekno (below) to build a number of tools for the language communities. Almost everything is open source.
- HFST - Helsinki Finite-State Technology. Site.
- hunspell
- keymanapp - Website.
- langtech - Language Technology Group, University of Melbourne
- lex4all
- longnow
- MontrealCorpusTools
- moses-smt - Statistical Machine Translation.
- mukurtucms
- NLTK - Natural Language Toolkit.
- PhonologicalCorpusTools)
- Projet de recherche sur l'écriture - Crowdsourcing or conducting large scale psycholinguistics experiments (or statistically significant field linguistics).
- prosodylab - Prosodylab at McGill University, Canada
- SIL International (Dev) SIL International- Another SIL organization, with many repositories.
- SIL International - SIL (originally known as the Summer Institute of Linguistics, Inc.) is probably the leading organization which provides software and tools tailored for use by field linguists and lexicographers working on endangered languages. A little known fact is that much of it's code is open sourced on GitHub and SIL is happy to recieve open source contributions and collaborate on open source projects.
- SIL NRSI - SIL Non-Roman Script Initiative. The NRSI is a department of SIL International, whose task is to provide assistance, research and development for SIL International and its partners to support the use of non-Roman and complex scripts in language development.
- StanfordNLP https://nlp.stanford.edu
- ucsd-field-lab - University of California, San Diego
- UniversalDependencies - Universal Dependencies (UD) is a project that is developing cross-linguistically consistent treebank annotation for many languages, with the goal of facilitating multilingual parser development, cross-lingual learning, and parsing research from a language typology perspective. The annotation scheme is based on an evolution of (universal) Stanford dependencies (de Marneffe et al., 2006, 2008, 2014), Google universal part-of-speech tags (Petrov et al., 2012), and the Interset interlingua for morphosyntactic tagsets (Zeman, 2008). The general philosophy is to provide a universal inventory of categories and guidelines to facilitate consistent annotation of similar constructions across languages, while allowing language-specific extensions when necessary.
- utcompling - The University of Texas at Austin's Computational Linguistics Lab. Site.
Other OSS Organizations
- Giellatekno - Giellatekno combines cutting-edge linguistic and computational research into the analysis of Saami and other morphologically-rich languages, with the development of practical applications. We focus on deep linguistic modeling and on highly efficient and robust computational analysis with a wide empirical coverage. They use svn for their code: all of it can be found here, sorted by language.
- LOWLANDS - LOWLANDS – Parsing low-resource languages and domains https://ccc.ku.dk/research/lowlands/
- LTRC: Language Technologies Research Center IIIT Hyderabad LTRC addresses the complex problem of understanding and processing natural languages in both speech and text mode. LTRC conducts research on both basic and applied aspects of language technology. It is the largest academic centre of speech and language technology in South Asia. LTRC carries out its work through four labs, which work in synergy with each other, as listed above.
- The Language Archive Part of the MPI
Tutoriais
- How to Write a Spelling Corrector by Peter Norvig.
Language Specific Projects
For each language, we include the ISO 639-3 code, and the main autonym for that language.
afrikaans
afr :: Afrikaans
- Afrikaanse rekenaarlinguïstiek (Afrikaans computational linguistics) — wordlists, corpora, morphological analyser, tagger, word decompounder. Available upon email.
albanês
sqi :: shqip
- Apertium rules for Albanian - Machine Translation rules
- out-of-copyright-albanian-authors - authors scraped from the albanian language wikipedia who are out of copyright.
- Plis keyboard - The Plis keyboard is a keyboard or computer keyboard layout for the Albanian language.
- spell checking - Here you find a collection of Albanian words and information about them. Aspell, Ispell, and MySpell are included.
Alutiiq
ems :: sugpiaq
- wiinaq - Word Wiinaq is a Kodiak Alutiiq dictionary web application with automatically generated ending tables and souped-up search capabilities. It is written in Python using Django.
Amárico
amh :: አማርኛ
- HornMorpho - Morphological analysis and generation of Amharic and Oromo verbs and nouns and Tigrinya verbs
Basco
eus :: euskara
- Matxin - An open-source transfer machine translation engine. Linguistic information for the translation from Spanish and Basque (es-eu) is included.
bengali
ben :: বাংলা
- Bangla-অঙ্কুর for Mac This project aims to develop a phonetic based Bangla typing system for Macintosh computer which can be developed into a transliteration technique in the future.
- Bengali Writer - `Bengali Writer' is a set of utilities for computerized editing and typesetting in Bengali, a language of India and Bangladesh. It comprises a set of fonts for Bengali in several formats (METAFONT, BDF, PS), a text editor with spell-cheking, export, and more. (Original project is on SourceForge: https://sourceforge.net/projects/bengaliwriter/).
- Ekushey Bangla Computing and Localization Project for the Bangla speaking people.
- Lekho - A collection of tools and resources for using bangla on computers (Original project is on SourceForge: https://sourceforge.net/projects/lekho/).
Chichewa
nya :: chicheŵa
- Chichewa - NLP resources for Chichewa.
Galian
glg :: galego
- an-metri-gal - Análise métrico de texto en verso en lingua galega (Galician language) gl-ES
- android_gl_dict - Android Galician (gl_ES) Keyboard Dictionary
- aspell-gl - Galician dictionary for aspell
- CitiusSentiment - Sentiment analysis (opinion mining) for Portuguese, English, Spanish, and Galician
- CitiusTagger - A PoS-Tagger and Named Entity Classification tool for Portuguese, English, Galician, and Spanish
- Conshuga - Galician verb conjugator
- corpora - This is a collection of corpus of Galician (or related to Galicia) words / Colección de corpus de palabras en galego (ou relacionadas con Galicia)
- DepPattern - Dependency Syntactic Parsing for Portuguese, Spanish, English, and Galician, including MetaRomance parser
- DOGA_scraper - Galician Official journal scraper
- elFinder-language - Galician - Gallego / language for elFinder
- EuroWordNetLemon - EuroWordNet lemon lexicons generated from the LMF versions of the Multilingual Central Repository (MCR) EuroWordNet lexicons. It includes lexicons for Spanish, Catalan, Basque & Galician.
- GalegoDroid - Galician Translator for Android
- galeXtra - Multiword Extractor for Portuguese, English, Spanish, Galician, French
- Galician-Dependency-Treebank - This Galician Dependency Treebank has been developed by transliterating and adapting lexically the Portuguese part (Bosque 7.3 by the Floresta sintá(c)tica project) of the CONLL-X 2006.
- Galician-Fuzzy-Text-watch - Based on Fuzzy Text International by Jesse Hallett, uses the galician language to display time.
- galician-locale-for-mac - Galician locale for Mac OS X
- gl-syllabler - Split galician language words into syllables
- gl- Galician OmegaT Localisation
- hunspell-gl-ciencias - Project oriented into developing a science and maths Galician language Hunspell dictionary
- hunspell-gl - Galician hunspell dictionaries
- hyphen-gl - Galician hyphenation rules
- javagalician-java6 - The Java Galician Locale is an implementation of Java localization SPIs which will allow the Java VM to use the Galician Language (locales "gl" and "gl_ES"), one of the official languages of Spain, which is not included in Sun's JVM distribution.
- Linguakit - Multilingual toolkit for NLP: dependency parser, PoS tagger, NERC, multiword extractor, sentiment analysis, etc.
- ParlamentoGalicia - Project based on the information extracted from the transcriptions of the sessions held in the Galician Parlament
- poss-gl - Galician translation of Producing Open Source Software, by Karl Fogel
- rima - Find rhyming words in galician language.
- stopwords-gl - Galician stopwords collection
- texlive-babel-galician - TeXLive babel-galician package
- UD_Galician-CTG - The Galician UD treebank is based on the automatic parsing of the Galician Technical Corpus created at the University of Vigo by the the TALG NLP research group.
- UD_Galician-TreeGal - The Galician-TreeGal is a treebank for Galician developed at LyS Group (Universidade da Coruña).
- UL_Galician-TreeGal - CoNLL-UL Repository for UD_Galician-TreeGal
Apertium
- apertium-cat-glg - Apertium translation pair for Catalan and Galician
- apertium-dict-en-gl - English-Galician language pair for Apertium
- apertium-dict-es-gl - Spanish-Galician language pair for Apertium
- apertium-dict-pt-gl - Portuguese-Galician language pair for Apertium
- apertium-en-gl - Apertium translation pair for English and Galician
- apertium-es-gl - Apertium translation pair for Spanish and Galician
- apertium-glg - Apertium linguistic data for Galician
- Apertium-pt-gl.pt-gl-LMF - This is the LMF version of the Apertium bilingual ditionary for Portugues and Galician languages
- apertium-pt-gl - Apertium translation pair for Portuguese and Galician
Georgiano
kat :: ქართული
- awesome-georgia - A curated list of awesome libraries and packages specific/related to Georgia (country).
- Gadatsqvetilebebi - გადაწყვეტილებები; Web spider and corpora importer for public legal decisions.
- GeoWordsDatabase - Around 310 000 unique Georgian words https://bumbeishvili.github.io/GeoWordsDatabase/.
- Kartuli Speech Recognition - ანდროიდის ქართველი მომხმარებლებისთვის სიტყვის ამოცნობის სისტემის შექმნა. Codebase to turn any webpage from any alphabet into another alphabet, the default is to turn latin letters into Kartuli. use "Do your friends keep commenting on Facebook with English keyboards (either because they forgot to switch, or because they didn't/can't install a Georgian keyboard)? Now you can read the web through კართული eyes.".
- KartuliChromeExtension - Chrome აპლიკაცია, რომელიც ყველა ინგლისურ ასო-ბგერას აჩვენებს ქართულ ასო-ბგერად.
- QartuliDaBunebismetkveleba - მათემატიკისა და ბუნებისმეტყველების ინტერაქტიული სახელმძღვანელო მე-2 - მე-3 კლასის მოსწავლეებისათვის.
- SakartvelosUzenaesiSasamartloSarke - საქართველოს უზენაესი სასამართლო სარკე.
- SamartlosSakonstitutsioSasamartdoSarke - სამართლოს საკონსტიტუციო სასამართდო სარკე.
- translitit-latin-to-mkhedruli-georgian - A Latin to ქართული (Mkhedruli Georgian) transliteration function written in JavaScript.
- translitit-mkhedruli-georgian-to-ipa - A Latin to ქართული (Mkhedruli Georgian) transliteration function written in JavaScript.
- Declensions - Methods to generate declensions for Georgian language
Fontes
- Stichoza/font-larisome - Iconic font for Georgian currency inspired by Font-Awesome (CSS).
- Lotuashvili/BPGNateli - Bower package for BPG Nateli font (CSS).
- thecotne/georgian-webfonts - Package for georgian fonts (CSS).
Internationalization and Localization (i18n/l10n)
- Stichoza/money-num-to-string - Convert a number/money to localized string (PHP, JavaScript).
- natchkebiailia/NumberToWord - Convert numbers to localized strings (JavaScript).
- d0ragon/number-to-words-ka - Convert numbers to localized strings (PHP).
- dimakura/ka - Common functionality for georgian projects (Ruby).
- dimakura/ka.js - Georgian language support for node and browser (JavaScript).
- akalongman/kautilities - Convert Georgian letters to Latin and vice-versa (PHP).
- Landish/Laravel-Ka - Laravel Georgian Language Pack.
- Landish/RedactorJS-GE - Redactor WYSIWYG HTML Editor Georgian Language Pack (JavaScript).
- wenzhixin/bootstrap-table - Bootstrap table with extra features. l10n by @Lotuashvili and @Stichoza.
- moment/moment - A lightweight date library (JavaScript).
- ioseb/geokbd - Georgian keyboard library (JavaScript).
Guarani
grn :: Guarani
- ParaMorfo - morphological analysis and generation of Spanish and Guarani verbs, nouns, and adjectives.
Hausa
hau :: هَرْشَن هَوْسَ
- Hausa - Repository for Hausa NLP tools.
hindi
hin :: हिन्दी
- hindi-morph - An open source morphological analyzer for Hindi.
Høgnorsk
nno :: Høgnorsk
- hunspell-hn_NO - A beginning to a spellchecking tool for Høgnorsk, a conservative variant of Norwegian Nynorsk, based on a set of corpuses.
islandês
isl :: íslenska
- IceNLP - IceNLP is an open source Natural Language Processing (NLP) toolkit for analyzing and processing Icelandic text. The toolkit is implemented in Java.
Inuktitut
iku :: Inuktitut
- InuktitutAlignerData - Scripts for alignment of laboratory speech production data.
- InuktitutComputing - Inuktitut Morphological Analyser, transcoder, transliterator, corpus tools, and lexical lists for working with Inuktitut. Usable online at http://inuktitutcomputing.ca/index.php.
irlandês
gle :: Gaeilge
- aimsigh - Source for the now-defunct aimsigh.com Irish search engine.
- caighdean - Code for standardizing Irish language text.
- fleiscin - Irish hyphenation patterns for TeX https://cadhan.com/fleiscin/.
- GaelSpell - Sources for an Irish language spell checker.
- tesseract-gle-uncial - OCR for old Irish fonts.
Kinyarwanda
kin :: Ikinyarwanda
- kin-morph-fst - Kinyarwanda morphological analyzer.
- TurboTagger & TurboParser for Kinyarwanda (download) TurboTagger & TurboParser for Kinyarwanda
curdo
kur :: Kurdî
- Kurlex - Morphological analyser and lexicon, written in the Alexina framework, licensed under the LGPL-LR.
- kurmanji-stemmer - NLTK based kurmanji stemmer
Lingala
lin :: Lingála
- Lingala NLP NLP tools and resources for Lingala
Lushootseed
lut :: Lushootseed
- Lushootseed - Joshua Crowgey's work on Lushootseed http://students.washington.edu/jcrowgey/lushootseed/.
malaio
msa :: Bahasa Melayu
- MorfoMalayu - morphological analysis of Malay words.
malgaxe
mlg :: Malagasy
- Global Voices Malagasy Project This page provides a link to a corpus of parallel news articles in Malagasy and English from the Global Voices project. This corpus was collected and aligned at the sentence level by Victor Chahuneau.
Manx
glv :: Gaelg
- aspell-gv - Manx Gaelic dictionary for aspell.
- gaelg - NLP resources for Manx Gaelic, mainly in support of the gv2ga MT engine.
Migmaq
mic :: Mi'kmaq
- migmaq-lessons - Repository for website building Mi'gmaq language lessons.
Minderico
drc :: Piação do Ninhou
- fredericajordarzambarino - A web based game for mobile devices in minderico based in the "Who Wants to be a Millionaire" TV show.
Nishnaabe
oji :: Ojibwe, Oddawa, Chippewa, Anishinaabemowin, ᐊᓂᔑᓈᐯᒧᐎᓐ
- Ojibway-iphone-app - An iPhone app with audio and images for learning the Ojibway language.
- OjibwayMap - An iPhone app with audio and images for learning Ojibway language and culture.
- nishanimate - A desktop app to facilitate Nishnaabe-language acquisition via animations produced by the natural language processing of audio-accompanied text.
Oromo
orm :: Oromo
- hornmorpho - morphological analysis and generation of amharic and oromo verbs and nouns. and tigrinya verbs
Quechua
que :: Runa Simi
- AntiMorfo - morphological analysis and generation of Quechua nouns, adjectives, and verbs and Spanish verbs.
- Morphology, spellchecker - XFST and FOMA, plus OpenOffice plugin.
Sami
sma :: Sámi/Saami
- divvun-webdemo - simple webdemo for divvun grammar checker. Site.
- Giellatekno A host of Sámi tools.
- Mobile keyboards (iOS and Android), learning apps, dictionaries, morphologies, syntax disambiguators, some amount of project collaboration with Apertium on shallow translation between Saami languages, and
- Oahpa! - A learning portal for Saami languages. Includes WordPress based, media rich lesson-based learning, and morphological and syntactic exercizes generated from the morphological and syntactic tools
- Neahttadigisánit - A morphologically sensitive dictionary, with modes for 'social media input' (which allows users to type a 'relaxed' version of the orthography ( acdnstz will be recognized also as áčđŋšŧz̄ ), and also includes a JavaScript bookmarklet to offer click-to-read dictionary lookup functionality. Also available for other Uralic, and non-Uralic languages. Giellatekno does a lot for other minority Uralic languages. Following are some keywords for CTRL+F friendliness:
- Saami languages: North Saami, Lule Saami, South Saami // Inari Saami, Kildin Saami, Pite Saami, Skolt Saami.
- Other Uralic languages: Erzya, Finnish, Hill Mari, Ingrian, Khanty, Kven, Komi, Livonian, Meadow Mari, Moksha, Nenets, Nganasan, Olonetsian, Udmurt, Veps.
- Other languages: Buriat, Cornish, Faroese, Greenlandic, Iñupiaq, Northern Haida, Ojibwe, Plains Cree, Russian.
Gaélico escocês
gla :: Gàidhlig
- aspell-gd - Scottish Gaelic dictionary for aspell.
- briathrachan - This is the source code to Briathrachan, a Gaelic-English dictionary app for iOS.
- gaidhlig - NLP resources for Scottish Gaelic, mainly in support of gd2ga/ga2gd MT engines.
- gd-fcfg - Context-free feature-based grammar of Scottish Gaelic in the NLTK format.
- gdbank - Some tools and resources for natural language processing of Scottish Gaelic. https://www.tantallon.org.uk/cggblog/.
- hunspell-gd - Files for building Scottish Gaelic spell checkers.
Secwepemctsín
shs :: Secwepemctsín
- secwepemctsnem - A project to help people learn Secwepemctsín.
Somali
som :: Soomaaliga
- somorph - Somali morphological and syntactic analyzers and generators built on XFST and VISL-CG Constraint Grammar. Up to date version checked in on Giellatekno's repository.
- qaamuus.net morphologically aware dictionary based on lexical resources found online, and the somali morphology.
Tigrinya
tir :: ትግርኛ
- HornMorpho - morphological analysis and generation of Amharic and Oromo verbs and nouns and Tigrinya verbs.
Uralic
urj :: Uralic languages
- UralicNLP - A Python library for processing Uralic languages (Finnish, Skolt Sami, Erzya, Moksha, Komi-Zyrian and so on). The library provides an easy programmatic access to Giellatekno resources such as FST morphology and CG disambiguators. Other functionalities include UD parser, API for the Online Dictionary of Uralic Languages and interface to SemFi and SemUr semantic databases. The library is under active development and new features are added from time to time.
zulu
zul :: zulu
- Ukwabelana An open-source morphological Zulu corpus
Licença
© Richard Littauer 2014-2017