A tecnologia de voz está decolando em grande parte. Para organizações, empresas e indivíduos que tentam entender a voz e onde está em suas arquiteturas técnicas, pode ser realmente confuso entender as ofertas de código aberto que estão por aí.
Este repositório é uma lista de ferramentas de voz de código aberto conhecido, estruturadas por onde essas ferramentas estão na pilha de voz.
| Site | Nome da ferramenta | Licença | Descrição |
|---|---|---|---|
| OpenSlr.org | Recursos de linguagem de fala aberta | N / D | Dirigido por @danpovey, que também é um mantenedor-chave do discurso Kaldi-ASR para a ferramenta de texto |
| kaldi-asr.org | Kaldi Automatic Reconhecimento de fala Kit. | Apache 2 | Um dos primeiros kits de ferramentas de reconhecimento de fala de código aberto. A referência acadêmica é: Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Silovsky, J. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. CONF). IEEE Signal Processing Society. |
| Site | Nome da ferramenta | Licença | Descrição |
|---|---|---|---|
| Flowtron por Nvidia | Uma ferramenta de sintetização de fala baseada em tacotron que pode ser ajustada para pitch e prosódia, diferenciando-a de outras implementações TTS baseadas em tacotron | Apache2 | Lançado pela primeira vez na conferência do GTC 2020 em maio de 2020. O artigo acadêmico é AVAIALBLE aqui. Citação é Valle, R., Shih, K., Prenger, R., & Catanzaro, B. (2020). Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis. arXiv preprint arXiv:2005.05957. |
^ Este é um ótimo artigo que explica as diferenças nas evoluções ou gerações de texto para a fala - da paramétrica concatenativa a estatística a generativa . Abordagens TTS mais modernas, como Tacotron e Wavenet, são abordagens generativas .
| Site | Nome da ferramenta | Licença | Descrição |
|---|---|---|---|
| Mindmeld por Cisco | . | Apache2 | A plataforma de IA de conversação da MindMeld está entre as plataformas de IA mais avançadas para criar aplicativos de conversação com qualidade de produção. É uma estrutura de aprendizado de máquina baseada em Python que abrange todos os algoritmos e utilitários necessários para esse fim. Evoluiu ao longo de vários anos de construção e implantação de dezenas das experiências de conversação mais avançadas alcançáveis, o MindMeld é otimizado para a criação de assistentes de conversação avançados que demonstram compreensão profunda de um caso ou domínio de uso específico, fornecendo experiências de conversação altamente úteis e versáteis. A referência acadêmica para esta ferramenta é: |
Raghuvanshi, A., Carroll, L. e Raghunathan, K., 2018, novembro. Desenvolvimento de interfaces de conversação no nível de produção com análise semântica superficial. Em Anais da Conferência de 2018 sobre métodos empíricos no processamento de linguagem natural: demonstrações do sistema (pp. 157-162) |
Mycroft.ai - Um assistente de voz em camadas de código aberto que funciona em uma variedade de hardware compatível com Linux, como dispositivos X86 ou ARM, como o Raspberry Pi. Apoiado por uma forte comunidade de desenvolvedores de código aberto.
Projeto Oval / Genie em Stanford - Fundado pela Alfred P Sloan Foundation e por uma concessão do NIST, o Projeto Oval de Stanford visa fornecer uma alternativa de código aberto aos assistentes de voz comercial. O projeto está atualmente em sua infância e está tentando construir uma comunidade de código aberto.
Python Natural Language Toolkit NLTK - O NLTK é uma plataforma líder para a criação de programas Python para trabalhar com dados de linguagem humana. Ele fornece interfaces fáceis de usar para mais de 50 corpora e recursos lexicais, como o WordNet, juntamente com um conjunto de bibliotecas de processamento de texto para classificação, tokenização, decorrer, marcação, análise e raciocínio semântico, embalagens para bibliotecas de NLP de resistência industrial e um fórum de discussão ativa.
ECCO Expliqueab - A ECCO é uma biblioteca Python que fornece explicação para a PNL usando visualizações interativas.
O código -fonte do Detext Detext é uma estrutura de compreensão de texto profundo para tarefas de classificação, classificação e geração de idiomas relacionadas ao PNL. Ele aproveita a correspondência semântica usando redes neurais profundas para entender os intenções dos membros nos sistemas de pesquisa e recomendação. Como uma estrutura geral de PNL, atualmente o detect pode ser aplicado a muitas tarefas, incluindo classificação de pesquisa e recomendação, classificação de várias classes e tarefas de compreensão de consultas. Publicado pela equipe de IA no LinkedIn.
PGLEX - Apresentado pela primeira vez na conferência ICLDC 7 em 2021, o PGLEX é um serviço lexical 'muito bom' projetado para facilitar a construção de sites de dicionário e outros aplicativos que incorporam dados lexicais. Com o PGLEX, os pesquisadores podem fornecer entradas lexicais no formato JSON para uma instância da API do PGLEX e obter resultados de pesquisa 'muito bons' sem exigir configurações específicas de linguagem. Construído no Elasticsearch.
A Artie Bias Corpus - um corpus e um conjunto de ferramentas para detectar o viés demográfico nos sistemas ASR.
[Blodgett, SL, Barocas, S., Daumé III, H. e Wallach, H. (2020). Linguagem (tecnologia) é poder: uma pesquisa crítica de "viés" na PNL. Arxiv pré -impressão arxiv: 2005.14050.] https://arxiv.org/pdf/2005.14050.pdf
Alinhadores forçados ajudam a alinhar gravações de áudio com transcrição ortográfica
ActiveClean - ActiveClean é uma estrutura de limpeza iterativa que pode treinar corretamente o modelo de aprendizado de máquina quando os dados são limpos e fornece um conjunto de otimizações para selecionar os melhores dados a serem limpos. Dessa forma, você só precisa limpar um pequeno subconjunto dos dados para produzir um modelo semelhante ao se o conjunto de dados completo foi limpo. Escrito em Python.
DatalInter - O Linnter de dados identifica possíveis problemas (fiapos) em seus dados de treinamento de ML.
Holoclean - Sistema de aprendizado de máquina para enriquecimento de dados
_Há também BoostClean da Universidade de Columbia, mas não consigo encontrar uma referência de código em nenhum lugar da web.
Existem muitos termos e acrônimos na tecnologia de voz de código aberto. Esta seção fornece explicações para cada uma delas.
Cognitive arbitration : o processo que um assistente de voz usa para entender quais serviços e habilidades estão disponíveis, dependendo de seu contexto - como estar online ou offline.
CRF : campo aleatório condicional. Um método de modelagem estatística que pode levar em consideração o contexto. Utilizado em algum software de panificação de intenção baseado em rede neural e extração semântica.
LSTM : Memória de curto prazo de longo prazo. Usado em redes neurais recorrentes para ajudar a processar sequências de dados, como áudio ou fala. Para saber o que provavelmente virá a seguir , o LSTM registra o que veio anteriormente .
LVCSR : grande reconhecimento contínuo de fala vocabulário. Usados em ferramentas de reconhecimento de fala para denotar que a) o vocabulário no qual o reconhecedor trabalha não foi restrito ou restrito - por exemplo, se for implantado em hardware incorporado ou de baixa potência, que não pode lidar com a memória ou calcular os requisitos de uma palavra -chave ou a palavra -chave de vocabulário e que o reconheceu o controlador de contraste, em contraste, uma palavra de despertar ou acordar.