opensource voice tools Download - opensource voice tools Download do código -fonte

opensource voice tools

Código-Fonte de IA

1.0.0

Baixar

Uma lista de ferramentas de voz de código aberto

Introdução

A tecnologia de voz está decolando em grande parte. Para organizações, empresas e indivíduos que tentam entender a voz e onde está em suas arquiteturas técnicas, pode ser realmente confuso entender as ofertas de código aberto que estão por aí.

Este repositório é uma lista de ferramentas de voz de código aberto conhecido, estruturadas por onde essas ferramentas estão na pilha de voz.

Transcrição

Duca, Daniela. "Interrompendo a transcrição - como a automação está transformando um método de pesquisa fundamental". Impacto das ciências sociais (blog), 17 de setembro de 2019. https://blogs.lse.ac.uk/impactofsocialsciences/2019/09/17/disrupting-transcription-how-technology-is-transforming-a-foundational-research-method/.

Palavras de vigília

Discurso para texto

Site	Nome da ferramenta	Licença	Descrição
OpenSlr.org	Recursos de linguagem de fala aberta	N / D	Dirigido por @danpovey, que também é um mantenedor-chave do discurso Kaldi-ASR para a ferramenta de texto
kaldi-asr.org	Kaldi Automatic Reconhecimento de fala Kit.	Apache 2	Um dos primeiros kits de ferramentas de reconhecimento de fala de código aberto. A referência acadêmica é: `Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Silovsky, J. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. CONF). IEEE Signal Processing Society.`

Intenção de análise

Resolução de intenções

Texto para fala

Site	Nome da ferramenta	Licença	Descrição
Flowtron por Nvidia	Uma ferramenta de sintetização de fala baseada em tacotron que pode ser ajustada para pitch e prosódia, diferenciando-a de outras implementações TTS baseadas em tacotron	Apache2	Lançado pela primeira vez na conferência do GTC 2020 em maio de 2020. O artigo acadêmico é AVAIALBLE aqui. Citação é `Valle, R., Shih, K., Prenger, R., & Catanzaro, B. (2020). Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis. arXiv preprint arXiv:2005.05957.`

Mwiti, Derrick. "Um guia de 2019 para a síntese de fala com aprendizado profundo". Média, 23 de junho de 2020.

^ Este é um ótimo artigo que explica as diferenças nas evoluções ou gerações de texto para a fala - da paramétrica concatenativa a estatística a generativa . Abordagens TTS mais modernas, como Tacotron e Wavenet, são abordagens generativas .

Chatbots e ferramentas de interface do usuário de conversação

Site	Nome da ferramenta	Licença	Descrição
Mindmeld por Cisco	.	Apache2	A plataforma de IA de conversação da MindMeld está entre as plataformas de IA mais avançadas para criar aplicativos de conversação com qualidade de produção. É uma estrutura de aprendizado de máquina baseada em Python que abrange todos os algoritmos e utilitários necessários para esse fim. Evoluiu ao longo de vários anos de construção e implantação de dezenas das experiências de conversação mais avançadas alcançáveis, o MindMeld é otimizado para a criação de assistentes de conversação avançados que demonstram compreensão profunda de um caso ou domínio de uso específico, fornecendo experiências de conversação altamente úteis e versáteis. A referência acadêmica para esta ferramenta é:

Raghuvanshi, A., Carroll, L. e Raghunathan, K., 2018, novembro. Desenvolvimento de interfaces de conversação no nível de produção com análise semântica superficial. Em Anais da Conferência de 2018 sobre métodos empíricos no processamento de linguagem natural: demonstrações do sistema (pp. 157-162) |

Assistentes de voz invólucros

Mycroft.ai - Um assistente de voz em camadas de código aberto que funciona em uma variedade de hardware compatível com Linux, como dispositivos X86 ou ARM, como o Raspberry Pi. Apoiado por uma forte comunidade de desenvolvedores de código aberto.
Projeto Oval / Genie em Stanford - Fundado pela Alfred P Sloan Foundation e por uma concessão do NIST, o Projeto Oval de Stanford visa fornecer uma alternativa de código aberto aos assistentes de voz comercial. O projeto está atualmente em sua infância e está tentando construir uma comunidade de código aberto.

Processamento de linguagem natural (NLP)

Python Natural Language Toolkit NLTK - O NLTK é uma plataforma líder para a criação de programas Python para trabalhar com dados de linguagem humana. Ele fornece interfaces fáceis de usar para mais de 50 corpora e recursos lexicais, como o WordNet, juntamente com um conjunto de bibliotecas de processamento de texto para classificação, tokenização, decorrer, marcação, análise e raciocínio semântico, embalagens para bibliotecas de NLP de resistência industrial e um fórum de discussão ativa.
ECCO Expliqueab - A ECCO é uma biblioteca Python que fornece explicação para a PNL usando visualizações interativas.
O código -fonte do Detext Detext é uma estrutura de compreensão de texto profundo para tarefas de classificação, classificação e geração de idiomas relacionadas ao PNL. Ele aproveita a correspondência semântica usando redes neurais profundas para entender os intenções dos membros nos sistemas de pesquisa e recomendação. Como uma estrutura geral de PNL, atualmente o detect pode ser aplicado a muitas tarefas, incluindo classificação de pesquisa e recomendação, classificação de várias classes e tarefas de compreensão de consultas. Publicado pela equipe de IA no LinkedIn.
PGLEX - Apresentado pela primeira vez na conferência ICLDC 7 em 2021, o PGLEX é um serviço lexical 'muito bom' projetado para facilitar a construção de sites de dicionário e outros aplicativos que incorporam dados lexicais. Com o PGLEX, os pesquisadores podem fornecer entradas lexicais no formato JSON para uma instância da API do PGLEX e obter resultados de pesquisa 'muito bons' sem exigir configurações específicas de linguagem. Construído no Elasticsearch.

Preconceito em assistentes de voz e NLP

A Artie Bias Corpus - um corpus e um conjunto de ferramentas para detectar o viés demográfico nos sistemas ASR.
[Blodgett, SL, Barocas, S., Daumé III, H. e Wallach, H. (2020). Linguagem (tecnologia) é poder: uma pesquisa crítica de "viés" na PNL. Arxiv pré -impressão arxiv: 2005.14050.] https://arxiv.org/pdf/2005.14050.pdf

Reconhecimento de oradores

Kit de ferramentas de código aberto para reconhecimento de alto -falante - um kit de ferramentas de reconhecimento de alto -falante de código aberto, de plataforma cruzada da Laboratoire Informatique d'Avignon, França.

Alinhadores forçados

Alinhadores forçados ajudam a alinhar gravações de áudio com transcrição ortográfica

Enéias | O DOCS é uma biblioteca Python/C e um conjunto de ferramentas para sincronizar automaticamente o áudio e o texto (também conhecido como alinhamento forçado).

Corpora de voz e linguagem

Berlim Database of emocional - Um corpus marcado (em alemão/deutsche) da fala marcada com emoções.
A pilha - A pilha é um conjunto de dados de modelagem de idiomas de código aberto 825 Gib, que consiste em 22 conjuntos de dados menores e de alta qualidade combinados.

Ferramentas de limpeza e reparo de dados

ActiveClean - ActiveClean é uma estrutura de limpeza iterativa que pode treinar corretamente o modelo de aprendizado de máquina quando os dados são limpos e fornece um conjunto de otimizações para selecionar os melhores dados a serem limpos. Dessa forma, você só precisa limpar um pequeno subconjunto dos dados para produzir um modelo semelhante ao se o conjunto de dados completo foi limpo. Escrito em Python.
DatalInter - O Linnter de dados identifica possíveis problemas (fiapos) em seus dados de treinamento de ML.
Holoclean - Sistema de aprendizado de máquina para enriquecimento de dados

_Há também BoostClean da Universidade de Columbia, mas não consigo encontrar uma referência de código em nenhum lugar da web.

Tradução da máquina

Nenhum idioma deixado para trás - lançado pela Meta, o projeto NLLB visa tornar os idiomas de baixo recurso mais acessíveis, fornecendo um modelo de tradução de máquina que pode traduzir entre 200 idiomas. O modelo é avaliado usando um benchmark traduzido humano, Flores-200, e realiza 44% melhor que as pontuações de última geração usando o BLEU.

Listagens de artigos

@Ranking de discurso de Mutiann - Este site classifica artigos acadêmicos por citações como [CSRANKINGS]. Juntos pelo usuário @mutiann.

Glossário

Existem muitos termos e acrônimos na tecnologia de voz de código aberto. Esta seção fornece explicações para cada uma delas.

Cognitive arbitration : o processo que um assistente de voz usa para entender quais serviços e habilidades estão disponíveis, dependendo de seu contexto - como estar online ou offline.
CRF : campo aleatório condicional. Um método de modelagem estatística que pode levar em consideração o contexto. Utilizado em algum software de panificação de intenção baseado em rede neural e extração semântica.
LSTM : Memória de curto prazo de longo prazo. Usado em redes neurais recorrentes para ajudar a processar sequências de dados, como áudio ou fala. Para saber o que provavelmente virá a seguir , o LSTM registra o que veio anteriormente .
LVCSR : grande reconhecimento contínuo de fala vocabulário. Usados em ferramentas de reconhecimento de fala para denotar que a) o vocabulário no qual o reconhecedor trabalha não foi restrito ou restrito - por exemplo, se for implantado em hardware incorporado ou de baixa potência, que não pode lidar com a memória ou calcular os requisitos de uma palavra -chave ou a palavra -chave de vocabulário e que o reconheceu o controlador de contraste, em contraste, uma palavra de despertar ou acordar.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-24
tamanho 17.74KB
Vindo de Github

Aplicativos Relacionados

language tools

2024-11-11
biliLive tools

2024-11-03
GLM 4 Voice

2024-11-02
sra tools

2024-11-01
ferramentas goblin chinesas

2024-05-16
Ferramentas PDF24

2023-07-13

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos