Em agosto de 2022, classificamos o número 1 em "Reconhecimento de fala em alemão de voz comum (usando dados de treinamento extra)" com uma taxa de erro de 3,64%. Consequentemente, o desempenho desta ferramenta é considerado o melhor do que é atualmente possível no reconhecimento de fala alemão:
L175-L185 Carregue o arquivo WAV. L189-L229 Execute o modelo AI acústico. L260-L275 Converta os logits de token previstos em trechos de string. L73-L162 Implemente a pesquisa de pesquisa de feixe com base em um modelo de idioma Kenlm.
If you're curious how the acoustic AI model works and why I designed it that way, here's the paper: https://arxiv.org/abs/2206.12693 and here's a pre-trained HuggingFace transformers model: https://huggingface.co/fxtentacle/wav2vec2-xls-r-1b-tevr
Faça o download tevr_asr_tool-1.0.0-Linux-x86_64.deb do github e extraia o zip multipart:
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.001 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.002 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.003 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.004 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.005 "
cat tevr_asr_tool-1.0.0-Linux-x86_64.zip.00 * > tevr_asr_tool-1.0.0-Linux-x86_64.zip
unzip tevr_asr_tool-1.0.0-Linux-x86_64.zipInstale:
sudo dpkg -i tevr_asr_tool-1.0.0-Linux-x86_64.debBaixe submódulos:
git submodule update --initCmake configurar e construir:
cmake -DCMAKE_BUILD_TYPE=MinSizeRel -DCPACK_CMAKE_GENERATOR=Ninja -S . -B build
cmake --build build --target tevr_asr_tool -j 16Crie o pacote Debian:
(cd build && cpack -G DEB)Instale:
sudo dpkg -i build/tevr_asr_tool-1.0.0-Linux-x86_64.debtevr_asr_tool --target_file=test_audio.wav 2> log.txt deve exibir a transcrição correta mückenstiche sollte man nicht aufkratzen . E log.txt conterá os diagnósticos e o progresso que foi registrado no Stderr durante a execução.
Planejo lançar um software de transcrição de baixa latência em tempo real da Vulkan & OpenGL, em breve. Ele será executado 100% privado + 100% offline como esta ferramenta, mas, em vez de processar um arquivo WAV na CPU, transmitirá a transcrição da GPU em tempo real da entrada de seu microfone através de uma API de REST com capacidade para integrar facilmente com seus próprios projetos controlados por voz. Por exemplo, isso ativará a digitação de voz hackeável junto com pynput.keyboard .
Se você deseja ser notificado quando for lançado, digite seu e -mail em https://madmimi.com/signups/f0da3b13840d40ce9e061cafea6280d5/join
Essa ferramenta em si é gratuita também para uso comercial. E é claro que vem sem garantia de qualquer tipo.
Mas se você tiver uma idéia para um caso de uso comercial para uma versão personalizada desta ferramenta ou para tecnologia semelhante - idealmente, algo que ajude pequenas e médias empresas no norte da Alemanha a se tornarem mais competitivas - entre em contato comigo em [email protected]
Se você usar isso para pesquisa, cite:
@misc { https://doi.org/10.48550/arxiv.2206.12693 ,
doi = { 10.48550/ARXIV.2206.12693 } ,
url = { https://arxiv.org/abs/2206.12693 } ,
author = { Krabbenhöft, Hajo Nils and Barth, Erhardt } ,
keywords = { Computation and Language (cs.CL), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering, F.2.1; I.2.6; I.2.7 } ,
title = { TEVR: Improving Speech Recognition by Token Entropy Variance Reduction } ,
publisher = { arXiv } ,
year = { 2022 } ,
copyright = { Creative Commons Attribution 4.0 International }
}O modelo de IA alemão e meus scripts de treinamento podem ser encontrados no Huggingface: https://huggingface.co/fxtentacle/wav2vec2-xls-r-1b-tevr
O modelo passou por um pré-treinamento em linguagem cruzada XLS-R. Você pode ajustá-lo diretamente com um conjunto de dados de idioma diferente-por exemplo, o CommonVoice English-e depois reexportar os arquivos na pasta tevr-asr-data .
Como alternativa, você pode doar cerca de duas semanas de créditos de GPU A100 para mim e treinarei um modelo de reconhecimento adequado e o carregarei para o HuggingFace.