Download tevr asr tool - tevr asr tool Código -fonte Download

tevr asr tool

Código-Fonte de IA

v1.0.0

Baixar

Tool TEVR ASR

desempenho de última geração
- 3,64% eram em voz comum alemã
- Classificação nº 1 no PapersWithcode.com
Nenhuma GPU precisava
100% offline
100% privado
100% grátis
MIT Licença
Linux x86_64
ferramenta de linha de comando
fácil de entender
- Apenas 284 linhas de código C ++
- Modelo AI em Huggingface

Alta qualidade de transcrição

Em agosto de 2022, classificamos o número 1 em "Reconhecimento de fala em alemão de voz comum (usando dados de treinamento extra)" com uma taxa de erro de 3,64%. Consequentemente, o desempenho desta ferramenta é considerado o melhor do que é atualmente possível no reconhecimento de fala alemão:

Como é que isso funciona?

L175-L185 Carregue o arquivo WAV. L189-L229 Execute o modelo AI acústico. L260-L275 Converta os logits de token previstos em trechos de string. L73-L162 Implemente a pesquisa de pesquisa de feixe com base em um modelo de idioma Kenlm.

If you're curious how the acoustic AI model works and why I designed it that way, here's the paper: https://arxiv.org/abs/2206.12693 and here's a pre-trained HuggingFace transformers model: https://huggingface.co/fxtentacle/wav2vec2-xls-r-1b-tevr

Instale o pacote Debian/Ubuntu

Faça o download tevr_asr_tool-1.0.0-Linux-x86_64.deb do github e extraia o zip multipart:

wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.001 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.002 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.003 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.004 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.005 "
cat tevr_asr_tool-1.0.0-Linux-x86_64.zip.00 * > tevr_asr_tool-1.0.0-Linux-x86_64.zip
unzip tevr_asr_tool-1.0.0-Linux-x86_64.zip

Instale:

sudo dpkg -i tevr_asr_tool-1.0.0-Linux-x86_64.deb

Instale a partir do código -fonte

Baixe submódulos:

git submodule update --init

Cmake configurar e construir:

cmake -DCMAKE_BUILD_TYPE=MinSizeRel -DCPACK_CMAKE_GENERATOR=Ninja -S . -B build
cmake --build build --target tevr_asr_tool -j 16

Crie o pacote Debian:

(cd build && cpack -G DEB)

Instale:

sudo dpkg -i build/tevr_asr_tool-1.0.0-Linux-x86_64.deb

Uso

tevr_asr_tool --target_file=test_audio.wav 2> log.txt

deve exibir a transcrição correta mückenstiche sollte man nicht aufkratzen . E log.txt conterá os diagnósticos e o progresso que foi registrado no Stderr durante a execução.

Aceleração da GPU para desenvolvedores

Planejo lançar um software de transcrição de baixa latência em tempo real da Vulkan & OpenGL, em breve. Ele será executado 100% privado + 100% offline como esta ferramenta, mas, em vez de processar um arquivo WAV na CPU, transmitirá a transcrição da GPU em tempo real da entrada de seu microfone através de uma API de REST com capacidade para integrar facilmente com seus próprios projetos controlados por voz. Por exemplo, isso ativará a digitação de voz hackeável junto com pynput.keyboard .

Se você deseja ser notificado quando for lançado, digite seu e -mail em https://madmimi.com/signups/f0da3b13840d40ce9e061cafea6280d5/join

Personalização comercial

Essa ferramenta em si é gratuita também para uso comercial. E é claro que vem sem garantia de qualquer tipo.

Mas se você tiver uma idéia para um caso de uso comercial para uma versão personalizada desta ferramenta ou para tecnologia semelhante - idealmente, algo que ajude pequenas e médias empresas no norte da Alemanha a se tornarem mais competitivas - entre em contato comigo em [email protected]

Citação de pesquisa

Se você usar isso para pesquisa, cite:

 @misc { https://doi.org/10.48550/arxiv.2206.12693 ,
  doi = { 10.48550/ARXIV.2206.12693 } ,
  url = { https://arxiv.org/abs/2206.12693 } ,
  author = { Krabbenhöft, Hajo Nils and Barth, Erhardt } ,  
  keywords = { Computation and Language (cs.CL), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering, F.2.1; I.2.6; I.2.7 } ,  
  title = { TEVR: Improving Speech Recognition by Token Entropy Variance Reduction } ,  
  publisher = { arXiv } ,  
  year = { 2022 } , 
  copyright = { Creative Commons Attribution 4.0 International }
}

Substitua o modelo AI

O modelo de IA alemão e meus scripts de treinamento podem ser encontrados no Huggingface: https://huggingface.co/fxtentacle/wav2vec2-xls-r-1b-tevr

O modelo passou por um pré-treinamento em linguagem cruzada XLS-R. Você pode ajustá-lo diretamente com um conjunto de dados de idioma diferente-por exemplo, o CommonVoice English-e depois reexportar os arquivos na pasta tevr-asr-data .

Como alternativa, você pode doar cerca de duas semanas de créditos de GPU A100 para mim e treinarei um modelo de reconhecimento adequado e o carregarei para o HuggingFace.

Expandir

Informações adicionais

Versão v1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-09
tamanho 282.98KB
Vindo de Github

Aplicativos Relacionados

Intune Win32 App Packaging Tool

2024-11-12
vcpkg tool

2024-11-10
Microsoft Win32 Content Prep Tool

2024-11-05
ele ferramenta tv2.7

2023-08-28
última versão do pubgtool

2023-07-12
Ferramenta para webmasters para retardatários

2010-08-09

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos