Descargar tevr asr tool - Descargar el código fuente tevr asr tool

tevr asr tool

Código Fuente de IA

v1.0.0

Descargar

Herramienta TEVR ASR

actuación de última generación
- 3.64% estaban en alemán de voz común
- Rango #1 en papelwithcode.com
No se necesita GPU
100% fuera de línea
100% privado
100% gratis
Licencia de MIT
Linux x86_64
herramienta de línea de comandos
fácil de entender
- Solo 284 líneas de código C ++
- Modelo AI en Huggingface

Alta calidad de transcripción

En agosto de 2022, clasificamos el número 1 en "Reconocimiento de voz en Common Voice German (usando datos de entrenamiento adicionales)" con una tasa de error de palabras de 3.64%. En consecuencia, el rendimiento de esta herramienta se considera el mejor de lo que actualmente es posible en el reconocimiento de voz alemán:

¿Cómo funciona esto?

L175-L185 Cargue el archivo WAV. L189-L229 Ejecute el modelo AI ACUSTIC. L260-L275 Convierta los logits de token predichos en fragmentos de cadenas. L73-L162 Implementa la recepción de la búsqueda del haz basado en un modelo de lenguaje KENLM.

Si tiene curiosidad por saber cómo funciona el modelo ACULTICA AI y por qué lo diseñé de esa manera, aquí está el documento: https://arxiv.org/abs/2206.12693 y aquí hay un modelo de transformadores de superficie de abrazos pre-entrenado: https://huggingface.co/fxtentacle/wav2vec2-xls-r-b-tevr

Instale el paquete Debian/Ubuntu

Descargue tevr_asr_tool-1.0.0-Linux-x86_64.deb de GitHub y extraiga el zip multipart:

wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.001 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.002 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.003 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.004 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.005 "
cat tevr_asr_tool-1.0.0-Linux-x86_64.zip.00 * > tevr_asr_tool-1.0.0-Linux-x86_64.zip
unzip tevr_asr_tool-1.0.0-Linux-x86_64.zip

Instalarlo:

sudo dpkg -i tevr_asr_tool-1.0.0-Linux-x86_64.deb

Instalar desde el código fuente

Descargar submódulos:

git submodule update --init

CMake Configurar y construir:

cmake -DCMAKE_BUILD_TYPE=MinSizeRel -DCPACK_CMAKE_GENERATOR=Ninja -S . -B build
cmake --build build --target tevr_asr_tool -j 16

Crear paquete Debian:

(cd build && cpack -G DEB)

Instalarlo:

sudo dpkg -i build/tevr_asr_tool-1.0.0-Linux-x86_64.deb

Uso

tevr_asr_tool --target_file=test_audio.wav 2> log.txt

debe mostrar la transcripción correcta mückenstiche sollte man nicht aufkratzen . Y log.txt contendrá los diagnósticos y el progreso que se registró a Stderr durante la ejecución.

Aceleración de GPU para desarrolladores

Planeo lanzar un software de transcripción de baja latencia de baja latencia en tiempo real de Vulkan & OpenGL para desarrolladores. Se ejecutará 100% privado + 100% fuera de línea como esta herramienta, pero en lugar de procesar un archivo WAV en la CPU, transmitirá la transcripción de GPU en tiempo real de su entrada de micrófono a través de una API REST con capacidad de WEBRTC para que pueda integrarlo fácilmente con sus propios proyectos controlados por voz. Por ejemplo, eso habilitará la escritura de voz hackable junto con pynput.keyboard .

Si desea recibir una notificación cuando se lo inicia, ingrese su correo electrónico en https://madmimi.com/signups/f0da3b13840d40ce9e061cafea6280d5/join

Personalización comercial

Esta herramienta en sí es de uso gratuito para uso comercial. Y, por supuesto, no tiene garantía de ningún tipo.

Pero si tiene una idea para un caso de uso comercial para una versión personalizada de esta herramienta o para una tecnología similar, idealmente algo que ayuda a las pequeñas y medianas empresas en el norte de Alemania a ser más competitivos, entonces contácteme en [email protected]

Cita de investigación

Si usa esto para la investigación, por favor cita:

 @misc { https://doi.org/10.48550/arxiv.2206.12693 ,
  doi = { 10.48550/ARXIV.2206.12693 } ,
  url = { https://arxiv.org/abs/2206.12693 } ,
  author = { Krabbenhöft, Hajo Nils and Barth, Erhardt } ,  
  keywords = { Computation and Language (cs.CL), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering, F.2.1; I.2.6; I.2.7 } ,  
  title = { TEVR: Improving Speech Recognition by Token Entropy Variance Reduction } ,  
  publisher = { arXiv } ,  
  year = { 2022 } , 
  copyright = { Creative Commons Attribution 4.0 International }
}

Reemplace el modelo AI

El modelo de IA alemán y mis guiones de entrenamiento se pueden encontrar en Huggingface: https://huggingface.co/fxtentacle/wav2vec2-xls-r-1b-tevr

El modelo se ha sometido a un pre-entrenamiento de lenguaje cruzado XLS-R. Puede ajustarlo directamente con un conjunto de datos de idiomas diferente, por ejemplo, CommonVoice English, y luego volver a expulsar los archivos en la carpeta tevr-asr-data .

Alternativamente, puede donar aproximadamente 2 semanas de créditos de GPU A100 para mí y entrenaré un modelo de reconocimiento adecuado y lo subiré a Huggingface.

Expandir

Información adicional

Versión v1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-09
tamaño 282.98KB
Proviene de Github

Aplicaciones relacionadas

Intune Win32 App Packaging Tool

2024-11-12
vcpkg tool

2024-11-10
Microsoft Win32 Content Prep Tool

2024-11-05
la herramienta tv2.7

2023-08-28
pubgtool última versión

2023-07-12
Herramienta para webmasters para rezagados

2010-08-09

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo