En agosto de 2022, clasificamos el número 1 en "Reconocimiento de voz en Common Voice German (usando datos de entrenamiento adicionales)" con una tasa de error de palabras de 3.64%. En consecuencia, el rendimiento de esta herramienta se considera el mejor de lo que actualmente es posible en el reconocimiento de voz alemán:
L175-L185 Cargue el archivo WAV. L189-L229 Ejecute el modelo AI ACUSTIC. L260-L275 Convierta los logits de token predichos en fragmentos de cadenas. L73-L162 Implementa la recepción de la búsqueda del haz basado en un modelo de lenguaje KENLM.
Si tiene curiosidad por saber cómo funciona el modelo ACULTICA AI y por qué lo diseñé de esa manera, aquí está el documento: https://arxiv.org/abs/2206.12693 y aquí hay un modelo de transformadores de superficie de abrazos pre-entrenado: https://huggingface.co/fxtentacle/wav2vec2-xls-r-b-tevr
Descargue tevr_asr_tool-1.0.0-Linux-x86_64.deb de GitHub y extraiga el zip multipart:
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.001 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.002 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.003 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.004 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.005 "
cat tevr_asr_tool-1.0.0-Linux-x86_64.zip.00 * > tevr_asr_tool-1.0.0-Linux-x86_64.zip
unzip tevr_asr_tool-1.0.0-Linux-x86_64.zipInstalarlo:
sudo dpkg -i tevr_asr_tool-1.0.0-Linux-x86_64.debDescargar submódulos:
git submodule update --initCMake Configurar y construir:
cmake -DCMAKE_BUILD_TYPE=MinSizeRel -DCPACK_CMAKE_GENERATOR=Ninja -S . -B build
cmake --build build --target tevr_asr_tool -j 16Crear paquete Debian:
(cd build && cpack -G DEB)Instalarlo:
sudo dpkg -i build/tevr_asr_tool-1.0.0-Linux-x86_64.debtevr_asr_tool --target_file=test_audio.wav 2> log.txt debe mostrar la transcripción correcta mückenstiche sollte man nicht aufkratzen . Y log.txt contendrá los diagnósticos y el progreso que se registró a Stderr durante la ejecución.
Planeo lanzar un software de transcripción de baja latencia de baja latencia en tiempo real de Vulkan & OpenGL para desarrolladores. Se ejecutará 100% privado + 100% fuera de línea como esta herramienta, pero en lugar de procesar un archivo WAV en la CPU, transmitirá la transcripción de GPU en tiempo real de su entrada de micrófono a través de una API REST con capacidad de WEBRTC para que pueda integrarlo fácilmente con sus propios proyectos controlados por voz. Por ejemplo, eso habilitará la escritura de voz hackable junto con pynput.keyboard .
Si desea recibir una notificación cuando se lo inicia, ingrese su correo electrónico en https://madmimi.com/signups/f0da3b13840d40ce9e061cafea6280d5/join
Esta herramienta en sí es de uso gratuito para uso comercial. Y, por supuesto, no tiene garantía de ningún tipo.
Pero si tiene una idea para un caso de uso comercial para una versión personalizada de esta herramienta o para una tecnología similar, idealmente algo que ayuda a las pequeñas y medianas empresas en el norte de Alemania a ser más competitivos, entonces contácteme en [email protected]
Si usa esto para la investigación, por favor cita:
@misc { https://doi.org/10.48550/arxiv.2206.12693 ,
doi = { 10.48550/ARXIV.2206.12693 } ,
url = { https://arxiv.org/abs/2206.12693 } ,
author = { Krabbenhöft, Hajo Nils and Barth, Erhardt } ,
keywords = { Computation and Language (cs.CL), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering, F.2.1; I.2.6; I.2.7 } ,
title = { TEVR: Improving Speech Recognition by Token Entropy Variance Reduction } ,
publisher = { arXiv } ,
year = { 2022 } ,
copyright = { Creative Commons Attribution 4.0 International }
}El modelo de IA alemán y mis guiones de entrenamiento se pueden encontrar en Huggingface: https://huggingface.co/fxtentacle/wav2vec2-xls-r-1b-tevr
El modelo se ha sometido a un pre-entrenamiento de lenguaje cruzado XLS-R. Puede ajustarlo directamente con un conjunto de datos de idiomas diferente, por ejemplo, CommonVoice English, y luego volver a expulsar los archivos en la carpeta tevr-asr-data .
Alternativamente, puede donar aproximadamente 2 semanas de créditos de GPU A100 para mí y entrenaré un modelo de reconocimiento adecuado y lo subiré a Huggingface.