En août 2022, nous avons classé n ° 1 sur "Reconnaissance de la parole sur l'allemand de la voix commune (en utilisant des données de formation supplémentaires)" avec un taux d'erreur de 3,64% des mots. En conséquence, les performances de cet outil sont considérées comme les meilleures de ce qui est actuellement possible dans la reconnaissance vocale allemande:
L175-L185 Chargez le fichier WAV. L189-L229 Exécuter le modèle AI acoustique. L260-L275 Convertir les logits de jetons prévus en extraits de chaîne. L73-L162 Implémentez le recul de recherche de faisceau basé sur un modèle de langue Kenlm.
Si vous êtes curieux de savoir comment fonctionne le modèle AI acoustique et pourquoi je l'ai conçu de cette façon, voici l'article: https://arxiv.org/abs/2206.12693 et voici un modèle de transformateurs HuggingFace avant formé: https://huggingface.co/FXTENTAC
Téléchargez tevr_asr_tool-1.0.0-Linux-x86_64.deb de GitHub et extraire le zip multipart:
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.001 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.002 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.003 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.004 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.005 "
cat tevr_asr_tool-1.0.0-Linux-x86_64.zip.00 * > tevr_asr_tool-1.0.0-Linux-x86_64.zip
unzip tevr_asr_tool-1.0.0-Linux-x86_64.zipL'installez:
sudo dpkg -i tevr_asr_tool-1.0.0-Linux-x86_64.debTélécharger les sous-modules:
git submodule update --initCMake Configurer et construire:
cmake -DCMAKE_BUILD_TYPE=MinSizeRel -DCPACK_CMAKE_GENERATOR=Ninja -S . -B build
cmake --build build --target tevr_asr_tool -j 16Créer un package Debian:
(cd build && cpack -G DEB)L'installez:
sudo dpkg -i build/tevr_asr_tool-1.0.0-Linux-x86_64.debtevr_asr_tool --target_file=test_audio.wav 2> log.txt devrait afficher la transcription correcte mückenstiche sollte man nicht aufkratzen . Et log.txt contiendra les diagnostics et les progrès qui ont été connectés à STDERR pendant l'exécution.
Je prévois de publier un logiciel de transcription à faible latence en temps réel Vulkan & OpenGL et OpenGL. Il fonctionnera 100% privé + 100% hors ligne comme cet outil, mais au lieu de traiter un fichier WAV sur CPU, il diffusera la transcription GPU en temps réel de votre entrée de microphone via une API de repos compatible WebBrTC afin que vous puissiez facilement l'intégrer avec vos propres projets contrôlés par la voix. Par exemple, cela permettra la typage vocal piratable avec pynput.keyboard .
Si vous souhaitez être averti lors de son lancement, veuillez saisir votre e-mail à https://madmimi.com/signups/f0da3b13840d40ce9e061cafea6280d5/join
Cet outil lui-même est gratuit également pour une utilisation commerciale. Et bien sûr, il ne vient avec aucune garantie d'aucune sorte.
Mais si vous avez une idée pour un cas d'utilisation commercial pour une version personnalisée de cet outil ou pour une technologie similaire - idéalement quelque chose qui aide les petites et moyennes entreprises du nord de l'Allemagne à devenir plus compétitives - veuillez me contacter à [email protected]
Si vous l'utilisez pour la recherche, veuillez citer:
@misc { https://doi.org/10.48550/arxiv.2206.12693 ,
doi = { 10.48550/ARXIV.2206.12693 } ,
url = { https://arxiv.org/abs/2206.12693 } ,
author = { Krabbenhöft, Hajo Nils and Barth, Erhardt } ,
keywords = { Computation and Language (cs.CL), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering, F.2.1; I.2.6; I.2.7 } ,
title = { TEVR: Improving Speech Recognition by Token Entropy Variance Reduction } ,
publisher = { arXiv } ,
year = { 2022 } ,
copyright = { Creative Commons Attribution 4.0 International }
}Le modèle d'IA allemand et mes scripts de formation peuvent être trouvés sur HuggingFace: https://huggingface.co/fxtentacle/wav2vec2-xls-r-1b-tevr
Le modèle a subi une pré-formation inter-langagée XLS-R. Vous pouvez dire directement de l'adapter avec un ensemble de données de langue différent - par exemple CommonVoice English - puis réexporter les fichiers dans le dossier tevr-asr-data .
Alternativement, vous pouvez me donner environ 2 semaines de crédits GPU A100 et je vais former un modèle de reconnaissance approprié et le télécharger sur HuggingFace.