Téléchargement tevr asr tool - tevr asr tool Source Code Télécharger

tevr asr tool

Code Source AI

v1.0.0

Télécharger

Outil TEVR ASR

performance de pointe
- 3,64% étaient sur la voix commune allemande
- classement n ° 1 sur paperswithcode.com
Aucun GPU nécessaire
100% hors ligne
100% privé
100% gratuit
Licence MIT
Linux x86_64
outil de ligne de commande
facile à comprendre
- Seulement 284 lignes de code C ++
- Modèle AI sur Hugging Face

Qualité de transcription élevée

En août 2022, nous avons classé n ° 1 sur "Reconnaissance de la parole sur l'allemand de la voix commune (en utilisant des données de formation supplémentaires)" avec un taux d'erreur de 3,64% des mots. En conséquence, les performances de cet outil sont considérées comme les meilleures de ce qui est actuellement possible dans la reconnaissance vocale allemande:

Comment cela marche-t-il?

L175-L185 Chargez le fichier WAV. L189-L229 Exécuter le modèle AI acoustique. L260-L275 Convertir les logits de jetons prévus en extraits de chaîne. L73-L162 Implémentez le recul de recherche de faisceau basé sur un modèle de langue Kenlm.

Si vous êtes curieux de savoir comment fonctionne le modèle AI acoustique et pourquoi je l'ai conçu de cette façon, voici l'article: https://arxiv.org/abs/2206.12693 et voici un modèle de transformateurs HuggingFace avant formé: https://huggingface.co/FXTENTAC

Installez le package Debian / Ubuntu

Téléchargez tevr_asr_tool-1.0.0-Linux-x86_64.deb de GitHub et extraire le zip multipart:

wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.001 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.002 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.003 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.004 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.005 "
cat tevr_asr_tool-1.0.0-Linux-x86_64.zip.00 * > tevr_asr_tool-1.0.0-Linux-x86_64.zip
unzip tevr_asr_tool-1.0.0-Linux-x86_64.zip

L'installez:

sudo dpkg -i tevr_asr_tool-1.0.0-Linux-x86_64.deb

Installer à partir du code source

Télécharger les sous-modules:

git submodule update --init

CMake Configurer et construire:

cmake -DCMAKE_BUILD_TYPE=MinSizeRel -DCPACK_CMAKE_GENERATOR=Ninja -S . -B build
cmake --build build --target tevr_asr_tool -j 16

Créer un package Debian:

(cd build && cpack -G DEB)

L'installez:

sudo dpkg -i build/tevr_asr_tool-1.0.0-Linux-x86_64.deb

Usage

tevr_asr_tool --target_file=test_audio.wav 2> log.txt

devrait afficher la transcription correcte mückenstiche sollte man nicht aufkratzen . Et log.txt contiendra les diagnostics et les progrès qui ont été connectés à STDERR pendant l'exécution.

Accélération du GPU pour les développeurs

Je prévois de publier un logiciel de transcription à faible latence en temps réel Vulkan & OpenGL et OpenGL. Il fonctionnera 100% privé + 100% hors ligne comme cet outil, mais au lieu de traiter un fichier WAV sur CPU, il diffusera la transcription GPU en temps réel de votre entrée de microphone via une API de repos compatible WebBrTC afin que vous puissiez facilement l'intégrer avec vos propres projets contrôlés par la voix. Par exemple, cela permettra la typage vocal piratable avec pynput.keyboard .

Si vous souhaitez être averti lors de son lancement, veuillez saisir votre e-mail à https://madmimi.com/signups/f0da3b13840d40ce9e061cafea6280d5/join

Personnalisation commerciale

Cet outil lui-même est gratuit également pour une utilisation commerciale. Et bien sûr, il ne vient avec aucune garantie d'aucune sorte.

Mais si vous avez une idée pour un cas d'utilisation commercial pour une version personnalisée de cet outil ou pour une technologie similaire - idéalement quelque chose qui aide les petites et moyennes entreprises du nord de l'Allemagne à devenir plus compétitives - veuillez me contacter à [email protected]

Citation de recherche

Si vous l'utilisez pour la recherche, veuillez citer:

 @misc { https://doi.org/10.48550/arxiv.2206.12693 ,
  doi = { 10.48550/ARXIV.2206.12693 } ,
  url = { https://arxiv.org/abs/2206.12693 } ,
  author = { Krabbenhöft, Hajo Nils and Barth, Erhardt } ,  
  keywords = { Computation and Language (cs.CL), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering, F.2.1; I.2.6; I.2.7 } ,  
  title = { TEVR: Improving Speech Recognition by Token Entropy Variance Reduction } ,  
  publisher = { arXiv } ,  
  year = { 2022 } , 
  copyright = { Creative Commons Attribution 4.0 International }
}

Remplacer le modèle AI

Le modèle d'IA allemand et mes scripts de formation peuvent être trouvés sur HuggingFace: https://huggingface.co/fxtentacle/wav2vec2-xls-r-1b-tevr

Le modèle a subi une pré-formation inter-langagée XLS-R. Vous pouvez dire directement de l'adapter avec un ensemble de données de langue différent - par exemple CommonVoice English - puis réexporter les fichiers dans le dossier tevr-asr-data .

Alternativement, vous pouvez me donner environ 2 semaines de crédits GPU A100 et je vais former un modèle de reconnaissance approprié et le télécharger sur HuggingFace.

Développer

Informations supplémentaires

Version v1.0.0
Type Code Source AI
Date de mise à jour 2025-09-09
taille 282.98KB
Provenant de Github

Applications connexes

Intune Win32 App Packaging Tool

2024-11-12
vcpkg tool

2024-11-10
Microsoft Win32 Content Prep Tool

2024-11-05
il outil tv2.7

2023-08-28
dernière version de pubgtool

2023-07-12
Outil pour les webmasters pour les retardataires

2010-08-09

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout