Im August 2022 haben wir mit einer Wortfehlerrate von 3,64% die Nummer 1 für "Spracherkennung auf gemeinsamen Sprachdeutsch (unter Verwendung zusätzlicher Trainingsdaten)" eingestuft. Dementsprechend gilt die Leistung dieses Tools als das Beste aus dem, was derzeit in der deutschen Spracherkennung möglich ist:
L175-L185 Laden Sie die WAV-Datei. L189-L229 führen das akustische KI-Modell aus. L260-L275 konvertieren die vorhergesagten Token-Logits in String-Schnipsel. L73-L162 Implementieren Sie die Beamte-Recoring basierend auf einem KenLM-Sprachmodell.
Wenn Sie neugierig sind, wie das akustische KI-Modell funktioniert und warum ich es so entworfen habe, ist hier das Papier: https://arxiv.org/abs/2206.12693 und hier ist ein vorgeborenes Modell mit Huggingface-Transformatoren: https://huggingface.co/fxtentacle/wav2v2vec2-xl-1b-
Download tevr_asr_tool-1.0.0-Linux-x86_64.deb aus github und extrahieren Sie den mehrteiligen Reißverschluss:
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.001 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.002 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.003 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.004 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.005 "
cat tevr_asr_tool-1.0.0-Linux-x86_64.zip.00 * > tevr_asr_tool-1.0.0-Linux-x86_64.zip
unzip tevr_asr_tool-1.0.0-Linux-x86_64.zipInstallieren Sie es:
sudo dpkg -i tevr_asr_tool-1.0.0-Linux-x86_64.debDownload Submodules:
git submodule update --initCmake konfigurieren und bauen:
cmake -DCMAKE_BUILD_TYPE=MinSizeRel -DCPACK_CMAKE_GENERATOR=Ninja -S . -B build
cmake --build build --target tevr_asr_tool -j 16Erstellen Sie Debian -Paket:
(cd build && cpack -G DEB)Installieren Sie es:
sudo dpkg -i build/tevr_asr_tool-1.0.0-Linux-x86_64.debtevr_asr_tool --target_file=test_audio.wav 2> log.txt Sollte die korrekte Transkription mückenstiche sollte man nicht aufkratzen anzeigen. Und log.txt enthält die Diagnostik und den Fortschritt, der während der Ausführung bei STDERR angemeldet wurde.
Ich habe vor, bald eine Vulkan- und OpenGL-Beschleunigungs-Echtzeit-Transkriptionssoftware für Entwickler zu veröffentlichen. Genauso wie dieses Tool wird 100% privat + 100% offline ausgeführt, aber anstatt eine WAV-Datei auf der CPU zu verarbeiten, wird die Echtzeit-GPU-Transkription Ihres Mikrofoneingangs über eine webtc-fähige REST-API gestreamt, damit Sie sie leicht in Ihre eigenen sprachgesteuerten Projekte integrieren können. Dies ermöglicht beispielsweise ein hackbares Sprachtippen zusammen mit pynput.keyboard .
Wenn Sie beim Starten benachrichtigt werden möchten, geben Sie bitte Ihre E -Mail unter https://madmimi.com/signups/f0da3b13840d40ce9e061CAfea6280d5/join ein
Dieses Tool selbst kann auch für den kommerziellen Gebrauch verwendet werden. Und natürlich kommt es ohne Garantie jeglicher Art.
Wenn Sie jedoch eine Idee für einen kommerziellen Anwendungsfall für eine maßgeschneiderte Version dieses Tools oder für ähnliche Technologien haben - im Idealfall, das kleine und mittelgroße Unternehmen in Norddeutschland hilft, kontaktieren Sie mich bitte unter [email protected]
Wenn Sie dies für die Forschung verwenden, zitieren Sie bitte:
@misc { https://doi.org/10.48550/arxiv.2206.12693 ,
doi = { 10.48550/ARXIV.2206.12693 } ,
url = { https://arxiv.org/abs/2206.12693 } ,
author = { Krabbenhöft, Hajo Nils and Barth, Erhardt } ,
keywords = { Computation and Language (cs.CL), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering, F.2.1; I.2.6; I.2.7 } ,
title = { TEVR: Improving Speech Recognition by Token Entropy Variance Reduction } ,
publisher = { arXiv } ,
year = { 2022 } ,
copyright = { Creative Commons Attribution 4.0 International }
}Das deutsche KI-Modell und meine Trainingsskripte finden Sie auf dem Umarmungsface: https://huggingface.co/fxtentacle/wav2vec2-xls-r-1b-tevr
Das Modell wurde vor dem Training XLS-R-Verzug unterzogen. Sie können es direkt mit einem anderen Sprachdatensatz-z. B. CommonVoice-Englisch-fein abteilen und die Dateien dann im Ordner tevr-asr-data erneut exportieren.
Alternativ können Sie mir rund 2 Wochen A100 GPU -Credits spenden, und ich werde ein geeignetes Erkennungsmodell trainieren und es in das Huggingface hochladen.