tevr asr tool -Download - tevr asr tool -Quellcode herunterladen

tevr asr tool

AI-Quellcode

v1.0.0

Herunterladen

TEVR ASR -Werkzeug

Hochmoderne Leistung
- 3,64% waren auf gemeinsamer Stimme Deutsch
- Rang 1 auf PapersWithCode.com
Keine GPU brauchte
100% offline
100% privat
100% frei
MIT -Lizenz
Linux x86_64
Befehlszeilen-Tool
leicht zu verstehen
- Nur 284 Zeilen C ++ Code
- KI -Modell beim Umarmungsface

Hohe Transkriptionsqualität

Im August 2022 haben wir mit einer Wortfehlerrate von 3,64% die Nummer 1 für "Spracherkennung auf gemeinsamen Sprachdeutsch (unter Verwendung zusätzlicher Trainingsdaten)" eingestuft. Dementsprechend gilt die Leistung dieses Tools als das Beste aus dem, was derzeit in der deutschen Spracherkennung möglich ist:

Wie funktioniert das?

L175-L185 Laden Sie die WAV-Datei. L189-L229 führen das akustische KI-Modell aus. L260-L275 konvertieren die vorhergesagten Token-Logits in String-Schnipsel. L73-L162 Implementieren Sie die Beamte-Recoring basierend auf einem KenLM-Sprachmodell.

Wenn Sie neugierig sind, wie das akustische KI-Modell funktioniert und warum ich es so entworfen habe, ist hier das Papier: https://arxiv.org/abs/2206.12693 und hier ist ein vorgeborenes Modell mit Huggingface-Transformatoren: https://huggingface.co/fxtentacle/wav2v2vec2-xl-1b-

Installieren Sie das Debian/Ubuntu -Paket

Download tevr_asr_tool-1.0.0-Linux-x86_64.deb aus github und extrahieren Sie den mehrteiligen Reißverschluss:

wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.001 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.002 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.003 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.004 "
wget " https://github.com/DeutscheKI/tevr-asr-tool/releases/download/v1.0.0/tevr_asr_tool-1.0.0-Linux-x86_64.zip.005 "
cat tevr_asr_tool-1.0.0-Linux-x86_64.zip.00 * > tevr_asr_tool-1.0.0-Linux-x86_64.zip
unzip tevr_asr_tool-1.0.0-Linux-x86_64.zip

Installieren Sie es:

sudo dpkg -i tevr_asr_tool-1.0.0-Linux-x86_64.deb

Aus dem Quellcode installieren

Download Submodules:

git submodule update --init

Cmake konfigurieren und bauen:

cmake -DCMAKE_BUILD_TYPE=MinSizeRel -DCPACK_CMAKE_GENERATOR=Ninja -S . -B build
cmake --build build --target tevr_asr_tool -j 16

Erstellen Sie Debian -Paket:

(cd build && cpack -G DEB)

Installieren Sie es:

sudo dpkg -i build/tevr_asr_tool-1.0.0-Linux-x86_64.deb

Verwendung

tevr_asr_tool --target_file=test_audio.wav 2> log.txt

Sollte die korrekte Transkription mückenstiche sollte man nicht aufkratzen anzeigen. Und log.txt enthält die Diagnostik und den Fortschritt, der während der Ausführung bei STDERR angemeldet wurde.

GPU -Beschleunigung für Entwickler

Ich habe vor, bald eine Vulkan- und OpenGL-Beschleunigungs-Echtzeit-Transkriptionssoftware für Entwickler zu veröffentlichen. Genauso wie dieses Tool wird 100% privat + 100% offline ausgeführt, aber anstatt eine WAV-Datei auf der CPU zu verarbeiten, wird die Echtzeit-GPU-Transkription Ihres Mikrofoneingangs über eine webtc-fähige REST-API gestreamt, damit Sie sie leicht in Ihre eigenen sprachgesteuerten Projekte integrieren können. Dies ermöglicht beispielsweise ein hackbares Sprachtippen zusammen mit pynput.keyboard .

Wenn Sie beim Starten benachrichtigt werden möchten, geben Sie bitte Ihre E -Mail unter https://madmimi.com/signups/f0da3b13840d40ce9e061CAfea6280d5/join ein

Kommerzielle Anpassung

Dieses Tool selbst kann auch für den kommerziellen Gebrauch verwendet werden. Und natürlich kommt es ohne Garantie jeglicher Art.

Wenn Sie jedoch eine Idee für einen kommerziellen Anwendungsfall für eine maßgeschneiderte Version dieses Tools oder für ähnliche Technologien haben - im Idealfall, das kleine und mittelgroße Unternehmen in Norddeutschland hilft, kontaktieren Sie mich bitte unter [email protected]

Forschungszitat

Wenn Sie dies für die Forschung verwenden, zitieren Sie bitte:

 @misc { https://doi.org/10.48550/arxiv.2206.12693 ,
  doi = { 10.48550/ARXIV.2206.12693 } ,
  url = { https://arxiv.org/abs/2206.12693 } ,
  author = { Krabbenhöft, Hajo Nils and Barth, Erhardt } ,  
  keywords = { Computation and Language (cs.CL), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering, F.2.1; I.2.6; I.2.7 } ,  
  title = { TEVR: Improving Speech Recognition by Token Entropy Variance Reduction } ,  
  publisher = { arXiv } ,  
  year = { 2022 } , 
  copyright = { Creative Commons Attribution 4.0 International }
}

Ersetzen Sie das KI -Modell

Das deutsche KI-Modell und meine Trainingsskripte finden Sie auf dem Umarmungsface: https://huggingface.co/fxtentacle/wav2vec2-xls-r-1b-tevr

Das Modell wurde vor dem Training XLS-R-Verzug unterzogen. Sie können es direkt mit einem anderen Sprachdatensatz-z. B. CommonVoice-Englisch-fein abteilen und die Dateien dann im Ordner tevr-asr-data erneut exportieren.

Alternativ können Sie mir rund 2 Wochen A100 GPU -Credits spenden, und ich werde ein geeignetes Erkennungsmodell trainieren und es in das Huggingface hochladen.

Expandieren

Zusätzliche Informationen