speechT Download - speechT Download

speechT

AI-Quellcode

v2Letter paper

Herunterladen

Sprache

Eine OpenSource-Sprach-zu-Text-Software, die in TensorFlow geschrieben wurde. Erzusetzen einer Buchstabenfehlerrate von 8% und einer Wortfehlerrate von 20% im Librispeech -Testkorpus.

Installation

Voraussetzungen

Python3, Portaudio19-Dev und FFMPEG sind erforderlich.

Auf Ubuntu installieren über

 sudo apt install python3-pip portaudio19-dev ffmpeg

Installieren Sie über PIP3

 pip3 install git+https://github.com/timediv/speechT

Architektur

Derzeit basiert Sprache auf dem WAV2Letter -Papier und der CTC -Verlustfunktion.

Der Sprechkorpus von http://www.openslr.org/12/ wird automatisch heruntergeladen.
Hinweis: Der Korpus ist ungefähr 30 GB!

Ausbildung

Die Daten müssen vor dem Training vorverarbeitet werden

 speecht-cli preprocess

Dann führen Sie das Training durch, um das Training auszuführen

 speecht-cli train

Verwenden Sie --help für weitere Details.

Sie können das Training überwachen und andere Protokolle in Tensorboard sehen

 tensorboard --logdir log/

Testen

Im gesamten Testsatz zu bewerten

 speecht-cli evaluate

Auf einer einzigen Charge bewerten

 speecht-cli evaluate --step-count 1

Standardmäßig wird gierige Dekodierung verwendet. Siehe Abschnitt Using a language model zur Verwendung von KenLM zum Dekodieren.

Verwenden Sie --help für weitere Details.

Live -Nutzung

Zum Aufnehmen mit Ihrem Mikrofon und dann den Vorhersagelauf ausdrucken

 speecht-cli record

Verwenden Sie --help für weitere Details.

Geschulte Gewichte

Sie haben nicht die Ressourcen, um selbst zu trainieren? Laden Sie die Gewichte von hier herunter

 mkdir train
tar xf speechT-weights.tgz -C train/

Dann können Sie das Modell mit EG Evaluieren verwenden

 speecht-cli evaluate --run-name best_run

Verwenden eines Sprachmodells

Wenn Sie KenLM als Sprachmodell für die Dekodierung verwenden möchten, müssen Sie TensorFlow-mit-Kenlm kompilieren und installieren. Wenn Sie nur die CPU -Version von TensorFlow für Linux benötigen, können Sie sie stattdessen auch hier herunterladen.

Laden Sie dann alle erforderlichen Dateien von hier herunter

 tar xf kenlm-english.tgz
speecht-cli evaluate --language-model kenlm-english/

Ergebnisse

Mit den Standardparametern, die etwa 5 bis 6 Tage auf einem Nvidia Titan X geschult wurden.

Verlustkurve für Spracherkennungsausbildung

Gesamtstatistik

 Average Letter Edit Distance: 7.7125
Average Letter Error Rate: 8%
Average Word Edit Distance: 3.801953125
Average Word Error Rate: 20%

Ler, Wer und Vorhersagen an einigen Beispielen

 expected: but that is kaffar's knife
decoded: but that is caffr's klife 
LED: 4 LER: 0.15 WED: 2 WER: 0.40

expected: he moved uneasily and his chair creaked
decoded: he moved uneasily in his chair creet
LED: 5 LER: 0.13 WED: 2 WER: 0.29

expected: it is indeed true that the importance of tact and skill in the training of the young and of cultivating their reason and securing their affection can not be overrated
decoded: it is indeed true that the importance of tact and skill in the training of the young and of cultivating their reason and so carrying their affection can not be o rated
LED: 8 LER: 0.05 WED: 4 WER: 0.13

expected: she pressed his hand gently in gratitude
decoded: she pressed his hand gently in gratitude
LED: 0 LER: 0.00 WED: 0 WER: 0.00

expected: don't worry sizzle dear it'll all come right pretty soon
decoded: don't worry i l dear it all come riprety soon 
LED: 13 LER: 0.23 WED: 5 WER: 0.50

expected: may we see gates at once asked kenneth
decoded: may we see gates at once asked keneth 
LED: 2 LER: 0.05 WED: 1 WER: 0.12

Das gesamte Bewertungsprotokoll finden Sie hier.

Expandieren

Zusätzliche Informationen