Eine OpenSource-Sprach-zu-Text-Software, die in TensorFlow geschrieben wurde. Erzusetzen einer Buchstabenfehlerrate von 8% und einer Wortfehlerrate von 20% im Librispeech -Testkorpus.
Python3, Portaudio19-Dev und FFMPEG sind erforderlich.
Auf Ubuntu installieren über
sudo apt install python3-pip portaudio19-dev ffmpeg
pip3 install git+https://github.com/timediv/speechT
Derzeit basiert Sprache auf dem WAV2Letter -Papier und der CTC -Verlustfunktion.
Der Sprechkorpus von http://www.openslr.org/12/ wird automatisch heruntergeladen.
Hinweis: Der Korpus ist ungefähr 30 GB!
Die Daten müssen vor dem Training vorverarbeitet werden
speecht-cli preprocess
Dann führen Sie das Training durch, um das Training auszuführen
speecht-cli train
Verwenden Sie --help für weitere Details.
Sie können das Training überwachen und andere Protokolle in Tensorboard sehen
tensorboard --logdir log/
Im gesamten Testsatz zu bewerten
speecht-cli evaluate
Auf einer einzigen Charge bewerten
speecht-cli evaluate --step-count 1
Standardmäßig wird gierige Dekodierung verwendet. Siehe Abschnitt Using a language model zur Verwendung von KenLM zum Dekodieren.
Verwenden Sie --help für weitere Details.
Zum Aufnehmen mit Ihrem Mikrofon und dann den Vorhersagelauf ausdrucken
speecht-cli record
Verwenden Sie --help für weitere Details.
Sie haben nicht die Ressourcen, um selbst zu trainieren? Laden Sie die Gewichte von hier herunter
mkdir train
tar xf speechT-weights.tgz -C train/
Dann können Sie das Modell mit EG Evaluieren verwenden
speecht-cli evaluate --run-name best_run
Wenn Sie KenLM als Sprachmodell für die Dekodierung verwenden möchten, müssen Sie TensorFlow-mit-Kenlm kompilieren und installieren. Wenn Sie nur die CPU -Version von TensorFlow für Linux benötigen, können Sie sie stattdessen auch hier herunterladen.
Laden Sie dann alle erforderlichen Dateien von hier herunter
tar xf kenlm-english.tgz
speecht-cli evaluate --language-model kenlm-english/
Mit den Standardparametern, die etwa 5 bis 6 Tage auf einem Nvidia Titan X geschult wurden.

Gesamtstatistik
Average Letter Edit Distance: 7.7125
Average Letter Error Rate: 8%
Average Word Edit Distance: 3.801953125
Average Word Error Rate: 20%
Ler, Wer und Vorhersagen an einigen Beispielen
expected: but that is kaffar's knife
decoded: but that is caffr's klife
LED: 4 LER: 0.15 WED: 2 WER: 0.40
expected: he moved uneasily and his chair creaked
decoded: he moved uneasily in his chair creet
LED: 5 LER: 0.13 WED: 2 WER: 0.29
expected: it is indeed true that the importance of tact and skill in the training of the young and of cultivating their reason and securing their affection can not be overrated
decoded: it is indeed true that the importance of tact and skill in the training of the young and of cultivating their reason and so carrying their affection can not be o rated
LED: 8 LER: 0.05 WED: 4 WER: 0.13
expected: she pressed his hand gently in gratitude
decoded: she pressed his hand gently in gratitude
LED: 0 LER: 0.00 WED: 0 WER: 0.00
expected: don't worry sizzle dear it'll all come right pretty soon
decoded: don't worry i l dear it all come riprety soon
LED: 13 LER: 0.23 WED: 5 WER: 0.50
expected: may we see gates at once asked kenneth
decoded: may we see gates at once asked keneth
LED: 2 LER: 0.05 WED: 1 WER: 0.12
Das gesamte Bewertungsprotokoll finden Sie hier.