Tensorflowで書かれたOpenSourceの音声からテキストからテキストへのソフトウェア。 Librispeech Test Corpusで8%の文字エラー率と20%の単語エラー率を達成します。
python3、portaudio19-dev、ffmpegが必要です。
ubuntuでインストールします
sudo apt install python3-pip portaudio19-dev ffmpeg
pip3 install git+https://github.com/timediv/speechT
現在、SpeechTはWAV2letterペーパーとCTC損失関数に基づいています。
http://www.openslr.org/12/からの音声コーパスは自動的にダウンロードされます。
注:コーパスは約30GBです!
データは、トレーニング前に前処理する必要があります
speecht-cli preprocess
次に、トレーニングを実行するには、実行します
speecht-cli train
詳細については、 --helpを使用してください。
トレーニングを監視し、テンソルボードで他のログを見ることができます
tensorboard --logdir log/
テストセットの実行全体で評価します
speecht-cli evaluate
単一のバッチで評価します
speecht-cli evaluate --step-count 1
デフォルトでは、貪欲なデコードが使用されます。デコードにkenlmを使用する方法に関するUsing a language modelセクションを参照してください。
詳細については、 --helpを使用してください。
マイクを使用して記録し、予測実行を印刷するには
speecht-cli record
詳細については、 --helpを使用してください。
自分で訓練するリソースはありませんか?ここからウェイトをダウンロードしてください
mkdir train
tar xf speechT-weights.tgz -C train/
次に、Evaluateを使用してモデルを使用できます
speecht-cli evaluate --run-name best_run
kenlmをデコードの言語モデルとして使用したい場合は、tensorflow-with-kenlmをコンパイルしてインストールする必要があります。 Linux用のTensorflowのCPUバージョンのみが必要な場合は、代わりにここからダウンロードすることもできます。
ここから必要なすべてのファイルをダウンロードしてください
tar xf kenlm-english.tgz
speecht-cli evaluate --language-model kenlm-english/
Nvidia Titan Xで約5〜6日間トレーニングされたデフォルトのパラメーターを使用して。

全体的な統計
Average Letter Edit Distance: 7.7125
Average Letter Error Rate: 8%
Average Word Edit Distance: 3.801953125
Average Word Error Rate: 20%
いくつかの例については、LER、WER、および予測
expected: but that is kaffar's knife
decoded: but that is caffr's klife
LED: 4 LER: 0.15 WED: 2 WER: 0.40
expected: he moved uneasily and his chair creaked
decoded: he moved uneasily in his chair creet
LED: 5 LER: 0.13 WED: 2 WER: 0.29
expected: it is indeed true that the importance of tact and skill in the training of the young and of cultivating their reason and securing their affection can not be overrated
decoded: it is indeed true that the importance of tact and skill in the training of the young and of cultivating their reason and so carrying their affection can not be o rated
LED: 8 LER: 0.05 WED: 4 WER: 0.13
expected: she pressed his hand gently in gratitude
decoded: she pressed his hand gently in gratitude
LED: 0 LER: 0.00 WED: 0 WER: 0.00
expected: don't worry sizzle dear it'll all come right pretty soon
decoded: don't worry i l dear it all come riprety soon
LED: 13 LER: 0.23 WED: 5 WER: 0.50
expected: may we see gates at once asked kenneth
decoded: may we see gates at once asked keneth
LED: 2 LER: 0.05 WED: 1 WER: 0.12
評価ログ全体はここにあります。