Perangkat lunak OpenSource ucapan-ke-teks yang ditulis dalam TensorFlow. Mencapai tingkat kesalahan huruf 8% dan tingkat kesalahan kata 20% pada corpus uji Librispeech.
Python3, PortAudio19-Dev dan FFMPEG diperlukan.
Di Ubuntu Install Via
sudo apt install python3-pip portaudio19-dev ffmpeg
pip3 install git+https://github.com/timediv/speechT
Saat ini pidato didasarkan pada kertas WAV2LETTER dan fungsi kerugian CTC.
The Speech Corpus dari http://www.openslr.org/12/ secara otomatis diunduh.
Catatan: Corpus sekitar 30GB!
Data harus diproses sebelum pelatihan
speecht-cli preprocess
Kemudian, untuk menjalankan pelatihan, mengeksekusi
speecht-cli train
Gunakan --help untuk detail lebih lanjut.
Anda dapat memantau pelatihan dan melihat log lain di Tensorboard
tensorboard --logdir log/
Untuk mengevaluasi seluruh set tes run
speecht-cli evaluate
Untuk mengevaluasi satu batch tunggal
speecht-cli evaluate --step-count 1
Secara default decoding serakah digunakan. Lihat bagian Using a language model tentang cara menggunakan Kenlm untuk decoding.
Gunakan --help untuk detail lebih lanjut.
Untuk merekam menggunakan mikrofon Anda dan kemudian mencetak Prediksi Run
speecht-cli record
Gunakan --help untuk detail lebih lanjut.
Anda tidak memiliki sumber daya untuk berlatih sendiri? Unduh bobot dari sini
mkdir train
tar xf speechT-weights.tgz -C train/
Maka Anda dapat menggunakan model dengan EG EVALUASI
speecht-cli evaluate --run-name best_run
Jika Anda ingin menggunakan Kenlm sebagai model bahasa untuk decoding, Anda perlu mengkompilasi dan menginstal TensorFlow-dengan-Kenlm. Jika Anda hanya memerlukan versi CPU dari TensorFlow untuk Linux, Anda juga dapat mengunduhnya di sini.
Unduh semua file yang diperlukan dari sini, lalu
tar xf kenlm-english.tgz
speecht-cli evaluate --language-model kenlm-english/
Dengan parameter default yang dilatih selama sekitar 5 hingga 6 hari di NVIDIA Titan X.

Statistik keseluruhan
Average Letter Edit Distance: 7.7125
Average Letter Error Rate: 8%
Average Word Edit Distance: 3.801953125
Average Word Error Rate: 20%
Ler, wer dan prediksi pada beberapa contoh
expected: but that is kaffar's knife
decoded: but that is caffr's klife
LED: 4 LER: 0.15 WED: 2 WER: 0.40
expected: he moved uneasily and his chair creaked
decoded: he moved uneasily in his chair creet
LED: 5 LER: 0.13 WED: 2 WER: 0.29
expected: it is indeed true that the importance of tact and skill in the training of the young and of cultivating their reason and securing their affection can not be overrated
decoded: it is indeed true that the importance of tact and skill in the training of the young and of cultivating their reason and so carrying their affection can not be o rated
LED: 8 LER: 0.05 WED: 4 WER: 0.13
expected: she pressed his hand gently in gratitude
decoded: she pressed his hand gently in gratitude
LED: 0 LER: 0.00 WED: 0 WER: 0.00
expected: don't worry sizzle dear it'll all come right pretty soon
decoded: don't worry i l dear it all come riprety soon
LED: 13 LER: 0.23 WED: 5 WER: 0.50
expected: may we see gates at once asked kenneth
decoded: may we see gates at once asked keneth
LED: 2 LER: 0.05 WED: 1 WER: 0.12
Seluruh log evaluasi dapat ditemukan di sini.