OpenSource Speech-Text Software, написанное в Tensorflow. Достижение уровня ошибок букв в 8% и частота ошибок слов в 20% в Тестовом корпусе Librispeech.
Требуются Python3, Portaudio19-DEV и FFMPEG.
На Ubuntu Install через
sudo apt install python3-pip portaudio19-dev ffmpeg
pip3 install git+https://github.com/timediv/speechT
В настоящее время речи основаны на бумаге Wav2letter и функции потерь CTC.
Речевой корпус с http://www.openslr.org/12/ автоматически загружается.
Примечание: корпус составляет около 30 ГБ!
Данные должны быть предварительно обработаны перед обучением
speecht-cli preprocess
Затем, чтобы запустить обучение, выполнить
speecht-cli train
Используйте --help для более подробной информации.
Вы можете отслеживать обучение и увидеть другие журналы в Tensorboard
tensorboard --logdir log/
Чтобы оценить по всему тестовому набору.
speecht-cli evaluate
Оценить одну партию
speecht-cli evaluate --step-count 1
По умолчанию используется жадное декодирование. См. Раздел Using a language model о том, как использовать Kenlm для декодирования.
Используйте --help для более подробной информации.
Чтобы записать с использованием микрофона, а затем распечатать прогон прогнозирования
speecht-cli record
Используйте --help для более подробной информации.
У вас нет ресурсов для тренировок самостоятельно? Скачать веса отсюда
mkdir train
tar xf speechT-weights.tgz -C train/
Тогда вы можете использовать модель с помощью EG Engaute
speecht-cli evaluate --run-name best_run
Если вы хотите использовать Kenlm в качестве языковой модели для декодирования, вам нужно компилировать и установить Tensorflow-with-kenlm. Если вам требуется только версия CPU TensorFlow для Linux, вы также можете загрузить его здесь.
Загрузите все необходимые файлы отсюда, затем
tar xf kenlm-english.tgz
speecht-cli evaluate --language-model kenlm-english/
С параметрами по умолчанию, обученным в течение примерно 5-6 дней на Nvidia Titan X.

Общая статистика
Average Letter Edit Distance: 7.7125
Average Letter Error Rate: 8%
Average Word Edit Distance: 3.801953125
Average Word Error Rate: 20%
LER, WER и прогнозы по нескольким примерам
expected: but that is kaffar's knife
decoded: but that is caffr's klife
LED: 4 LER: 0.15 WED: 2 WER: 0.40
expected: he moved uneasily and his chair creaked
decoded: he moved uneasily in his chair creet
LED: 5 LER: 0.13 WED: 2 WER: 0.29
expected: it is indeed true that the importance of tact and skill in the training of the young and of cultivating their reason and securing their affection can not be overrated
decoded: it is indeed true that the importance of tact and skill in the training of the young and of cultivating their reason and so carrying their affection can not be o rated
LED: 8 LER: 0.05 WED: 4 WER: 0.13
expected: she pressed his hand gently in gratitude
decoded: she pressed his hand gently in gratitude
LED: 0 LER: 0.00 WED: 0 WER: 0.00
expected: don't worry sizzle dear it'll all come right pretty soon
decoded: don't worry i l dear it all come riprety soon
LED: 13 LER: 0.23 WED: 5 WER: 0.50
expected: may we see gates at once asked kenneth
decoded: may we see gates at once asked keneth
LED: 2 LER: 0.05 WED: 1 WER: 0.12
Весь журнал оценки можно найти здесь.