Um software de fala para texto OpenSource escrito no TensorFlow. Alcançar uma taxa de erro de letra de 8% e taxa de erro de palavra de 20% no corpus de teste do Librisseech.
Python3, Portaudio19-DEV e FFMPEG são necessários.
Na instalação do Ubuntu via
sudo apt install python3-pip portaudio19-dev ffmpeg
pip3 install git+https://github.com/timediv/speechT
Atualmente, o discurso é baseado no papel wav2letter e na função de perda do CTC.
O corpus de fala em http://www.openslr.org/12/ é baixado automaticamente.
NOTA: O corpus tem cerca de 30 GB!
Os dados devem ser pré -processados antes do treinamento
speecht-cli preprocess
Então, para executar o treinamento, execute
speecht-cli train
Use --help para mais detalhes.
Você pode monitorar o treinamento e ver outros registros no Tensorboard
tensorboard --logdir log/
Para avaliar em todo o conjunto de testes
speecht-cli evaluate
Para avaliar em um único lote
speecht-cli evaluate --step-count 1
Por padrão, a decodificação gananciosa é usada. Consulte a seção Using a language model sobre como usar o Kenlm para decodificar.
Use --help para mais detalhes.
Para gravar usando seu microfone e depois imprima a execução da previsão
speecht-cli record
Use --help para mais detalhes.
Você não tem os recursos para treinar por conta própria? Baixe os pesos daqui
mkdir train
tar xf speechT-weights.tgz -C train/
Então você pode usar o modelo com por exemplo, avaliar
speecht-cli evaluate --run-name best_run
Se você deseja usar o Kenlm como um modelo de idioma para decodificar, você precisa compilar e instalar o tensorflow-with-kenlm. Se você precisar apenas da versão da CPU do TensorFlow para Linux, também poderá baixá -lo aqui.
Baixe todos os arquivos necessários daqui, então
tar xf kenlm-english.tgz
speecht-cli evaluate --language-model kenlm-english/
Com os parâmetros padrão treinados por cerca de 5 a 6 dias em um Nvidia Titan X.

Estatísticas gerais
Average Letter Edit Distance: 7.7125
Average Letter Error Rate: 8%
Average Word Edit Distance: 3.801953125
Average Word Error Rate: 20%
Ler, Wer e previsões em alguns exemplos
expected: but that is kaffar's knife
decoded: but that is caffr's klife
LED: 4 LER: 0.15 WED: 2 WER: 0.40
expected: he moved uneasily and his chair creaked
decoded: he moved uneasily in his chair creet
LED: 5 LER: 0.13 WED: 2 WER: 0.29
expected: it is indeed true that the importance of tact and skill in the training of the young and of cultivating their reason and securing their affection can not be overrated
decoded: it is indeed true that the importance of tact and skill in the training of the young and of cultivating their reason and so carrying their affection can not be o rated
LED: 8 LER: 0.05 WED: 4 WER: 0.13
expected: she pressed his hand gently in gratitude
decoded: she pressed his hand gently in gratitude
LED: 0 LER: 0.00 WED: 0 WER: 0.00
expected: don't worry sizzle dear it'll all come right pretty soon
decoded: don't worry i l dear it all come riprety soon
LED: 13 LER: 0.23 WED: 5 WER: 0.50
expected: may we see gates at once asked kenneth
decoded: may we see gates at once asked keneth
LED: 2 LER: 0.05 WED: 1 WER: 0.12
Todo o log de avaliação pode ser encontrado aqui.