Un logiciel OpenSource Speech-to-Text écrit dans TensorFlow. Atteindre un taux d'erreur de lettre de 8% et un taux d'erreur de mots de 20% sur le corpus de test de librisrisseech.
Python3, PortAudio19-DEV et FFMPEG sont nécessaires.
Sur Ubuntu Installer via
sudo apt install python3-pip portaudio19-dev ffmpeg
pip3 install git+https://github.com/timediv/speechT
Actuellement, Speecht est basé sur le papier WAV2letter et la fonction de perte CTC.
Le corpus de la parole de http://www.openslr.org/12/ est automatiquement téléchargé.
Remarque: le corpus est d'environ 30 Go!
Les données doivent être prétraitées avant l'entraînement
speecht-cli preprocess
Ensuite, pour exécuter la formation, exécuter
speecht-cli train
Utiliser --help pour plus de détails.
Vous pouvez surveiller la formation et voir d'autres journaux dans Tensorboard
tensorboard --logdir log/
Pour évaluer sur l'ensemble des tests
speecht-cli evaluate
Pour évaluer sur un seul lot
speecht-cli evaluate --step-count 1
Par défaut, le décodage gourmand est utilisé. Voir la section Using a language model sur la façon d'utiliser Kenlm pour le décodage.
Utiliser --help pour plus de détails.
Pour enregistrer en utilisant votre microphone, puis imprimer l'exécution de la prédiction
speecht-cli record
Utiliser --help pour plus de détails.
Vous n'avez pas les ressources pour vous entraîner par vous-même? Téléchargez les poids à partir d'ici
mkdir train
tar xf speechT-weights.tgz -C train/
Ensuite, vous pouvez utiliser le modèle avec EG Evaluer
speecht-cli evaluate --run-name best_run
Si vous souhaitez utiliser Kenlm comme modèle de langue pour le décodage, vous devez compiler et installer TensorFlow-with-kenlm. Si vous n'avez besoin que de la version CPU de TensorFlow pour Linux, vous pouvez également le télécharger ici à la place.
Téléchargez tous les fichiers nécessaires à partir d'ici, puis
tar xf kenlm-english.tgz
speecht-cli evaluate --language-model kenlm-english/
Avec les paramètres par défaut formés pendant environ 5 à 6 jours sur un Nvidia Titan X.

Statistiques globales
Average Letter Edit Distance: 7.7125
Average Letter Error Rate: 8%
Average Word Edit Distance: 3.801953125
Average Word Error Rate: 20%
Ler, Wer et prédictions sur quelques exemples
expected: but that is kaffar's knife
decoded: but that is caffr's klife
LED: 4 LER: 0.15 WED: 2 WER: 0.40
expected: he moved uneasily and his chair creaked
decoded: he moved uneasily in his chair creet
LED: 5 LER: 0.13 WED: 2 WER: 0.29
expected: it is indeed true that the importance of tact and skill in the training of the young and of cultivating their reason and securing their affection can not be overrated
decoded: it is indeed true that the importance of tact and skill in the training of the young and of cultivating their reason and so carrying their affection can not be o rated
LED: 8 LER: 0.05 WED: 4 WER: 0.13
expected: she pressed his hand gently in gratitude
decoded: she pressed his hand gently in gratitude
LED: 0 LER: 0.00 WED: 0 WER: 0.00
expected: don't worry sizzle dear it'll all come right pretty soon
decoded: don't worry i l dear it all come riprety soon
LED: 13 LER: 0.23 WED: 5 WER: 0.50
expected: may we see gates at once asked kenneth
decoded: may we see gates at once asked keneth
LED: 2 LER: 0.05 WED: 1 WER: 0.12
L'ensemble du journal d'évaluation se trouve ici.