Téléchargement speechT - Téléchargement du code source speechT

speechT

Code Source AI

v2Letter paper

Télécharger

discours

Un logiciel OpenSource Speech-to-Text écrit dans TensorFlow. Atteindre un taux d'erreur de lettre de 8% et un taux d'erreur de mots de 20% sur le corpus de test de librisrisseech.

Installation

Condition préalable

Python3, PortAudio19-DEV et FFMPEG sont nécessaires.

Sur Ubuntu Installer via

 sudo apt install python3-pip portaudio19-dev ffmpeg

Installer via PIP3

 pip3 install git+https://github.com/timediv/speechT

Architecture

Actuellement, Speecht est basé sur le papier WAV2letter et la fonction de perte CTC.

Le corpus de la parole de http://www.openslr.org/12/ est automatiquement téléchargé.
Remarque: le corpus est d'environ 30 Go!

Entraînement

Les données doivent être prétraitées avant l'entraînement

 speecht-cli preprocess

Ensuite, pour exécuter la formation, exécuter

 speecht-cli train

Utiliser --help pour plus de détails.

Vous pouvez surveiller la formation et voir d'autres journaux dans Tensorboard

 tensorboard --logdir log/

Essai

Pour évaluer sur l'ensemble des tests

 speecht-cli evaluate

Pour évaluer sur un seul lot

 speecht-cli evaluate --step-count 1

Par défaut, le décodage gourmand est utilisé. Voir la section Using a language model sur la façon d'utiliser Kenlm pour le décodage.

Utiliser --help pour plus de détails.

Utilisation en direct

Pour enregistrer en utilisant votre microphone, puis imprimer l'exécution de la prédiction

 speecht-cli record

Utiliser --help pour plus de détails.

Poids formés

Vous n'avez pas les ressources pour vous entraîner par vous-même? Téléchargez les poids à partir d'ici

 mkdir train
tar xf speechT-weights.tgz -C train/

Ensuite, vous pouvez utiliser le modèle avec EG Evaluer

 speecht-cli evaluate --run-name best_run

Utilisation d'un modèle de langue

Si vous souhaitez utiliser Kenlm comme modèle de langue pour le décodage, vous devez compiler et installer TensorFlow-with-kenlm. Si vous n'avez besoin que de la version CPU de TensorFlow pour Linux, vous pouvez également le télécharger ici à la place.

Téléchargez tous les fichiers nécessaires à partir d'ici, puis

 tar xf kenlm-english.tgz
speecht-cli evaluate --language-model kenlm-english/

Résultats

Avec les paramètres par défaut formés pendant environ 5 à 6 jours sur un Nvidia Titan X.

Courbe de perte pour la formation de reconnaissance de la parole

Statistiques globales

 Average Letter Edit Distance: 7.7125
Average Letter Error Rate: 8%
Average Word Edit Distance: 3.801953125
Average Word Error Rate: 20%

Ler, Wer et prédictions sur quelques exemples

 expected: but that is kaffar's knife
decoded: but that is caffr's klife 
LED: 4 LER: 0.15 WED: 2 WER: 0.40

expected: he moved uneasily and his chair creaked
decoded: he moved uneasily in his chair creet
LED: 5 LER: 0.13 WED: 2 WER: 0.29

expected: it is indeed true that the importance of tact and skill in the training of the young and of cultivating their reason and securing their affection can not be overrated
decoded: it is indeed true that the importance of tact and skill in the training of the young and of cultivating their reason and so carrying their affection can not be o rated
LED: 8 LER: 0.05 WED: 4 WER: 0.13

expected: she pressed his hand gently in gratitude
decoded: she pressed his hand gently in gratitude
LED: 0 LER: 0.00 WED: 0 WER: 0.00

expected: don't worry sizzle dear it'll all come right pretty soon
decoded: don't worry i l dear it all come riprety soon 
LED: 13 LER: 0.23 WED: 5 WER: 0.50

expected: may we see gates at once asked kenneth
decoded: may we see gates at once asked keneth 
LED: 2 LER: 0.05 WED: 1 WER: 0.12

L'ensemble du journal d'évaluation se trouve ici.

Développer

Informations supplémentaires