برنامج OpenSource Speech إلى Text مكتوب في TensorFlow. تحقيق معدل خطأ في الحروف 8 ٪ ومعدل خطأ الكلمة من 20 ٪ على مجموعة اختبار Librispeech.
Python3 ، portaudio19-dev و ffmpeg مطلوبة.
على تثبيت Ubuntu عبر
sudo apt install python3-pip portaudio19-dev ffmpeg
pip3 install git+https://github.com/timediv/speechT
يعتمد الكلام حاليًا على ورقة WAV2Letter ووظيفة فقدان CTC.
يتم تنزيل مجموعة الكلام من http://www.openslr.org/12/ تلقائيًا.
ملاحظة: الإحضار حوالي 30 جيجابايت!
يجب معالجة البيانات قبل التدريب
speecht-cli preprocess
ثم ، لتشغيل التدريب ، تنفيذ
speecht-cli train
استخدم --help لمزيد من التفاصيل.
يمكنك مراقبة التدريب ومشاهدة سجلات أخرى في Tensorboard
tensorboard --logdir log/
لتقييم مجموعة الاختبار بأكملها
speecht-cli evaluate
للتقييم على دفعة واحدة
speecht-cli evaluate --step-count 1
بشكل افتراضي ، يتم فك تشفير الجشع. انظر القسم Using a language model حول كيفية استخدام Kenlm لفك تشفير.
استخدم --help لمزيد من التفاصيل.
للتسجيل باستخدام الميكروفون الخاص بك ثم طباعة تشغيل التنبؤ
speecht-cli record
استخدم --help لمزيد من التفاصيل.
ليس لديك الموارد التي يجب تدريبها بمفردك؟ قم بتنزيل الأوزان من هنا
mkdir train
tar xf speechT-weights.tgz -C train/
ثم يمكنك استخدام النموذج مع EG تقييم
speecht-cli evaluate --run-name best_run
إذا كنت ترغب في استخدام KENLM كنموذج لغة لفك تشفيرك ، فيجب عليك تجميع وتثبيت TensorFlow-With-Kenlm. إذا كنت بحاجة فقط إلى إصدار وحدة المعالجة المركزية من TensorFlow لـ Linux ، فيمكنك أيضًا تنزيله هنا بدلاً من ذلك.
قم بتنزيل جميع الملفات اللازمة من هنا ، ثم
tar xf kenlm-english.tgz
speecht-cli evaluate --language-model kenlm-english/
مع المعلمات الافتراضية المدربة لمدة 5 إلى 6 أيام على Nvidia Titan X.

الإحصاءات الشاملة
Average Letter Edit Distance: 7.7125
Average Letter Error Rate: 8%
Average Word Edit Distance: 3.801953125
Average Word Error Rate: 20%
LER ، WER والتنبؤات على بعض الأمثلة
expected: but that is kaffar's knife
decoded: but that is caffr's klife
LED: 4 LER: 0.15 WED: 2 WER: 0.40
expected: he moved uneasily and his chair creaked
decoded: he moved uneasily in his chair creet
LED: 5 LER: 0.13 WED: 2 WER: 0.29
expected: it is indeed true that the importance of tact and skill in the training of the young and of cultivating their reason and securing their affection can not be overrated
decoded: it is indeed true that the importance of tact and skill in the training of the young and of cultivating their reason and so carrying their affection can not be o rated
LED: 8 LER: 0.05 WED: 4 WER: 0.13
expected: she pressed his hand gently in gratitude
decoded: she pressed his hand gently in gratitude
LED: 0 LER: 0.00 WED: 0 WER: 0.00
expected: don't worry sizzle dear it'll all come right pretty soon
decoded: don't worry i l dear it all come riprety soon
LED: 13 LER: 0.23 WED: 5 WER: 0.50
expected: may we see gates at once asked kenneth
decoded: may we see gates at once asked keneth
LED: 2 LER: 0.05 WED: 1 WER: 0.12
يمكن العثور على سجل التقييم بأكمله هنا.