SimpleSpeechloop: Demonstrasi yang sangat mendasar yang menghubungkan pengenalan suara dan teks-ke-speech, menggunakan dua proyek Mozilla:
Deepspeech
Tts
Ini adalah bot yang mendengarkan apa yang Anda katakan dengan pengenalan ucapan yang berjalan secara lokal dan kemudian memberikan beberapa respons (terbatas) menggunakan teks-ke-speech
Lihat video demo di sini: https://www.youtube.com/watch?v=cdu6oz1bnoy
PERINGATAN: memang mengharuskan Anda memiliki instalasi kerja DeepSpeech ( v0.7.0 ) dan TTS, yang mungkin memerlukan sejumlah keterampilan untuk mengatur (meskipun itu semakin mudah dan lebih mudah berkat upaya dari DEV pada proyek masing -masing).
Jika Anda mengalami masalah untuk menyiapkan salah satu dari mereka, pendekatan terbaik adalah dengan hati -hati membaca instruksi instalasi untuk memastikan Anda tidak melewatkan apa pun dan jika Anda yakin bahwa Anda telah mengesampingkan masalah potensial yang jelas maka angkatnya di forum wacana yang relevan (memberikan rincian yang jelas tentang apa yang Anda lakukan - ingat, orang lain tidak akan dapat membantu Anda jika Anda tidak jelas pada bagian ini )
Wacana deepspeech
Wacana tts
Ada lima tindakan dasar:
Menggemakan: ini adalah default - itu akan menggemakan apa pun yang menurut pengenalan ucapan itu mendengar Anda katakan
"Ceritakan tentang ___": Ini akan mencari dokumen Wikipedia untuk kata yang muncul setelah "Tell Me About" dan baca kembali ringkasannya. Contoh yang baik adalah hal -hal seperti elemen, mis.
"Make a Robot Noise": Ini akan memutar file robot_noise.wav ( yang ini bisa cukup sering diabaikan, setidaknya dengan model pidato saya sejauh ini! ) [Saat ini dikomentari]
"Jeda": Ini akan berhenti mendengarkan selama 20 detik (jadi menghentikan gema yang tak henti -hentinya !!)
"Stop": Ini akan menyebabkan aplikasi berhenti berjalan
Dengan melihat kode, Anda harus dapat menambahkan lebih banyak. Untuk sesuatu yang lebih rumit, Anda akan menginginkan pendekatan yang lebih canggih di luar lingkaran sederhana semacam ini.
Harap dicatat bahwa jika ada perubahan dalam API dari kedua proyek pendukung seiring kemajuan versi mereka, Anda mungkin perlu melakukan penyesuaian kode di sini agar tetap berfungsi. Ini harus bekerja dengan versi 0,51 Deepspeech. Ini secara efektif merupakan versi yang diadaptasi dari demo VAD dari contoh Deepspeech repo dengan TTS dibaut dan beberapa trik sederhana untuk mengatakan sesuatu kembali kepada Anda.
Itu dibagikan "sebagaimana adanya" dengan harapan itu membantu dalam beberapa cara kecil?
Saya hanya mengujinya di Linux - semoga sukses jika Anda mencoba menyesuaikannya untuk Mac / Windows!
Pengaturan Audio: Pastikan Anda memiliki mikrofon yang berfungsi dan audio yang terhubung ke speaker atau headphone!
Instal DeepSpeech dan TTS - terbaik untuk merujuk pada proyek -proyek tersebut secara langsung. Rekomendasikan Anda melakukannya di lingkungan virtual untuk masing -masing (demo.py dijalankan dari Deepspeech dan server TTS dijalankan dari TTS One). Anda juga harus menginstal persyaratan demo.py (di lingkungan Deepspeech) - dari memori itu adalah permintaan, berwarna -warni dan pyaudio (tetapi periksa file tersebut untuk memastikan). Deepspeech harus dirilis v0.7.0.
Mulai server TTS - biasanya Anda mungkin menjalankan ini secara lokal. Cukup pastikan bahwa titik akhir dalam demo.py diperbarui untuk dicocokkan (saat ini diatur ke http://0.0.0.0:5002/api/tts)
Jalankan demo.py -python demo.py -d 7 -m ../models/your_model_folder/
Parameternya sama dengan demo VAD dari contoh DeepSpeech repo.
-D adalah saluran untuk mikrofon Anda (Anda dapat memeriksa saluran ALSA dengan show_alsa_channels.py )
-M adalah lokasi direktori untuk model Deepspeech yang Anda rencanakan untuk digunakan (misalnya yang Anda latih / disesuaikan atau yang sudah dilatih sebelumnya)