MASR adalah proyek pengenalan suara Mandarin Cina berdasarkan jaringan saraf dalam ujung ke ujung .
MASR menggunakan jaringan saraf konvolusional yang terjaga keamanannya, dengan struktur jaringan yang mirip dengan WAV2LETTER yang diusulkan oleh Facebook pada tahun 2016. Tetapi fungsi aktivasi yang digunakan bukan ReLU atau HardTanh , tetapi GLU (unit linier yang terjaga keamanannya). Oleh karena itu, ini disebut jaringan konvolusional yang terjaga keamanannya. Menurut percobaan saya, menggunakan konvergensi GLU lebih cepat daripada HardTanh . Jika Anda ingin mempelajari efek jaringan konvolusional untuk pengenalan suara, proyek ini dapat digunakan sebagai referensi.
Berikut ini adalah kata tingkat kesalahan CER untuk mengukur kinerja model. Cer = edit jarak/panjang kalimat, semakin rendah semakin baik.
Ini dapat dipahami secara kasar sebagai 1 - cer adalah akurasi pengakuan.
Model ini dilatih menggunakan dataset Aishell-1, dengan total 150 jam perekaman, mencakup lebih dari 4.000 karakter Cina. Sistem pengenalan suara yang digunakan dalam industri biasanya menggunakan setidaknya 10 kali data perekaman proyek ini untuk melatih model bahasa , dan tidak berharap proyek ini sebanding dengan efek pengakuan industri. Ini tidak realistis untuk setiap proyek individu di GitHub, kecuali teknologi yang lebih canggih lahir.
Apa model bahasa untuk pelatihan corpus untuk skenario tertentu? Misalnya, ketika Anda menggunakan pengenalan suara dalam permainan, itu cenderung mengenali kata -kata Anda sebagai apa yang mungkin Anda katakan saat bermain game, seperti "Diao Chan dikalahkan sampai mati oleh LAN". Dalam adegan lain, "Diao Chan dipukuli sampai mati oleh LAN" sama sekali bukan hukuman yang mulus. Jika Anda tidak mempercayainya, Anda akan mengatakan kepada seseorang yang baru saja membaca romansa tiga kerajaan dan tidak pernah bermain Honor of Kings, "Diao Chan dipukuli sampai mati oleh Lan." Anda yakin dia tidak akan bertanya kepada Anda: "Apa? Siapa Diao Chan dibunuh oleh? Siapa Lan?"
Pada kartu tunggal GTX 1080TI, dibutuhkan sekitar 20 menit untuk model untuk mengulangi satu zaman. (Versi CUDA dari laboratorium relatif rendah, dan tidak dikesampingkan bahwa itu akan lebih cepat setelah memperbarui versi CUDA.)
Gambar di atas menunjukkan kurva pelatihan CER dengan zaman set verifikasi. Dapat dilihat bahwa set verifikasi CER telah turun menjadi 11%.
Kinerja set tes tidak ditunjukkan pada gambar. CER dari set tes sedikit lebih tinggi, pada 14%.
CER dari set tes dapat dikurangi menjadi 8% melalui model bahasa eksternal.
Model pra-terlatih yang saat ini disediakan oleh proyek telah dilatih untuk sekitar 100 zaman, yang hampir merupakan yang terbaik.