Pada 13 Maret, Sesame secara resmi merilis model sintesis suara terbarunya CSM, yang dengan cepat menarik perhatian luas dari industri. Menurut pengantar resmi, CSM mengadopsi arsitektur pembelajaran multimodal ujung ke ujung berdasarkan transformator, yang dapat sangat memahami informasi konteks dan menghasilkan suara alami dan emosional. Efek suaranya sangat realistis, hampir sama dengan orang sungguhan, dan luar biasa.
Model CSM tidak hanya mendukung pembuatan suara real-time, tetapi juga menangani input teks dan audio. Pengguna dapat menyesuaikan parameter untuk mengontrol karakteristik seperti nada, nada, ritme dan emosi, menunjukkan fleksibilitas yang sangat tinggi. Kemampuan pembuatan suara yang dipersonalisasi ini memungkinkan CSM untuk berkinerja baik dalam berbagai skenario aplikasi.
CSM dianggap sebagai terobosan besar di bidang teknologi suara AI. Pengucapannya sangat alami, dan bahkan mencapai tingkat "tidak diketahui sebagai sintesis buatan atau orang sungguhan". Beberapa pengguna merekam video untuk menunjukkan bahwa CSM hampir tidak memiliki penundaan dan menyebutnya "model terkuat yang pernah dialami." Sebelumnya, Sesame telah membuka sumber versi kecil CSM-1B, yang mendukung beberapa putaran dialog untuk menghasilkan suara yang koheren, yang telah menerima pujian luas.
Saat ini, CSM terutama berlatih untuk bahasa Inggris dan tampil sangat baik. Namun, CSM masih memiliki keterbatasan tertentu dalam hal dukungan multibahasa. Saat ini, model ini tidak mendukung bahasa Mandarin, tetapi Sesame mengatakan diharapkan untuk memperluas dukungan bahasanya di masa depan untuk memenuhi kebutuhan lebih banyak pengguna.
Sesame juga mengatakan akan open source hasil penelitiannya, sebuah keputusan yang telah memicu diskusi panas di antara pengembang masyarakat di GitHub. CSM tidak hanya cocok untuk AI percakapan, tetapi juga dapat mempromosikan inovasi dalam pengalaman interaksi suara di bidang -bidang seperti pendidikan dan hiburan. Orang dalam industri umumnya percaya bahwa CSM dapat membentuk kembali standar asisten suara AI dan membawa pengalaman dialog komputer manusia yang lebih alami.