Model sintesis suara terbaru Sesame "Conversational Speech Model" (CSM) baru -baru ini memicu diskusi panas pada platform X dan dikenal sebagai "model suara yang seperti orang sungguhan." Dengan sifatnya yang luar biasa dan kemampuan ekspresi emosional, model ini tidak hanya membuat pengguna "tidak dapat lagi membedakan" perbedaannya dari manusia, tetapi juga mengklaim telah berhasil melintasi "efek lembah yang luar biasa" di bidang suara. Dengan penyebaran video demonstrasi dan umpan balik pengguna, CSM dengan cepat menjadi tolok ukur baru untuk teknologi suara AI.

Melintasi "Lembah Bawah Dunia": Terobosan Teknologi CSM
"Efek Lembah Underworld" mengacu pada ketidaknyamanan ketidaknyamanan manusia ketika suara atau gambar yang disintesis secara artifisial dekat dengan manusia nyata tetapi masih ada perbedaan yang halus. Wijen berurusan dengan masalah ini secara langsung melalui model CSM-nya. X pengguna @imxiaohu diposting pada 1 Maret: "Saudara, model suara baru ini luar biasa dan tidak bisa lagi dibedakan!" Dia menunjukkan bahwa CSM memiliki kinerja yang sangat baik dalam kepribadian, memori, kemampuan ekspresi dan kesesuaian kontekstual, hampir menghilangkan perasaan mekanis asisten suara tradisional.
Tim Sesame menyatakan dalam artikel penelitian resmi bahwa tujuan CSM adalah untuk mencapai "kehadiran suara" - membuat interaksi suara tidak hanya benar dan dapat dipercaya, tetapi juga memahami dan dihargai. Terobosan ini disebabkan oleh komponen intinya: kecerdasan emosional (interpretasi dan respons terhadap emosi), memori konteks (menyesuaikan output berdasarkan riwayat dialog), dan teknologi generasi suara kesetiaan tinggi. Selama demonstrasi, CSM menunjukkan nada alami dan sisi emosional dalam percakapan yang sangat panjang, dan pengguna bahkan tidak dapat membedakannya sebagai AI tanpa menyadarinya.

Pengalaman pengguna yang realistis
Umpan balik pengguna pada platform X selanjutnya mengkonfirmasi kinerja CSM yang luar biasa. @imxiaohu berbagi demonstrasi dialog yang sangat panjang di pos, mencakup berbagai adegan dan skenario, dan menyesalkan: "Nada dan emosi sangat, sangat dekat dengan manusia dalam beberapa ekspresi, hahahaha." Dia menyebutkan bahwa dengan tidak adanya petunjuk, output dari model ini telah membuatnya sulit untuk membedakan antara benar dan salah. Pengguna lain @leeoxiang mengatakan pada 1 Maret bahwa ia berlatih berbicara bahasa Inggris dengan CSM selama setengah jam, dan hampir tidak ada penundaan yang dirasakan. Dia mengatakan bahwa "kosisisme dilakukan dengan sangat baik dan akan ada nada di dalamnya", dan kemampuannya untuk secara aktif berbicara juga mengesankan.
Antusiasme masyarakat tidak terbatas pada pujian. Banyak pengguna menunjukkan bahwa kefasihan dialog CSM dan ekspresi emosional telah melampaui model mainstream yang ada seperti mode suara chatgpt Openai. @OP7418 merekomendasikan agar para peneliti memperhatikan artikel teknis Sesame pada 28 Februari dan menekankan sistem evaluasi keaslian suara yang unik, menunjukkan kekakuan teknis model.
Masih ruang untuk perbaikan: rencana masa depan wijen
Terlepas dari kinerja CSM yang mengejutkan, Sesame secara resmi mengakui bahwa ini bukan akhir. @imxiaohu mengutip pernyataan resmi dan berkata, "Ini bukan yang paling sempurna, masih ada banyak ruang untuk perbaikan!" Saat ini, CSM mendukung berbagai bahasa seperti bahasa Inggris, tetapi seperti yang ditunjukkan @leeoxiang, bahasa Mandarin belum didukung. Selain itu, beberapa pengguna menemukan dalam pengujian bahwa kinerja model dalam konteks tertentu (seperti switching bahasa asing atau nyanyian musik) masih memiliki ruang untuk perbaikan.
Sesame telah berjanji untuk membuka sumber beberapa hasil penelitiannya, dan halaman GitHub -nya (SESAMAAILABS/CSM) menunjukkan bahwa CSM akan dilisensikan di bawah Apache2.0. Langkah ini telah membangkitkan harapan dari komunitas pengembang, dan banyak orang berharap untuk lebih mempromosikan pengembangan suara AI melalui penelitian mendalam tentang arsitekturnya.
Dampak industri dan prospek
Debut CSM tidak hanya respons teknis terhadap "efek lembah unortal", tetapi juga menetapkan standar baru untuk interaksi suara AI. Dibandingkan dengan Grok, Claude dan model lain, CSM memiliki keunggulan yang sangat luar biasa dalam real-time, latensi rendah dan ekspresi emosional. X pengguna @ablegpt mengatakan pada 2 Maret: "Jika Anda mempelajari suara AI, sangat disarankan untuk membaca artikel ini." Ini mencerminkan signifikansi inspirasional CSM ke lingkaran teknologi.
Dengan perencanaan wijen untuk memperluas dukungan bahasa dan mengoptimalkan model, CSM diharapkan bersinar di bidang -bidang seperti pendidikan, hiburan dan teman virtual. Menilai dari respons yang antusias di X, model suara "berpikir itu luar biasa" ini mendefinisikan kembali cara orang berinteraksi dengan AI dengan dialog yang realistis. Di masa depan, dapatkah itu sepenuhnya menghilangkan "lembah aneh" dan menjadi "mitra digital" sejati? Jawabannya mungkin dalam iterasi wijen berikutnya.
Alamat uji coba: https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo