Asisten suara secara bertahap menjadi bagian yang sangat diperlukan dari kehidupan kita sehari -hari. Namun, asisten suara digital yang ada sering tampak membosankan dan tidak memiliki elemen emosional dan manusiawi saat berinteraksi dengan pengguna. Untuk mengatasi hal ini, tim wijen bekerja untuk menerapkan konsep "kehadiran suara" yang benar -benar baru yang bertujuan untuk membuat asisten digital lebih realistis, dapat dimengerti, dan dihargai dalam komunikasi.

Tujuan inti Sesame adalah membuat teman digital, bukan hanya alat untuk menangani permintaan. Mitra digital ini berharap untuk secara bertahap membangun rasa kepercayaan dan kepercayaan diri melalui interaksi dengan pengguna, sehingga pengguna dapat mengalami komunikasi yang lebih kaya dan lebih mendalam dalam kehidupan sehari-hari mereka. Untuk mencapai hal ini, tim wijen berfokus pada beberapa komponen utama termasuk kecerdasan emosional, dinamika percakapan, kesadaran kontekstual, dan sifat kepribadian yang konsisten.
Kecerdasan emosional adalah kemampuan untuk memungkinkan asisten suara memahami dan menanggapi keadaan emosi pengguna. Itu tidak hanya tergantung pada pemahaman perintah suara, tetapi juga dapat memahami perubahan emosional dalam suara dan dengan demikian membuat umpan balik yang lebih tepat. Kedua, dinamika dialog menekankan ritme alami yang seharusnya dimiliki oleh asisten suara selama proses komunikasi, termasuk jeda tepat waktu, penekanan dan gangguan nada yang tepat, dll., Membuat dialog lebih halus dan alami.
Selain itu, kesadaran konteks juga penting. Dibutuhkan asisten suara untuk secara fleksibel menyesuaikan suara dan gaya mereka berdasarkan konteks dan sejarah percakapan agar sesuai dengan situasi saat ini. Kemampuan ini dapat membuat asisten digital tampak sesuai dalam berbagai kesempatan, sehingga meningkatkan kepuasan pengguna. Akhirnya, sifat -sifat kepribadian yang konsisten berarti bahwa asisten suara harus mempertahankan kepribadian dan gaya yang relatif konsisten dalam berbagai percakapan untuk meningkatkan rasa kepercayaan pengguna.
Namun, tidak mudah untuk mencapai tujuan "keberadaan suara". Tim Wijen telah membuat kemajuan dalam berbagai aspek kepribadian, ingatan, ekspresif, dan kesesuaian. Baru -baru ini, tim telah menunjukkan beberapa hasil eksperimen dalam pembangkit pidato dialog, terutama dalam hal keramahan dan ekspresi, sepenuhnya menunjukkan potensi metodenya.
Di tingkat teknis, tim Sesame mengusulkan pendekatan baru yang disebut "Model Fonetik Dialog" (CSM) untuk mengatasi kekurangan model Text-to-Speech (TTS) tradisional. Pendekatan ini memanfaatkan arsitektur konverter dan bertujuan untuk mencapai generasi bicara yang lebih alami dan koheren. CSM tidak hanya berurusan dengan pembelajaran multimodal teks dan audio, tetapi juga menyesuaikan output berdasarkan sejarah percakapan, sehingga menyelesaikan kekurangan model tradisional dalam pemahaman kontekstual.
Untuk memverifikasi efek model, tim Wijen menggunakan sejumlah besar data audio publik untuk pelatihan dan menyiapkan sampel pelatihan melalui transkripsi, segmentasi, dll. Mereka melatih model dengan ukuran yang berbeda dan mencapai hasil yang baik pada indikator evaluasi yang obyektif dan subyektif, dan meskipun model ini mendekati tingkat manusia dalam hal kealamian dan pengucapan adaptasi, masih ada kebutuhan yang dibatasi.
Dilihat dari sampel yang diberikan oleh pejabat, karya -karya yang dihasilkan hampir tidak dapat mendengar komponen AI apa pun, yang super realistis.
Tim Sesame berencana untuk membuka sumber penelitiannya sehingga masyarakat dapat berpartisipasi dalam eksperimen dan peningkatan. Langkah ini tidak hanya membantu mempercepat pengembangan dialog AI, tetapi juga berharap dapat mencakup lebih banyak skenario aplikasi dengan memperluas skala model dan dukungan bahasa. Selain itu, tim berencana untuk mengeksplorasi cara menggunakan model bahasa pra-terlatih untuk meletakkan dasar bagi pembangunan model multimodal.
Demo Proyek: https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo
Poin -Poin Kunci:
Tim Sesame berkomitmen untuk mencapai "kehadiran suara" sehingga asisten digital tidak hanya dapat menjalankan perintah, tetapi juga melakukan percakapan nyata.
Melalui dialog Fonetic Model (CSM), tim telah membuat terobosan baru dalam pemahaman konteks dan pembuatan bicara.
Tim merencanakan hasil penelitian open source dan memperluas dukungan bahasa untuk mendorong pengembangan lebih lanjut dari AI percakapan.