أصبح المساعدون الصوتيون تدريجياً جزءًا لا غنى عنه من حياتنا اليومية. ومع ذلك ، غالبًا ما يبدو مساعدو الصوت الرقمي الحاليين عناصر عاطفية وإنسانية عند التفاعل مع المستخدمين. لمعالجة ذلك ، يعمل فريق Sesame على تنفيذ مفهوم جديد تمامًا عن "التواجد الصوتي" يهدف إلى جعل المساعدين الرقميين أكثر واقعية وفهمًا وقيمة في التواصل.

الهدف الأساسي لـ Sesame هو إنشاء رفيق رقمي ، وليس مجرد أداة للتعامل مع الطلبات. يأمل هؤلاء الشركاء الرقميون في بناء شعور بالثقة والثقة بالنفس تدريجياً من خلال التفاعل مع المستخدمين ، بحيث يمكن للمستخدمين تجربة تواصل أكثر ثراءً وأكثر عمقًا في حياتهم اليومية. ولتحقيق ذلك ، ركز فريق السمسم على العديد من المكونات الرئيسية بما في ذلك الذكاء العاطفي وديناميات المحادثة والوعي السياقي وسمات الشخصية المتسقة.
الذكاء العاطفي هو القدرة على تمكين المساعدين الصوتيين من فهم الحالات العاطفية للمستخدمين والاستجابة لها. لا يعتمد ذلك على فهم الأوامر الصوتية فحسب ، بل هو أن تكون قادرًا على إدراك التغييرات العاطفية في الصوت وبالتالي تقديم ملاحظات أكثر ملاءمة. ثانياً ، تؤكد ديناميات الحوار على الإيقاع الطبيعي الذي يجب أن يكون لدى المساعدين الصوتيين أثناء عملية الاتصال ، بما في ذلك توقف مؤقت في الوقت المناسب ، والتركيز المناسبين للون والانقطاعات ، وما إلى ذلك ، مما يجعل الحوار أكثر سلاسة وطبيعية.
بالإضافة إلى ذلك ، فإن الوعي بالسياق أمر بالغ الأهمية أيضًا. يتطلب الأمر من المساعدين الصوتيين ضبط صوتهم وأسلوبهم بمرونة بناءً على سياق وتاريخ المحادثة لمطابقة الوضع الحالي. يمكن أن تجعل هذه القدرة مساعدين رقميين مناسبة في مناسبات مختلفة ، وبالتالي تحسين رضا المستخدم. أخيرًا ، تعني سمات الشخصية المتسقة أن المساعدين الصوتيين يجب أن يحافظوا على شخصية وأسلوب متسق نسبيًا في محادثات مختلفة لتعزيز شعور المستخدمين بالثقة.
ومع ذلك ، ليس من السهل تحقيق هدف "الوجود الصوتي". حقق فريق السمسم تقدماً في جوانب مختلفة من الشخصية والذاكرة والتعبير والمدى. في الآونة الأخيرة ، أظهر الفريق بعض النتائج التجريبية في توليد خطاب الحوار ، وخاصة من حيث الود والتعبير ، مما يدل تمامًا على إمكانات طريقته.
على المستوى الفني ، اقترح فريق Sesame نهجًا جديدًا يسمى "النموذج الصوتي للحوار" (CSM) لمعالجة أوجه القصور في نموذج النص التقليدي إلى الكلام (TTS). يستخدم هذا النهج بنية المحول ويهدف إلى تحقيق مزيد من توليد الكلام الطبيعي والمتماسك. لا يتعامل CSM مع التعلم متعدد الوسائط للنص والصوت فحسب ، بل يقوم أيضًا بضبط الإخراج بناءً على تاريخ المحادثة ، وبالتالي حل أوجه القصور في النماذج التقليدية في فهم السياق.
من أجل التحقق من تأثير النموذج ، استخدم فريق Sesame كمية كبيرة من بيانات الصوت العامة للتدريب وعينات التدريب المعدة من خلال النسخ والتجزئة ، وما إلى ذلك ، فقد قاموا بتدريب نماذج بأحجام مختلفة وحققوا نتائج جيدة على مؤشرات التقييم الموضوعية والذاتية ، وعلى الرغم من أن النموذج قريب من المستوى البشري من حيث المستوى الطبيعي ، إلا أنه لا يزال يتطلب تحديثًا لتحديد حدود الحوار.
انطلاقًا من العينات التي قدمها المسؤول ، فإن الأعمال التي تم إنشاؤها لا يمكن أن تسمع أي مكونات منظمة العفو الدولية ، وهي واقعية للغاية.
يخطط فريق السمسم لفتح أبحاثه حتى يتمكن المجتمع من المشاركة في التجريب والتحسين. هذه الخطوة لا تساعد فقط في تسريع تطوير الحوار الذكاء الاصطناعي ، ولكنها تأمل أيضًا في تغطية المزيد من سيناريوهات التطبيق من خلال توسيع نطاق النموذج ودعم اللغة. بالإضافة إلى ذلك ، يخطط الفريق لاستكشاف كيفية استخدام نماذج اللغة المدربة مسبقًا لوضع الأساس لبناء نماذج متعددة الوسائط.
Project Demo: https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo
النقاط الرئيسية:
يلتزم فريق السمسم بتحقيق "التواجد الصوتي" حتى لا يتمكن المساعدون الرقميون من تنفيذ الأوامر فحسب ، بل لديهم أيضًا محادثات حقيقية.
من خلال الحوار النموذج الصوتي (CSM) ، حقق الفريق اختراقات جديدة في فهم السياق وتوليد الكلام.
يخطط الفريق لنتائج البحوث المصدر المفتوح وتوسيع الدعم اللغوي لدفع المزيد من تطوير الذكاء الاصطناعي للمحادثة.