أثار أحدث نموذج لتوليف الصوت من Sesame "نموذج خطاب المحادثة" (CSM) نقاشًا ساخنًا على منصة X ويعرف باسم "نموذج صوتي يشبه شخصًا حقيقيًا يتحدث". بفضل طبيعته المذهلة وقدرته على التعبير العاطفي ، لا يجعل هذا النموذج المستخدمين "لم يعد بإمكانهم التمييز بين اختلافات البشر عن البشر ، بل يدعي أيضًا أنه قد عبروا بنجاح" تأثير الوادي الخارق "في مجال الصوت. مع انتشار مقاطع الفيديو التوضيحية وتعليقات المستخدمين ، أصبحت CSM بسرعة معيارًا جديدًا لتكنولوجيا الصوت الذكاء الاصطناعي.

عبور "وادي العالم السفلي": الاختراق التكنولوجي لـ CSM
يشير "تأثير وادي العالم السفلي" إلى إزعاج الانزعاج البشري عندما يكون الصوت أو الصورة المصطنعة بشكل مصطنع قريبة من البشر الحقيقيين ولكن لا تزال هناك اختلافات دقيقة. يتناول السمسم هذه المشكلة وجهاً لوجه من خلال نموذج CSM الخاص به. X user @iimxiaohu المنشور في 1 مارس: "الإخوة ، هذا النموذج الصوتي الجديد رائع ولم يعد من الممكن التمييز عليه!" وأشار إلى أن CSM لديها أداء ممتاز في الشخصية والذاكرة وقدرة التعبير والملاءمة السياقية ، تقريبًا القضاء على الشعور الميكانيكي بمساعدي الصوت التقليديين.
صرح فريق السمسم في مقال أبحاث رسمي بأن هدف CSM هو تحقيق "وجود صوتي" - مما يجعل التفاعلات الصوتية ليست صحيحة وجديرة بالثقة فحسب ، بل فهمها وقيمتها أيضًا. يرجع هذا الاختراق إلى مكوناته الأساسية: الذكاء العاطفي (التفسير والاستجابة للعواطف) ، وذاكرة السياق (ضبط الإخراج بناءً على تاريخ الحوار) ، وتكنولوجيا توليد الصوت عالية الدقة. أثناء العرض التوضيحي ، أظهرت CSM نغمة طبيعية وجانب عاطفي في المحادثة الطويلة ، ولم يتمكن المستخدمون من التمييز بينه كـ AI دون معرفة ذلك.

تجربة مستخدم واقعية
تأكد ملاحظات المستخدم على منصة X أيضًا من أداء CSM المذهل. شارك Imxiaohu عرضًا رائعًا للحوار في المنشور ، حيث يغطي مجموعة متنوعة من المشاهد والسيناريوهات ، وتراجعت: "النغمة والعاطفة قريبة جدًا من البشر في بعض التعبيرات ، هاهاهاها". وذكر أنه في حالة عدم وجود تلميحات ، جعل ناتج هذا النموذج من الصعب التمييز بين الحقيقي والخطأ. قال مستخدم آخر leeoxiang في الأول من مارس إنه مارس التحدث باللغة الإنجليزية مع CSM لمدة نصف ساعة ، ولم يكن هناك أي تأخير تقريبًا. وقال إن "التكلفة تتم بشكل جيد للغاية وسيكون هناك بعض النغمة فيه" ، وقدرته على التحدث بنشاط مثير للإعجاب.
لا يقتصر حماس المجتمع على الثناء. يشير العديد من المستخدمين إلى أن الطلاقة الحوار الخاصة بـ CSM والتعبير العاطفي قد تجاوزوا النماذج السائدة الحالية مثل وضع صوت ChatGpt من Openai. أوصت @OP7418 بأن ينتبه الباحثون إلى المقالات الفنية لـ Sesame في 28 فبراير والتأكيد على نظام تقييم الأصالة الصوتي الفريد ، مما يدل على الصرامة الفنية للنموذج.
لا يزال مجالًا للتحسين: خطط Sesame المستقبلية
على الرغم من الأداء المروع لـ CSM ، اعترف السمسم رسميًا بأن هذه ليست النهاية. نقل Imxiaohu عن البيان الرسمي وقال: "هذا ليس الأكثر مثالية ، لا يزال هناك مجال كبير للتحسين!" في الوقت الحاضر ، تدعم CSM لغات متعددة مثل اللغة الإنجليزية ، ولكن كما أشار leeoxiang ، فإن الصينية لم يتم دعمها بعد. بالإضافة إلى ذلك ، وجد بعض المستخدمين في الاختبار أن أداء النموذج في سياقات محددة (مثل تبديل اللغة الأجنبية أو غناء الموسيقى) لا يزال لديه مجال للتحسين.
وعدت Sesame بفتح مصدر بعض نتائج البحث ، وتظهر صفحة GitHub (Sesameailabs/CSM) أن CSM سيتم ترخيصه بموجب Apache2.0. أثارت هذه الخطوة توقعات من مجتمع المطورين ، ويأمل الكثير من الناس في تعزيز تطوير AI Voice من خلال البحث المتعمق حول بنيةه.
تأثير الصناعة والآفاق
لاول مرة من CSM ليس فقط استجابة فنية لـ "تأثير الوادي غيره" ، ولكنه يضع أيضًا معيارًا جديدًا للتفاعل الصوتي لمنظمة العفو الدولية. بالمقارنة مع Grok و Claude وغيرها من النماذج ، فإن CSM لديها مزايا رائعة بشكل خاص في الوقت الفعلي ، والتقنية المنخفضة والتعبير العاطفي. قال X aberegpt في 2 مارس: "إذا كنت تدرس صوت الذكاء الاصطناعي ، فمن المستحسن بشدة قراءة هذه المقالة." وهذا يعكس الأهمية الملهمة لـ CSM لدائرة التكنولوجيا.
مع تخطيط السمسم لتوسيع دعم اللغة وتحسين النماذج ، من المتوقع أن تتألق CSM في مجالات مثل التعليم والترفيه والرفاق الافتراضي. انطلاقًا من الرد المتحمس على X ، يعتقد الأخوة أن هذا النموذج الصوتي "المذهل" يعيد تعريف الطريقة التي يتفاعل بها الناس مع الذكاء الاصطناعي مع الحوار الواقعي. في المستقبل ، هل يمكن أن يلغي تمامًا "الوادي الخارق" ويصبح "شريكًا رقميًا" حقيقيًا؟ قد يكون الجواب في التكرار التالي للسمسم.
عنوان التجربة: https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo