في 13 مارس ، أصدرت Sesame رسميًا أحدث نموذج لتخليق الصوت CSM ، والذي اجتذب سريعًا اهتمامًا واسعًا من هذه الصناعة. وفقًا للمقدمة الرسمية ، تتبنى CSM بنية تعليمية متعددة الوسائط من طرف إلى طرف تعتمد على المحول ، والتي يمكن أن تفهم بعمق معلومات السياق وتوليد صوت طبيعي وعاطفي. المؤثرات الصوتية واقعية للغاية ، تقريبًا مثل الأشخاص الحقيقيين ، ومدهشة.
لا يدعم نموذج CSM فقط توليد الصوت في الوقت الفعلي ، ولكنه يتولى أيضًا إدخال النص والصوت. يمكن للمستخدمين ضبط المعلمات للتحكم في الخصائص مثل النغمة والنبرة والإيقاع والعواطف ، مما يدل على مرونة عالية للغاية. تتيح قدرة توليد الصوت المخصصة هذه CSM أداءً جيدًا في مجموعة متنوعة من سيناريوهات التطبيق.
يعتبر CSM اختراقًا كبيرًا في مجال تكنولوجيا صوت الذكاء الاصطناعي. نطقه طبيعي للغاية ، بل وصول إلى مستوى "غير معروف ليكون التوليف الاصطناعي أو الشخص الحقيقي". سجل بعض المستخدمين مقطع فيديو لإظهار أن CSM لا يوجد تأخير تقريبًا ووصفوه بأنه "أقوى نموذج من ذوي الخبرة على الإطلاق". في السابق ، فتحت Sesame مصدر النسخة الصغيرة من CSM-1B ، والتي تدعم جولات متعددة من الحوار لتوليد صوت متماسك ، والذي حصل على مدح واسع النطاق.
في الوقت الحاضر ، تدربت CSM بشكل أساسي على اللغة الإنجليزية وأداء جيد للغاية. ومع ذلك ، لا يزال لدى CSM قيود معينة من حيث الدعم متعدد اللغات. في الوقت الحالي ، لا يدعم النموذج الصينيين ، لكن Sesame قال إنه من المتوقع أن يوسع دعمه اللغوي في المستقبل لتلبية احتياجات المزيد من المستخدمين.
وقال سمسم أيضًا إنه سيفتح المصدر لنتائج البحث ، وهو قرار أثار مناقشات ساخنة بين مطوري المجتمع على جيثب. CSM ليست مناسبة فقط لمنظمة العفو الدولية للمحادثة ، ولكنها قد تعزز أيضًا الابتكار في تجربة التفاعل الصوتي في مجالات مثل التعليم والترفيه. يعتقد المطلعون في الصناعة عمومًا أن CSM قد يعيد تشكيل معايير المساعدين الصوتيين من الذكاء الاصطناعي ويحضر تجربة حوار أكثر طبيعية للحاسوب.