في 19 مارس ، تم الكشف عن نموذج مفتوح المصدر إلى الكلام (TTS) يسمى Orpheus TTS رسميًا. اجتذب هذا النموذج بسرعة الانتباه مع قربه من التعبير العاطفي البشري ، والآثار الصوتية الطبيعية والسلسة ، وخصائص دفق الإخراج في الوقت الفعلي للغاية. وتفيد التقارير أن Orpheus TTS أداء جيد في سيناريوهات الحوار في الوقت الفعلي ومن المتوقع أن تحقق اختراقات جديدة للتفاعل الصوتي الذكي.
يركز Orpheus TTS على انخفاض الكمون والتعبير العاطفي العالي. تشمل ميزاتها الأساسية: زمن انتقال منخفض للغاية ، مع زمن انتقال افتراضي يبلغ حوالي 200 مللي ثانية. من خلال تحسين ذاكرة التخزين المؤقت KV لتيار الإدخال والنموذج ، يمكن ضغط التأخير إلى 25-50 ميلي ثانية لتلبية احتياجات المحادثات في الوقت الفعلي ؛ التعبير العاطفي والإخراج الصوتي طبيعي وسلس ، والتي يمكن أن تكون قريبة من المشاعر الإنسانية ، ودعم تغييرات التجويد الغنية ، وتحسين التجربة التفاعلية ؛ تدعم تدفقات الإخراج في الوقت الفعلي توليد صوت تدفق لضمان مزامنة توليد الصوت والإدخال ، وهي مناسبة للسيناريوهات مثل المساعدين الظاهري وأنظمة خدمة العملاء.
بفضل انخفاض مدى زمن الوصول وخصائصه الطبيعية العالية ، تعتبر Orpheus TTS لديها إمكانات واسعة في مجال المحادثة في الوقت الفعلي. سواء أكان ذلك مساعدًا صوتًا ذكيًا أو تعليمًا عبر الإنترنت أو دبلجة من المراسي الافتراضية وشخصيات اللعبة ، يمكن أن يوفر هذا النموذج تجربة تفاعل صوتي أكثر إنسانية. بالإضافة إلى ذلك ، توفر طبيعة المصادر المفتوحة أيضًا للمطورين إمكانيات التخصيص.
مع مزيج من التعبير العاطفي ، والآثار الطبيعية والكمون المنخفض للغاية ، يمثل Orpheus TTS ارتفاعًا جديدًا لتكنولوجيا TTS. إنه لا يحسن فقط جودة تخليق الكلام ، ولكنه يفتح أيضًا موقفًا جديدًا للسيناريوهات التفاعلية الديناميكية من خلال تدفقات الإخراج في الوقت الفعلي. في المستقبل ، قد يصبح هذا النموذج معيارًا في مجال TTS مفتوح المصدر.
العنوان: https://github.com/canopyai/orpheus-tts