صوت الذكاء الاصطناعي هو "في خطوة واحدة"! خطوة مفتوحة المصدر نموذج الصوت 130B المهيمن ، حوار في الوقت الفعلي + الاستنساخ العاطفي ، الانفجار قادم - مقالات منظمة العفو الدولية

الكاتب：Eve Cole وقت التحديث：2025-05-15 03:25:02

لقد بدأ مجال تكنولوجيا التفاعل الصوتي مؤخرًا في اختراق كبير. أعلنت شركة Step Audio ، وهي شركة منظمة العفو الدولية الرائدة ، عن المصدر المفتوح لنموذج الصوت الفائق مع 130 مليار معلمة. اجتذب هذا الإنجاز المبتكر اهتمامًا واسع النطاق في هذه الصناعة ويتم الترحيب به كمعلم في تطوير تكنولوجيا AI الصوتية. هذا النموذج ليس فقط أول نظام حوار صوتي مفتوح المصدر يدمج فهم الكلام والتحكم في الأولي ، ولكنه يشير أيضًا إلى أن تقنية التفاعل الصوتي ستنتقل إلى ارتفاع جديد مع وظائفها الشاملة والتكنولوجيا المتقدمة.

إن تسليط الضوء الأساسي لنموذج المصدر المفتوح هذا هو تصميمه المتكامل وقدرات التحكم القوية. إنه لا يفهم بدقة أوامر صوت المستخدم ، ولكن أيضًا يتحكم بشكل مرن في عملية توليد الصوت ، مما يوفر للمستخدمين تجربة تفاعلية شخصية غير مسبوقة. هذا التصميم يجعل التفاعل الصوتي أكثر طبيعية وسلسة ، مما يؤدي إلى تحسين تجربة المستخدم بشكل كبير.

فيما يتعلق بدعم اللغة ، يوضح هذا النموذج إمكانيات المعالجة الممتازة متعددة اللغات ، يمكن أن يتحول بسلاسة بين اللغات الصينية والإنجليزية واليابانية وغيرها من اللغات ، ويمكن التعامل بسهولة مع سيناريوهات الاتصال عبر اللغة. بالإضافة إلى ذلك ، فإنه يدعم بعمق مجموعة متنوعة من اللهجات ، مثل الكانتونية ، لهجة سيتشوان ، وما إلى ذلك ، مما يجعل التفاعل الصوتي أكثر قربًا من الحياة اليومية وأكثر إنسانية.

بالإضافة إلى قدرات معالجة اللغة ، فإن هذا النموذج لديه أيضًا وظائف مكافحة العاطفة الصوتية. يمكن للمستخدمين ضبط النغمة العاطفية للصوت وفقًا لاحتياجاتهم ، مثل السعادة والحزن وما إلى ذلك ، لجعل تعبير الذكاء الاصطناعي أكثر معدية. في الوقت نفسه ، يمكن أيضًا تعديل سرعة الكلام وأسلوب الإيقاع وفقًا لاحتياجات المشهد لتلبية احتياجات التعبير المتنوعة. الأمر الأكثر إثارة للدهشة هو أن النموذج يدعم أيضًا أشكال الصوت الإبداعية مثل الراب والطنين ، مما يوفر إمكانيات غير محدودة لإنشاء المحتوى.

بالإضافة إلى ذلك ، يحتوي هذا النموذج أيضًا على وظيفة استنساخ صوتي ، ويمكن للمستخدمين إنشاء مساعد صوت مخصص للغاية من خلال هذه التقنية ، وحتى إدراك "النسخة المتماثلة" و "ميراث" الصوت. توفر هذه الوظيفة المزيد من سيناريوهات التطبيق وإمكانياتها للتعبير عن تكنولوجيا التفاعل.

المصدر المفتوح لـ Jieyue ، فإن هذا النموذج الصوتي القوي سيعزز بلا شك التقدم التكنولوجي وابتكار التطبيقات في الصناعة بأكملها. إنه لا يقلل إلى حد كبير من عتبة تطبيق تكنولوجيا الصوت الذكاء الصوتي ، ولكنه يشير أيضًا إلى أن التفاعل الصوتي سيصبح أكثر ذكاءً وطبيعيًا وشخصيًا في المستقبل ، ويتكامل حقًا في حياة الناس اليومية.

عنوان المشروع: https://github.com/stepfun-ai/step-audio/tree/main