في السنوات الأخيرة، تطورت تكنولوجيا تحويل النص إلى الصوت بسرعة، مما ضخ حيوية جديدة في مجال الذكاء الاصطناعي. ستركز هذه المقالة على نموذج جديد يسمى TANGOFLUX، والذي يُظهر مزايا رائعة في السرعة والكفاءة ويجلب اختراقات جديدة للبحث وتطبيق تكنولوجيا توليد الصوت النصي. إن نموذج TANGOFLUX ليس سريع الإنشاء فحسب، بل يعمل أيضًا بشكل جيد من حيث جودة الصوت وتنوع المؤثرات الصوتية، كما أن ميزة المصدر المفتوح الخاصة به تساعد بشكل أكبر على التطوير المشترك للأوساط الأكاديمية والصناعة.
في مجال الذكاء الاصطناعي، أصبحت تكنولوجيا توليد الصوت النصي تدريجياً نقطة بحثية ساخنة. أطلق الباحثون مؤخرًا نموذجًا جديدًا يسمى TANGOFLUX، والذي يتمتع بأداء وكفاءة ممتازين.
TANGOFLUX هو نموذج فعال لتحويل النص إلى صوت مع 515 مليون معلمة يمكنها إنشاء ما يصل إلى 30 ثانية من الصوت بتردد 44.1 كيلو هرتز في 3.7 ثانية فقط. وهذه السرعة تجعل أداءه على وحدة معالجة الرسومات A40 واحدًا رائعًا للغاية.

الميزة الرئيسية لـ TANGOFLUX هي أنه يمكنه إنشاء مؤثرات صوتية مختلفة، مثل أصوات الطيور والصفارات والانفجارات وما إلى ذلك. كما أنه يدعم إنشاء الموسيقى، لكن التأثير ليس مثاليًا.
يتمثل التحدي الرئيسي في النماذج التوليدية لتحويل النص إلى الصوت في كيفية إنشاء الأزواج المفضلة. على عكس نماذج اللغات الكبيرة (LLMs)، تفتقر نماذج تحويل النص إلى الصوت إلى آليات مكافأة يمكن التحقق منها أو إجابات قياسية ذهبية. لحل هذه المشكلة، اقترح فريق البحث إطارًا جديدًا يسمى تحسين التفضيلات المصنفة CLAP (CRPO). يعمل الإطار على تحسين أداء محاذاة نماذج إنشاء تحويل النص إلى الصوت من خلال إنشاء بيانات التفضيلات وتحسينها بشكل متكرر. تظهر الأبحاث أن بيانات تفضيلات الصوت التي تم إنشاؤها باستخدام CRPO تتفوق على البدائل الموجودة.
من خلال هذا الإطار، يحقق TANGOFLUX أداءً رائدًا وفقًا لمعايير موضوعية وذاتية متعددة. بالإضافة إلى ذلك، قرر فريق البحث أيضًا فتح المصدر لجميع الأكواد والنماذج لدعم المزيد من أبحاث الأشخاص حول إنشاء الصوت النصي. بالنسبة لسيناريوهات التطبيقات التي تتطلب توليد الصوت، يعد TANGOFLUX بلا شك تقدمًا تكنولوجيًا مهمًا.
من حيث التأثيرات العملية، يتفوق TANGOFLUX على النماذج الأخرى في جودة توليد الصوت، حيث يعرض أصوات أحداث أكثر وضوحًا، وإعادة إنتاج تسلسل الأحداث بشكل أفضل، وجودة صوت أعلى. من خلال مقارنة أمثلة متعددة، يمكن للمستخدمين الشعور بشكل بديهي بمزايا TANGOFLUX في توليد الصوت.
كلمة سريعة: تتعايش صفارات الإنسان الشجية وزقزقة العصافير الطبيعية بانسجام، ويكون التأثير الناتج كما يلي:
مع ظهور هذه التكنولوجيا الجديدة، أصبحت آفاق تطبيق تحويل النص إلى صوت أكثر اتساعًا، وقد تلعب دورًا مهمًا في إنتاج الأفلام والتلفزيون والمؤثرات الصوتية للألعاب وغيرها من المجالات في المستقبل.
مدخل المشروع: https://tangoflux.github.io/
أبرز النقاط:
TANGOFLUX هو نموذج فعال لتوليد الصوت النصي يمكنه إنشاء 30 ثانية من الصوت عالي الجودة في 3.7 ثانية.
يُقترح إطار عمل تحسين التفضيلات المصنفة CLAP (CRPO) لتحسين أداء النموذج وبيانات تفضيلات الصوت.
جميع الرموز والنماذج مفتوحة المصدر، بهدف تعزيز البحث وتطبيق توليد الصوت النصي.
بشكل عام، يمثل ظهور نموذج TANGOFLUX تقدمًا كبيرًا في تكنولوجيا تحويل النص إلى الصوت، كما أن كفاءته وجودته العالية وميزاته مفتوحة المصدر ستعزز المزيد من التطوير في هذا المجال وستجلب المزيد من التطبيقات المبتكرة لمختلف الصناعات. ونحن نتطلع إلى تطبيقات أوسع والتحسين المستمر وترقية TANGOFLUX في المستقبل.