تصدر صوت الأسماك وكيل السمك V0.1 3B في الوقت الفعلي الاستنساخ - مقال الذكاء الاصطناعي

الكاتب：Eve Cole وقت التحديث：2025-02-13 00:16:01

أصدرت FISH Audio نموذج معالجة الصوت الجديد ، Agent Agent V0.13b ، وهو نموذج مثير للإعجاب من صوت إلى كلام يمكنه توليد الكلام ومعالجته بكفاءة ودقة ، وهو جيد في محاكاة وأصوات مختلفة. يتم تدريب النموذج مسبقًا على أساس Qwen-2.5-3b-instruct ويستخدم مجموعة بيانات ضخمة تحتوي على 200 مليار رموز نصية ونص. يكمن ابتكارها في تبني بنية "خالية من الرمز المميز" التي تعالج الصوت مباشرة على مستوى الصوت ، وبالتالي تحسين السرعة والكفاءة ، وتحقيق "استنساخ" الصوت "الفوري وتحويل النص إلى كلام ، والذي لا يستغرق سوى 200 مللي ثانية. يدعم النموذج لغات متعددة وهو مفتوح المصدر ، مما يجلب إمكانيات جديدة لتطوير تكنولوجيا صوت الذكاء الاصطناعي.

في الآونة الأخيرة ، أصدرت Fish Audio نموذج Fish Agent الجديد V0.13B. هذا يعني أننا على بعد خطوة واحدة من وجود مساعد صوت طبيعية وسريعة الاستجابة.

يتم تدريب نموذج عامل FISH V0.13B على أساس QWEN-2.5-3B-instruct ويستخدم مجموعة بيانات ضخمة تحتوي على 200 مليار رموز نصية ونص. على عكس النماذج التقليدية التي تتطلب تحويل الكلام أولاً إلى ترميز دلالي معقد ، يعتمد عامل FISH V0.13B بنية تسمى "رمز دلالي" لمعالجة وتوليد الكلام مباشرة على مستوى الصوت. لا تعمل هذه المعالجة المباشرة على تبسيط بنية النموذج فحسب ، بل تعمل أيضًا على تحسين سرعة رد فعل النموذج وكفاءتها.

بفضل هذه الهندسة المعمارية المبتكرة ، يمكن لـ Fish Agent v0.13b أن يولد بسرعة وبشكل طبيعي صوتًا عالي الجودة ، مما يتيح استنساخ الصوت "الفوري" وتحويل النص إلى الكلام ، مع وقت تحويل النص (TTFA) في 200 مللي ثانية فقط . تجعل هذه الميزة مثالية لسيناريوهات التطبيق التي تتطلب توليد صوت في الوقت الفعلي ، مثل مساعدي الصوت ، وخدمة العملاء التلقائية ، وغيرها من السيناريوهات التي تتطلب تعليقات صوتية سريعة.

يدعم نموذج Fish Agent V0.13B لغات متعددة ، بما في ذلك اللغة الإنجليزية والصينية والصينية واليابانية والفرنسية والإسبانية والكورية والعربية ، ويستخدم حوالي 700000 ساعة من بيانات الصوت متعددة اللغات للتدريب. هذا يعني أنه يمكنه التعامل مع لغات وسياقات متعددة ويولد نطقًا طبيعيًا وأقربًا للشخص الحقيقي.

بالإضافة إلى توليد الصوت إلى الكلام ووظائف تحويل النص إلى كلام ، يحتوي Fish Agent V0.13b أيضًا على الميزات الرئيسية التالية:

استنساخ الصوت صفر العينة: يمكن تحقيق استنساخ الصوت دون تدريب.

معلمات 3B مبسطة: استخدم 3 مليارات معلمات لسهولة التطوير.

يدعم النصوص والمدخلات الصوتية: طريقة متعددة المدخلات المرنة.

حاليًا ، فتحت Fish Audio نموذج Fish Agent V0.13b ويوفر إصدارًا تجريبيًا أوليًا لتجربة المستخدم. سيؤدي إصدار هذا النموذج إلى زيادة تعزيز تطوير تكنولوجيا الصوت الذكاء الاصطناعى ويوفر المزيد من الاحتمالات لتطبيقات مثل المساعدين الصوتيين والأشخاص الظاهريين.

Github: https://github.com/fishaudio/fish-speech

Demo Agent Demo: https://huggingface.co/spaces/fishaudio/fish-agent

تنزيل النموذج: https://huggingface.co/fishaudio/fish-agent-v0.1-3b

التقرير الفني: https://arxiv.org/abs/2411.01156

سيؤدي الإصدار المفتوح المصدر لنموذج Fish Agent V0.13B إلى تحقيق اختراقات جديدة للبحث وتطبيق مجال الصوت الذكاء الاصطناعي ، ويستحق التطلع إلى دوره في التطوير المستقبلي لتكنولوجيا الصوت. آمل أن يتمكن المزيد من المطورين من المشاركة والترويج بشكل مشترك لتقدم تكنولوجيا الصوت الذكاء الاصطناعي.