تعاونت جامعة نانجينغ ومعهد ميجفي للأبحاث لتطوير نموذج بصري كبير غير خاضع للرقابة يسمى SeVa، والذي يحل بشكل فعال مشكلة محاذاة التفضيلات لنماذج اللغة المرئية. لا تتطلب هذه التقنية المتقدمة مشاركة يدوية أو مشاركة GPT-4، فهي تقلل بشكل كبير من تكاليف المحاذاة عن طريق إنشاء بيانات التفضيلات تلقائيًا، وتحسن قدرة النموذج على اتباع التعليمات، وتقلل من الهلوسة، وحققت نتائج رائعة في اختبارات مرجعية متعددة. جوهر SeVa هو استخدام تقنية تكبير الصورة لإنشاء عينات إيجابية وسلبية، واستخدام ذلك لتدريب النموذج، وتحقيق المواءمة الفعالة للتفضيلات البشرية في نهاية المطاف.
يتمثل جوهر هذه التقنية في إنشاء خط أنابيب لبيانات التفضيلات تلقائيًا من خلال مقارنة مخرجات النموذج قبل وبعد محاذاة التفضيلات، ويمكن رؤية التغييرات بوضوح. ووجد الباحثون أنه حتى التعزيزات الصغيرة للصورة يمكن أن تعطي VLM إجابات مختلفة لنفس السؤال. لذلك، استخدموا إجابات الصورة الأصلية كعينات إيجابية وإجابات الصورة المعززة كعينات سلبية للتدريب.

النتائج التجريبية لـ SeVa مثيرة للإعجاب. أدى استخدام البيانات غير الخاضعة للرقابة التي تم إنشاؤها بدقة 8K إلى تحسين قدرة VLM على متابعة التعليمات بشكل كبير، وتقليل الهلوسة، وتحقيق تحسينات كبيرة في المعايير متعددة الوسائط وغيرها. والأهم من ذلك، أن هذه الطريقة بسيطة ومنخفضة التكلفة ولا تتطلب أي شرح بشري أو GPT-4.
تظهر نتائج الاختبار على معايير متعددة أن SeVa تتمتع بمزايا كبيرة في تحسين محاذاة التفضيلات البشرية للنماذج المرئية. خاصة على MMVet وLLaVA-bench التي تم تقييمها بواسطة GPT-4، كان أداء SeVa رائعًا بشكل خاص. بالإضافة إلى ذلك، يمكن لـ SeVa أيضًا إنتاج إجابات أطول وأكثر تفصيلاً، مع اتساق أعلى في كل إجابة، وأكثر قوة في مواجهة الاضطرابات بدرجات الحرارة المختلفة.
لا يوفر هذا البحث حلاً فعالاً لمشكلة محاذاة النماذج المرئية الكبيرة فحسب، بل يفتح أيضًا إمكانيات جديدة لتطوير مجال الذكاء الاصطناعي. مع المصدر المفتوح لـ SeVa، يمكننا أن نتوقع أن المزيد من الباحثين والمطورين سيستخدمون هذا النموذج لتعزيز التطوير الإضافي لتكنولوجيا الذكاء الاصطناعي في المستقبل. في هذا العصر المليء بالإمكانيات اللانهائية، دعونا نتطلع إلى المزيد من المفاجآت التي تجلبها تكنولوجيا الذكاء الاصطناعي.
عنوان المشروع: https://github.com/Kevinz-code/SeVa
سيعمل المصدر المفتوح لـ SeVa على تعزيز تطوير تقنية النماذج المرئية الكبيرة، وتزويد الباحثين والمطورين بأدوات وأساليب جديدة، وتحسين أداء وتطبيق الذكاء الاصطناعي المرئي. يوضح نجاح هذا البحث الإمكانات الكبيرة للتعلم غير الخاضع للرقابة في حل مشكلات محاذاة الذكاء الاصطناعي ويشير إلى اتجاه جديد للتطوير المستقبلي لتكنولوجيا الذكاء الاصطناعي.