تعلن منظمة أبحاث الذكاء الاصطناعي عن تصنيف نماذج الصور المولدة للنص: لا يزال Midjourney هو الملك الأقوى

الكاتب：Eve Cole وقت التحديث：2025-02-26 05:00:02

لقد كان تقييم أداء نماذج توليد صور الذكاء الاصطناعي دائمًا محور الصناعة. مؤخرًا، أطلق التحليل الاصطناعي "تصنيف النص إلى صورة والساحة" لتوفير منصة جديدة للتقييم الموضوعي لهذه النماذج. من خلال جمع بيانات التفضيلات البشرية على نطاق واسع ونظام تسجيل ELO، تقوم المنصة بتصنيف ومقارنة العديد من النماذج الرائدة بما في ذلك Midjourney، وDALL·E، وStable Diffusion، وما إلى ذلك، مما يوفر مرجعًا قيمًا للباحثين والمستخدمين.

في الآونة الأخيرة، أطلقت منظمة التحليل الاصطناعي لأبحاث الذكاء الاصطناعي مبادرة جديدة تسمى "نص التحليل الاصطناعي إلى لوحة المتصدرين للصور والساحة" لتقييم أداء هذه النماذج بشكل شامل.

نظرة عامة على منصة التقييم

منذ طرح مولدات الصور القائمة على الانتشار قبل عامين، حققت نماذج الصور المدعومة بالذكاء الاصطناعي جودة تقترب من جودة التصوير الفوتوغرافي. التحليل الاصطناعي من النص إلى الصورة المتصدرين والساحة مخصص لمقارنة نماذج إنشاء الصور مفتوحة المصدر والملكية لتحديد فعاليتها ودقتها بناءً على التفضيلات البشرية.

تعتمد تصنيفات المنصة على أكثر من 45000 صورة مفضلة للإنسان تم جمعها من خلال Artificial Analysis Image Arena، والتي تم تحديثها باستخدام نظام التسجيل ELO. يغطي التقييم العديد من نماذج الصور الرائدة، بما في ذلك Midjourney، وDALL·E من OpenAI، وStable Diffusion، وPlayground AI، وما إلى ذلك.

طريقة التقييم

تستخدم المنصة التعهيد الجماعي لجمع بيانات تفضيلات الإنسان على نطاق واسع. تم عرض كلمة رئيسية وصورتين على المشاركين وتم اختيار الصورة الأكثر مطابقة للكلمة الرئيسية. يقوم كل نموذج بإنشاء أكثر من 700 صورة تغطي أنماطًا وفئات مختلفة، مثل الصور الشخصية والمجموعات والحيوانات والطبيعة والفن. يتم استخدام بيانات التفضيل التي تم جمعها لحساب درجة ELO لكل نموذج، مما يؤدي إلى تصنيف مقارن.

رؤى أولية

ويظهر التصنيف أنه على الرغم من أن النماذج المسجلة الملكية تتصدر الأداء، إلا أن البدائل مفتوحة المصدر أصبحت تنافسية بشكل متزايد. تصدرت القائمة نماذج مثل Midjourney وStable Diffusion3 وDALL·E3HD، في حين حقق النموذج مفتوح المصدر Playground AI v2.5 أيضًا تقدمًا كبيرًا، متجاوزًا DALL·E3 من OpenAI.

ومن الجدير بالذكر أن مشهد نماذج توليد الصور يتغير بسرعة. على سبيل المثال، DALL·E2، الذي كان لا يزال في المركز الرائد العام الماضي، تم اختياره الآن في أقل من 25% من الساحة وقد انخفض إلى النموذج الأدنى تصنيفًا.

المشاركة العامة

يشجع التحليل الاصطناعي الجمهور على المشاركة في هذه المراجعة. يمكن للمستخدمين الوصول إلى لوحات المتصدرين على Hugging Face والمشاركة في عملية التصنيف من خلال Image Arena. بعد إكمال 30 تحديدًا للصور، يمكن للمشاركين عرض تصنيفات النماذج المخصصة للحصول على رؤى محددة لتفضيلاتهم.

تعد هذه الخطوة خطوة مهمة نحو فهم وتحسين نماذج توليد الصور بالذكاء الاصطناعي. ومن خلال الاستفادة من التفضيلات البشرية ونهج التعهيد الجماعي الصارم، توفر المنصة رؤى قيمة حول الأداء المقارن لنماذج الصور الرائدة. ومع استمرار تطور هذا المجال، ستلعب منصات مثل هذه دورًا رئيسيًا في توجيه التطورات والابتكارات المستقبلية في توليد الصور المعتمدة على الذكاء الاصطناعي.

عنوان رابط القائمة: https://huggingface.co/spaces/ArtificialAnalogy/Text-to-Image-Leaderboard

بشكل عام، يوفر "تصنيف النص إلى صورة والساحة" للتحليل الاصطناعي منصة تقييم شفافة وتنافسية في مجال إنشاء صور الذكاء الاصطناعي، وستؤدي تحديثاتها المستمرة ومشاركتها العامة إلى تعزيز التقدم التكنولوجي في هذا المجال. ونحن نتطلع إلى رؤية المزيد من النماذج المضافة وتغييرات التصنيف في المستقبل.