علم محرر Downcodes مؤخرًا أن آنا ماكانجو، نائبة رئيس الشؤون العالمية في OpenAI، شاركت وجهات نظرها حول تحيز الذكاء الاصطناعي في "قمة المستقبل" التابعة للأمم المتحدة، مع التركيز على نموذج الاستدلال o1 الخاص بـ OpenAI. وتعتقد أن النموذج يمكن أن يقلل بشكل كبير من التحيز في أنظمة الذكاء الاصطناعي ويشرح آليته لتحديد الهوية الذاتية وتصحيح الاستجابات المتحيزة. ومع ذلك، كانت نتائج الاختبار الفعلية مختلفة عن التوقعات، مما دفع الصناعة إلى مزيد من التفكير في الأداء الفعلي لنماذج الذكاء الاصطناعي.
في الآونة الأخيرة، أعربت آنا ماكانجو، نائبة رئيس الشؤون العالمية في OpenAI، عن آرائها بشأن تحيز الذكاء الاصطناعي في "قمة المستقبل" التابعة للأمم المتحدة.
وذكرت أن نماذج "الاستدلال" مثل OpenAI's o1 يمكن أن تقلل بشكل كبير من التحيز في أنظمة الذكاء الاصطناعي. إذًا، كيف يمكن لـ O1 أن يفعل ذلك؟ أوضح ماكانجو أن النماذج يمكنها تحديد التحيز في الاستجابات ذاتيًا ومتابعة قواعد عدم إنتاج استجابات "ضارة" عن كثب.

وقالت إن نموذج O1 يقضي وقتًا أطول في تقييم إجاباته عند التعامل مع مشكلة ما ويكون قادرًا على التحقق من نفسه: "إنه قادر على القول: "هذه هي الطريقة التي سأحل بها هذه المشكلة"، ثم ينظر إلى إجابته ليرى" "أوه، قد يكون هناك خلل في المنطق هنا." حتى أنها شددت على أنني أقوم بعمل "شبه مثالي" في تحليل تحيزاتي الخاصة، وأن الأمر سوف يتحسن مع تقدم التكنولوجيا.
ومع ذلك، يبدو أن هذا البيان "شبه المثالي" مبالغ فيه. وجد اختبار OpenAI الداخلي أن أداء o1 لم يكن جيدًا في بعض اختبارات التحيز مقارنة بالنماذج "غير الاستدلالية"، بما في ذلك GPT-4o الخاص به. وفيما يتعلق بالقضايا المتعلقة بالعرق والجنس والعمر، كان أداء o1 أسوأ من أداء GPT-4o في بعض الحالات. على الرغم من أن أداء o1 كان أفضل من حيث التمييز الضمني، من حيث التمييز الصريح، إلا أنه كان أكثر بروزا في قضايا العمر والعرق.
الأمر الأكثر إثارة للاهتمام هو أن الإصدار الاقتصادي من o1، o1-mini، كان أداؤه أسوأ. تظهر الاختبارات أن o1-mini لديه احتمالية أكبر للتمييز الصريح على أساس الجنس والعرق والعمر مقارنة بـGPT-4o، كما أن تمييزه الضمني على العمر أكثر وضوحًا أيضًا.
بالإضافة إلى ذلك، فإن نماذج الاستدلال الحالية لديها العديد من القيود. تعترف OpenAI أيضًا بأن o1 يجلب الحد الأدنى من الفوائد لبعض المهام. إنها بطيئة في الاستجابة، حيث تستغرق بعض الأسئلة أكثر من 10 ثوانٍ للإجابة عليها. علاوة على ذلك، لا يمكن التقليل من تكلفة o1، وتكلفة التشغيل هي 3 إلى 4 أضعاف تكلفة GPT-4o.
إذا كانت نماذج الاستدلال التي يتحدث عنها ماكانجو هي بالفعل أفضل طريقة لتحقيق ذكاء اصطناعي عادل، فسوف تحتاج إلى تحسين جوانب أخرى غير التحيز لتصبح بديلاً قابلاً للتطبيق. إذا لم يكن الأمر كذلك، فلن يستفيد حقًا سوى العملاء ذوي الموارد المالية الكبيرة والاستعداد لتحمل جميع أنواع مشكلات الكمون والأداء.
تسليط الضوء على:
يُقال إن نموذج OpenAI's o1 يقلل بشكل كبير من تحيز الذكاء الاصطناعي، لكن نتائج الاختبار تظهر أنه لا يعمل بالشكل المتوقع.
أداء o1 أفضل من GPT-4o في التمييز الضمني، ولكنه أسوأ في التمييز الصريح.
نموذج الاستدلال o1 مكلف ويعمل ببطء، ولا يزال بحاجة إلى التحسين في العديد من الجوانب في المستقبل.
بشكل عام، لا يزال أمام نموذج O1 الخاص بـ OpenAI طريق طويل ليقطعه في تقليل تحيز الذكاء الاصطناعي. وفي حين أن آلية التصحيح الذاتي الخاصة بها مثيرة للإعجاب، فإن التكلفة العالية والقيود المفروضة على السرعة، فضلاً عن ضعف أدائها في بعض اختبارات التحيز، تشير إلى أن هذه التكنولوجيا لا تزال في مهدها ولا تزال بعيدة كل البعد عن التطبيقات العملية . سيستمر محرر Downcodes في الاهتمام بتطوير هذا المجال.