أجرى مختبر شنغهاي للذكاء الاصطناعي مؤخرًا "امتحان دخول جامعي" فريدًا من نوعه، وخضعت سبعة نماذج للذكاء الاصطناعي، بما في ذلك GPT-4o، لاختبارات شاملة في اللغة الصينية والرياضيات والإنجليزية، باستخدام معيار المناهج الوطنية الجديد ونهج التصحيح اليدوي لضمان عدالة وحيادية الاختبار. يهدف هذا الاختبار إلى تقييم قدرة نموذج الذكاء الاصطناعي على التعامل مع أسئلة امتحان القبول بالجامعات وتوفير البيانات المرجعية لتطوير تكنولوجيا الذكاء الاصطناعي في المستقبل. تغطي النماذج المشاركة في الاختبار العديد من المؤسسات المعروفة في الداخل والخارج، مما يوضح الاتجاهات والمستويات المختلفة لتطور تكنولوجيا الذكاء الاصطناعي الحالي.
في عالم الذكاء الاصطناعي، لم يعد امتحان القبول بالجامعات مجرد مرحلة بالنسبة للبشر. في الآونة الأخيرة، استخدم مختبر شنغهاي للذكاء الاصطناعي "اختبار القبول الجامعي" الفريد للسماح لنا بمشاهدة القوة الأكاديمية للذكاء الاصطناعي. وقد اعتمدوا نظام تقييم OpenCompass وأخضعوا سبعة نماذج للذكاء الاصطناعي، بما في ذلك GPT-4o، لاختبارات كفاءة شاملة في اللغة الصينية والرياضيات والإنجليزية.

استخدم هذا الاختبار الورقة الأولى من معيار المنهج الوطني الجديد، والذي يضمن أن جميع النماذج مفتوحة المصدر المشاركة كانت مفتوحة المصدر قبل امتحان القبول بالكلية، مما يضمن عدالة الاختبار. علاوة على ذلك، يتم تقييم "أوراق الإجابة" المدعومة بالذكاء الاصطناعي يدويًا من قبل معلمين ذوي خبرة في تصحيح امتحانات القبول بالجامعات، ويسعون جاهدين لتكون قريبة من معايير التصحيح الحقيقية.
تأتي النماذج المشاركة في التقييم من خلفيات مختلفة، بما في ذلك نموذج الحوار مفتوح المصدر Mixtral8x22B من شركة Mistral الفرنسية الناشئة للذكاء الاصطناعي، وYi-1.5-34B من شركة Zero One Thousand Things، وGLM-4-9B من Zhipu AI، وInternLM2 من شركة Zhipu AI. ومختبر شنغهاي للذكاء الاصطناعي -20B-WQX، وسلسلة Qwen2 من علي بابا. يشارك GPT-4o في التقييم كنموذج مغلق المصدر وهو كمرجع فقط.

وتم إعلان النتائج، حيث احتل Qwen2-72B المركز الأول بمجموع نقاط 303، يليه GPT-4o بـ 296 نقطة، واحتل InternLM2-20B-WQX المركز الثالث بمجموع 295.5 نقطة. كان أداء هذه النماذج جيدًا في المواد الصينية والإنجليزية، حيث بلغ متوسط الدرجات 67% في اللغة الصينية و81% في اللغة الإنجليزية. ومع ذلك، في مادة الرياضيات، يبلغ متوسط معدل الدرجات لجميع النماذج 36% فقط، مما يدل على أن الذكاء الاصطناعي لا يزال لديه مجال كبير للتحسين في التفكير الرياضي.
أجرى مدرس التصحيح تحليلاً شاملاً لورقة الإجابة الخاصة بنموذج الذكاء الاصطناعي. في المواد الصينية، تكون النماذج جيدة بشكل عام في قراءة وفهم النصوص الحديثة، لكنها ناقصة قليلاً في اللغة الصينية الكلاسيكية والتركيب. فيما يتعلق بالرياضيات، على الرغم من أن النماذج تتمتع بقدرات قوية على ذاكرة الصيغة، إلا أنها لا تزال تفتقر إلى التطبيق المرن في عملية حل المشكلات. يعتبر الأداء العام لمادة اللغة الإنجليزية جيدًا، ولكن في بعض أنواع الأسئلة، تتمتع بعض النماذج بمعدلات درجات أقل.
لا يسمح لنا "نموذج امتحان القبول الجامعي الكبير" هذا برؤية إمكانات الذكاء الاصطناعي في المجال الأكاديمي فحسب، بل يكشف أيضًا عن حدوده في فهم المعرفة وتطبيقها. مع استمرار التقدم التكنولوجي، لدينا سبب للاعتقاد بأن الذكاء الاصطناعي في المستقبل سوف يصبح أكثر ذكاءً وسيخدم المجتمع البشري بشكل أفضل.
من خلال "اختبار الالتحاق بالكلية" الخاص بالذكاء الاصطناعي، يمكننا أن نرى بوضوح التقدم وأوجه القصور في تكنولوجيا الذكاء الاصطناعي، والتي توفر تجربة قيمة لتطوير الذكاء الاصطناعي في المستقبل ومنظورًا جديدًا لفهمنا للذكاء الاصطناعي. ويُعتقد أنه في المستقبل القريب، سيُظهر الذكاء الاصطناعي قدرات أكثر قوة في المزيد من المجالات.