تقييم الاستقرار لمنصة الطرف الثالث Deepseek-R1: أثارت اختلافات الأداء مناقشات ساخنة-مقالات منظمة العفو الدولية

الكاتب：Eve Cole وقت التحديث：2025-05-25 21:00:01

من خلال نموذج التفكير العميق الذي أطلقته شركة Deepseek الصينية AI ، التي جذبت اهتمامًا واسعًا في جميع أنحاء العالم ، أصبح أداء الاستقرار على منصات الطرف الثالث موضوعًا ساخنًا في دائرة التكنولوجيا مؤخرًا. وفقًا لأحدث بيانات مناقشة ومراجعة على منصة X ، يختلف أداء Deepseek-R1 بشكل كبير عبر منصات الاستضافة ، مع اختلاف اكتمال ووقت التفكير عن طريق اختيار النظام الأساسي. لا تكشف هذه الظاهرة فقط عن تعقيد نشر النماذج ، بل توفر أيضًا مرجعًا مهمًا للمستخدمين لاختيار خدمات الاستضافة المناسبة.

فيما يتعلق باختبار خلفية وطرق الأساليب ، وفقًا لتعليقات X مستخدمي ووكالات التقييم المهنية ، اجتذب اختبار استقرار منصة عبر المنصات المتقاطع لـ DeepSeek-R1 اهتمامًا واسع النطاق. قاد الاختبار مركز التقييم للذكاء الاصطناعي في الصين ، وأكثر من عشرة من منصات طرف ثالث محلي وأجنبي بما في ذلك البحث عن نانو آي ، وألبابا بيلان ، والسيليكون القائم على السيليكون ، وما إلى ذلك ، باستخدام 20 مشاكل في التفكير الرياضي 20 موحدة (طورها فريق الترسيب الفائق). يركز التقييم بشكل أساسي على ثلاثة أبعاد: معدل الاستجابة والدقة ووقت التفكير ، ويحلل الاختلافات بين الخدمات الحرة والمدفوعة.

DeepSeek

تُظهر نتائج الاختبار أن استقرار Deepseek-R1 يعتمد بشكل كبير على منصة الاستضافة. بحث Nano AI رائع بشكل خاص لأنه يتصل بـ "إصدار الدم الكامل" Deepseek-R1 ويوفره مجانًا. X user @op7418 تم نشره في 27 فبراير: "تم توصيل البحث عن الذكاء الاصطناعي النانوي بالإصدار الكامل للدم من Deepseek-R1 في المرة الأولى ، وأداء جيد في التقييم." فازت هذه المنصة بالثناء على معدل الاستجابة المرتفع والإنتاج المستقر ، ويعتبر ممارسة مفهوم تشو هونغي عن "تعميم الذكاء الاصطناعي".

ومع ذلك ، فإن أداء المنصات الأخرى غير مرض. أشار X user @simonkuang938 في 24 فبراير إلى أنه عندما يتعامل Deepseek-R1 من Alibaba Bailian مع المهام المنطقية المعقدة (مثل الرسم المخططات أو المخططات المتدفقة) ، فإنه غالبًا ما يتم اقتطاعه بسبب استهلاك الذاكرة المفرط ، مما يؤدي إلى تعثر العميل ، على الرغم من عدم فصل الاتصال. وصف مازحا هذه التجربة "سيئة" تعكس بعض المستخدمين من عدم الرضا عن الاستقرار.

في المقابل ، يتم التعرف على السيولة القائمة على السيليكون بواسطة @simonkuang938 لأنه يقيد استخدام المكافآت ويوفر نسخة مدفوعة مستقرة. وقال في 22 فبراير: "هناك عدد قليل جدًا من المنصات الضميرية مثل التدفق القائم على السيليكون. R1 هو نسخة كاملة الدماء ولم يتم تعديلها". هذا يدل على أن الخدمات المدفوعة قد يكون لها المزيد من المزايا في الاستقرار.

انطلاقًا من ملاحظات المستخدم على X ، فإن أداء Deepseek-R1 في سيناريوهات مختلفة له مزايا خاصة به. @changli71829684 المذكورة في 25 فبراير أن R1 عرضة للوقوع في دورة ميتة عند إخراج أكثر من 3000 كلمة في محادثة واحدة. على الرغم من أن كثافة معلوماتها عالية ومناسبة لاستخراج المعرفة ، إلا أن دقتها وجودة الإنتاج غير كافية قليلاً. وهو يعتقد أن النموذج أكثر ملاءمة لـ "فتح العقل" من المهام الدقيقة. بالإضافة إلى ذلك ، وجدت oran_ge أن نسخته غير الخاضعة للإشراف (SFT) كان غريبًا على أسئلة بسيطة ، مثل إخراج الصيغ الرياضية عند الرد على "Hello" الذي يظهر عدم استقرار النموذج في سيناريو محدد.

تجدر الإشارة إلى أن بعض المستخدمين يحاولون تحسين تجربة المستخدم لـ R1. شارك oran_ge حلاً للاتصال بالإنترنت من خلال API في 12 فبراير ، قائلاً إنه "تم قياسه بالفعل هو تجربة مستخدم R1 الأكثر استقرارًا وأسرع" ، والتي حلت تمامًا مشكلة التأخر والشبكات. يوضح هذا الاستكشاف أن التكوين الفني خارج النظام الأساسي قد يؤثر أيضًا على الاستقرار.

لا يعرض هذا الاختبار عبر المنصات فقط تحديات نشر Deepseek-R1 ، ولكن أيضًا أدى إلى مناقشات حول تسويق واستقرار النماذج المفتوحة المصدر. يعتقد مستخدمو X عمومًا أنه على الرغم من أن DeepSeek-R1 يعمل بشكل جيد في المعايير الرياضية والبرمجة (مثل Math-500 Scres 97.3 ٪) ، لا يزال يحتاج إلى تحسين استقرارها في التطبيقات الفعلية. يمكن أن يؤدي ضغط حركة المرور وتحميل الخدمات المجانية إلى تدهور الأداء ، بينما توفر المنصات المدفوعة تجربة أكثر موثوقية من خلال تخصيص الموارد.

في هذا الصدد ، يوصي المطلعون على الصناعة بأن يختار المستخدمون منصة استضافة وفقًا لاحتياجاتهم. بالنسبة للمطورين الذين يتابعون معدلات الاستجابة المرتفعة والإنتاج الكامل ، فإن الخدمات المستقرة مثل بحث Nano-AA أو التدفق القائم على السيليكون هي خيارات جيدة ؛ بالنسبة للمستخدمين الذين يحتاجون إلى التعامل مع مهام الاستدلال المعقدة ، قد تكون المنصات المدفوعة أكثر قدرة على تلبية الاحتياجات. وفي الوقت نفسه ، يتم استدعاء مسؤولي Deepseek للحصول على المزيد من الدعم للأجهزة أو مدفوعين المستويات لتخفيف مشكلة الازدحام للخدمات المجانية ، كما توقع GrayPsyche في بوست 8 فبراير.

يكشف تقييم استقرار منصة Deepseek-R1 من منصة الطرف الثالث عن حقيقة أساسية: على الرغم من أن النموذج لديه إمكانات كبيرة ، إلا أن أدائه الفعلي يختلف عن طريق الاستضافة. من الخدمات الفعالة والمجانية للبحث عن Nano AI ، إلى مشكلة قطع Alibaba Bailian ، إلى التجربة المستقرة المدفوعة للتدفق القائم على السيليكون ، يحتاج المستخدمون إلى وزن التكاليف والأداء. مع شعبية تقنية الذكاء الاصطناعى ، قد يعتمد التطور المستقبلي لـ Deepseek-R1 وقدرتها التنافسية في السوق العالمية على ما إذا كان بإمكانه حل تحديات الاستقرار هذه. لا تزال المناقشة الساخنة على منصة X مستمرة ، وسيستمر هذا الموضوع بلا شك في جذب انتباه الصناعة.