تسبب مجال أدوات الذكاء الاصطناعي في ضجة مرة أخرى! أصدرت Google AI Studio تحديثًا كبيرًا اليوم ، وأثارت أحدث ميزاتها مناقشات ساخنة بسرعة على منصة X. لقد اندهش المستخدمون من أن Google AI Studio يمكنه الآن معالجة روابط فيديو YouTube مباشرة ، ويمكنهم على الفور فهم محتوى الفيديو دون تنزيل أو تحميل! الأمر الأكثر إثارة للصدمة هو أن النموذج التجريبي Gemini2.0Flash (Gemini2.0Flash Exp لفترة قصيرة) يفتح بهدوء المهارات السحرية الناتجة عن الصور الطبيعية ، ويمكنه حتى الحفاظ على اتساق الشخصيات في صور متعددة! يُعتبر هذا التحديث لـ "النتيجة الشخصية الرسمية" بمثابة "إضراب عن أبعاد الأبعاد" من قبل المطلعين على الصناعة ، مما يشير إلى أن العديد من أدوات الذكاء الاصطناعى التي تعتمد على "تقنية القشرة" قد تواجه "يوم القيامة".
تم نشر مستخدم interjc من النظام الأساسي اليوم: "يمكن الآن لصق روابط YouTube مباشرة لفهم محتوى الفيديو ، ومجموعة من أدوات" Shell "المختلفة على وشك الانخفاض." وأشار بشكل حاد إلى أن هذه الميزة الجديدة هي ببساطة "ضربة لأبعاد الأبعاد". لم يعد المستخدمون بحاجة إلى تنزيل مقاطع الفيديو وتحميلها. يمكنهم طرح الأسئلة أو تلخيصها بمجرد إلقاء رابط ، وقد تم تحسين الكفاءة بأكثر من ترتيب واحد. الأمر الأكثر إثارة للدهشة هو أنه حتى تلك "العظام الصلبة" التي تشبه الترجمة الخالية من الترجمة يمكن الحصول عليها بسهولة بواسطة Gemini2.0flash Exp وسرعان ما تكون المحتوى هو مجرد "سلاح سحري". قام المستخدم Jesselaunz أيضًا باختبار مقطع فيديو صيني بدون ترجمات. ونتيجة لذلك ، فإن Gemini2.0flash Exp "ملخص تمامًا" محتوى الفيديو ، وكان التأثير يتجاوز بكثير النماذج الكبيرة الأخرى. يمكن أن يطلق عليه "مهارة حصرية" ، مما يجعل AIs أخرى خارج متناول اليد.
إذا كان فهم الفيديو هو مجرد "مقبلات" ، فيمكن أن يسمى تطور Gemini2.0flash exp في توليد الصور قنبلة "على مستوى القنبلة النووية". شاركت X User Dotey تسجيل شاشة مروعة على النظام الأساسي. لقد استخدمت الكلمة الرئيسية "السلحفاة والأرنب إلى السباق" ككلمات رئيسية وإنشاء 8 صور مشهد دفعة واحدة ، وكانت النتائج مذهلة! الصور التي تم إنشاؤها ليست طبيعية وسلسة فحسب ، ولكن الأمر الأكثر إثارة للدهشة هو أن الشخصيات "Turtle" و "Rabbit" في الصورة تحافظ بالفعل على مظهر ثابت للغاية في الصور الثمانية! الأمر الأكثر إثارة للدهشة هو أن الصورة الأولى لديها أربع شخصيات كبيرة باللغة الصينية: "السلحفاة والعربة العرق". على الرغم من أن السكتات الدماغية معيبة قليلاً عند ملاحظتها بعناية ، إلا أن هذه القدرة لا تزال مذهلة. تنهدت Dotey بحماس: "هذه السرعة سريعة جدًا ، إنها مجرد نجاح من أدوات" مجموعة القشرة "المختلفة!"
تستمر المناقشة على منصة X في الارتفاع. لا تنعكس القوة القوية التي أظهرتها Gemini2.0flash EXP فقط في قدرات المعالجة متعددة الوسائط ، ولكن أيضًا في سرعة توليدها المذهلة واستقرارها غير العادي. اختبر المستخدم Python_xxt رابط فيديو بدون ترجمات لأكثر من ساعة واحدة. يمكن لـ Gemini2.0flash exp في الواقع "إخراج محتوى المؤتمر مباشرة وتحليل متعمق ، والتأثير مثالي لجميع أدوات الموجزة في السوق" ، وهو ببساطة "سحر". لا شك أن تنفيذ هذه الوظيفة يرجع إلى فهم Gemini2.0Flash Exp العميق لمحتوى الفيديو. حتى بدون "نعمة" الترجمات ، يمكنها استخراج المعلومات الرئيسية بدقة في الفيديو ، مما يدل على قوته التقنية.
لقد استحوذ المطلعون على الصناعة بشدة على أن تحديث Google AI Studio يمثل تحولًا كبيرًا لاستراتيجية التطوير الخاصة بها - تسريع التطور إلى أدوات مستوى التطبيق من منصة نموذجية بسيطة. أشار X User Gantrols بشكل غير وطني إلى أن وظيفة توليد الصور لـ Gemini2.0Flash Exp يمكنها دعم الكلمات الصينية والتعديلات الحوار الصينية ، مما يقلل بلا شك عتبة المستخدم للاستخدام. كما قام بتوصيل دليل التشغيل بعناية ، "اذهب إلى طرازات AI Sudio و Select Models" ، وتكشف الخطوط عن أهمية Google العالية للود المطورين.
بالطبع ، الميزات الجديدة مثيرة ، لكن بعض المستخدمين أشاروا إلى "عيوب" المتبقية. على سبيل المثال ، لاحظ Dotey أنه لا تزال هناك بعض مشاكل السكتة الدماغية البسيطة في النص الصيني الذي تم إنشاؤه بواسطة Gemini2.0Flash Exp. ذكر المستخدم LessNoise365 أيضًا أن ميزات مماثلة تم إنشاؤها فعليًا في الجوزاء من هواتف البكسل. على الرغم من أن المزايا المجانية لاستوديو الذكاء الاصطناعي رائعة ، فقد يكون هناك مجال لمزيد من التحسين من حيث سهولة الاستخدام. ومع ذلك ، فإن العيوب لا تخفي المزايا. يعتقد المستخدمون على منصة X عمومًا أن هذا التحديث سيكون له تأثير عميق على النظام البيئي للأداة AI الحالية ، وخاصة التطبيقات "المغلفة" التي تعتمد على التغليف البسيط ، والتي ستواجه بلا شك تحديات ضخمة للبقاء.
لم تصدر Google رسميًا التفاصيل الفنية الشاملة لـ Gemini2.0Flash EXP ، ولكن قدراتها المتعددة الوسائط والكفاءة أثارت توقعات قوية من الصناعة بأكملها. مع التكرار المستمر وترقية استوديو الذكاء الاصطناعى ، ما إذا كانت Google ستدمج مواردها الإيكولوجية الضخمة وإطلاق وظائف أكثر تعريفية من الذكاء الاصطناعي قد تصبح أهم أهم في مجال الذكاء الاصطناعي في عام 2025.
عنوان API:
https://ai.google.dev/gemini- api/docs/vision؟lang=python&hl=zh-cn#youtube