Le champ des outils d'IA a à nouveau fait un remorqueur! Google AI Studio a publié aujourd'hui une mise à jour majeure, et ses dernières fonctionnalités ont rapidement déclenché des discussions chauffées sur la plate-forme X. Les utilisateurs ont été étonnés que Google AI Studio puisse désormais traiter directement les liens vidéo YouTube et peut immédiatement comprendre le contenu vidéo sans télécharger ou télécharger! Ce qui est encore plus choquant, c'est que le modèle expérimental Gemini2.0Flash (GEMINI2.0FLASH pour faire court) déverrouille tranquillement les compétences magiques générées par des images naturelles et peut même maintenir la cohérence des personnages dans plusieurs images! Cette mise à jour des "résultats personnels officiels" est considérée comme une "grève de réduction de la dimensionnalité" par les initiés de l'industrie, indiquant que de nombreux gadgets d'IA qui s'appuient sur la technologie "enclinsée à la coquille" peuvent faire face à "Doomsday".
X Platform User Interjc Publié aujourd'hui: "Google AI Studio peut désormais coller directement les liens YouTube pour comprendre le contenu vidéo, et un lot de divers gadgets" shell "est sur le point de tomber." Il a souligné fortement que cette nouvelle fonctionnalité est simplement un "coup de réduction de la dimensionnalité". Les utilisateurs n'ont plus besoin de télécharger des vidéos et de les télécharger. Ils peuvent poser des questions ou résumer en lançant simplement un lien, et l'efficacité a été améliorée de plus d'un ordre de grandeur. Ce qui est encore plus étonnant, c'est que même ces vidéos sans sous-titre "Hard Bones" peuvent être facilement obtenues par Gemini2.0Flash Exp et analyser rapidement le contenu est simplement une "arme magique". L'utilisateur Jesselaunz a également testé personnellement une vidéo chinoise sans sous-titres. En conséquence, Gemini2.0Flash Exp "a parfaitement résumé" le contenu vidéo, et l'effet était bien au-delà des autres grands modèles. Il peut être appelé une «compétence exclusive», ce qui rend d'autres AIS hors de portée.
Si la compréhension vidéo n'est qu'un "apéritif", alors l'évolution de Gemini2.0flash EXP dans la génération d'images peut être appelée une bombe "au niveau de la bombe nucléaire". X L'utilisateur Dotey a partagé un enregistrement d'écran choquant sur la plate-forme. Elle a utilisé le mot-clé "tortue et lièvre pour courir" comme mots clés et généré 8 images de scène en une seule fois, et les résultats étaient incroyables! Les images générées sont non seulement naturelles et lisses, mais ce qui est plus étonnant, c'est que les personnages "tortue" et "lapin" sur l'image conservent en fait une apparence très cohérente dans les 8 images! Ce qui est encore plus surprenant, c'est que la première image a même quatre grands personnages en chinois: "Tortoise and Hare Race". Bien que les coups soient légèrement imparfaits lorsqu'ils sont soigneusement observés, cette capacité est toujours incroyable. Dotey soupira avec enthousiasme: "Cette vitesse est trop rapide, c'est juste un coup de divers outils de coquille!"
La discussion sur la plate-forme X continue d'augmenter. La force puissante montrée par GEMINI2.0FLASH EXP se reflète non seulement dans ses capacités de traitement multimodales, mais aussi dans sa vitesse de génération incroyable et sa stabilité extraordinaire. L'utilisateur Python_XXT a testé un lien vidéo sans sous-titres pendant plus d'une heure. GEMINI2.0FLASH EXP peut en fait "sortir directement du contenu de conférence et une analyse approfondie, et l'effet est parfait pour tous les outils de résumé sur le marché", qui est simplement "magique". La mise en œuvre de cette fonction est sans aucun doute due à la compréhension approfondie de Gemini2.0Flash Exp du contenu vidéo. Même sans la "bénédiction" des sous-titres, il peut extraire avec précision les informations clés de la vidéo, qui montrent sa force technique.
Les initiés de l'industrie ont vivement saisi que la mise à jour de Google AI Studio marque une transformation majeure de sa stratégie de développement - accélérant l'évolution en outils au niveau de l'application à partir d'une simple plateforme de modèle de base. X Gantrols utilisateur a souligné incisivement que la fonction de génération d'images de GEMINI2.0Flash Exp peut parfaitement prendre en charge les mots rapides chinois et les modifications de dialogue, ce qui réduit sans aucun doute le seuil d'utilisation de l'utilisateur. Il a également attaché de manière réfléchie le guide d'opération, "allez simplement à l'IA Studio et certains modèles", et les lignes révèlent la haute importance de Google pour la convivialité des développeurs.
Bien sûr, les nouvelles fonctionnalités sont passionnantes, mais certains utilisateurs ont souligné leurs "défauts" restants. Par exemple, Dotey a observé qu'il y a encore des problèmes de l'AVC mineurs dans le texte chinois généré par Gemini2.0flash Exp. L'utilisateur Lessnoise365 a également mentionné que des fonctionnalités similaires sont en fait intégrées aux Gémeaux des téléphones Pixel. Bien que les avantages libres de l'IA Studio soient exceptionnels, il peut y avoir une place pour une optimisation plus approfondie en termes de facilité d'utilisation. Cependant, les défauts ne cachent pas les mérites. Les utilisateurs de la plate-forme X croient généralement que cette mise à jour aura un impact profond sur l'écosystème des outils d'IA existante, en particulier les applications "encapsulées" qui s'appuient sur un simple emballage, qui sera sans aucun doute confronté à d'énormes défis de survie.
Google n'a pas officiellement publié les détails techniques complets de Gemini2.0Flash Exp, mais ses incroyables capacités multimodales et son efficacité ont suscité de fortes attentes de l'ensemble de l'industrie. Avec l'itération continue et la mise à niveau de l'IA Studio, si Google intégrera davantage ses énormes ressources écologiques et lancera des fonctions d'IA plus perturbatrices pourra devenir le point culminant le plus important dans le domaine de l'IA en 2025.
Adresse API:
https://ai.google.dev/gemini-api/docs/vision?lang=python&hl=zh-cn#youtube