King Blast Update! Google AI Studio entwickelt sich wieder: YouTube -Videos werden in Sekunden verstanden, und die KI -Malerei kann immer noch die Rolle der Vereinigung beibehalten - KI -Artikel

Autor：Eve Cole Aktualisierungszeit：2025-05-19 18:25:02

Das Feld der KI -Werkzeuge hat wieder Aufregung verursacht! Google AI Studio hat heute ein großes Update veröffentlicht, und seine neuesten Funktionen lösten schnell hitzige Diskussionen auf der X -Plattform aus. Die Benutzer waren erstaunt, dass Google AI Studio jetzt YouTube -Video -Links direkt verarbeiten und den Videoinhalt sofort verstehen kann, ohne herunterzuladen oder hochzuladen! Noch schockierender ist, dass das experimentelle Gemini2.0Flash -Modell (Gemini2.0Flash EXP kurz) die magischen Fähigkeiten, die durch natürliche Bilder erzeugt werden, leise freigeschaltet und sogar die Konsistenz von Zeichen in mehreren Bildern aufrechterhalten können! Dieses Update des "offiziellen persönlichen Ergebnisses" gilt als "Dimensionsreventionstreik" von Branchen-Insidern, was darauf hinweist, dass viele AI-Geräte, die sich auf "Shell-verknüpfte" Technologie stützen, "Doomsday" ausgesetzt sein können.

X Platform User Interjc hat heute veröffentlicht: "Google AI Studio kann jetzt YouTube -Links direkt einfügen, um die Videoinhalte zu verstehen, und eine Stapel verschiedener" Shell "-Gadgets fällt im Begriff." Er wies scharf darauf hin, dass dieses neue Feature einfach ein "Dimensionality Reduction Blow" ist. Benutzer müssen keine Videos mehr herunterladen und hochladen. Sie können Fragen stellen oder zusammenfassen, indem sie nur einen Link werfen, und die Effizienz wurde um mehr als eine Größenordnung verbessert. Noch erstaunlicher ist, dass selbst diese "Hard Bones" -ähnlichen untertitelfreien Videos leicht durch Gemini2.0Flash EXP erhalten werden können, und es ist einfach eine "magische Waffe", dass es einfach eine "magische Waffe" ist. Der Benutzer Jesselaunz hat auch ein chinesisches Video ohne Untertitel persönlich getestet. Infolgedessen hat Gemini2.0Flash Exp den Videoinhalt perfekt zusammengefasst, und der Effekt war weit über andere große Modelle hinaus. Es kann als "exklusive Fähigkeiten" bezeichnet werden, was andere KIs über die Reichweite hinausgeht.

Wenn ein Videoverständnis nur eine "Vorspeise" ist, kann die Entwicklung von Gemini2.0Flash ExP in der Bildgenerierung als Bombe auf "Atombombenebene" bezeichnet werden. X User Dotey hat eine schockierende Bildschirmaufzeichnung auf der Plattform geteilt. Sie benutzte das Keyword "Tortoise und Hase Hase Race" als Schlüsselwörter und generierte 8 Szenenbilder auf einmal, und die Ergebnisse waren erstaunlich! Die erzeugten Bilder sind nicht nur natürlich und glatt, sondern auch erstaunlicher ist, dass die Charaktere "Turtle" und "Rabbit" auf dem Bild tatsächlich ein sehr konsequentes Erscheinungsbild in den 8 Bildern beibehalten! Noch überraschender ist, dass das erste Bild sogar vier große Charaktere auf Chinesisch hat: "Tortoise und Hare Race". Obwohl die Striche bei sorgfältiger Beobachtung leicht fehlerhaft sind, ist diese Fähigkeit immer noch erstaunlich. Dotey seufzte aufgeregt: "Diese Geschwindigkeit ist zu schnell, es ist nur ein Hit aus verschiedenen 'Shell-Set'-Werkzeugen!"

Die Diskussion über die X -Plattform steigt weiter an. Die leistungsstarke Stärke, die durch Gemini2.0Flash EXP zeigt, spiegelt sich nicht nur in seinen multimodalen Verarbeitungsfähigkeiten wider, sondern auch in der erstaunlichen Geschwindigkeit und der außergewöhnlichen Stabilität der Erzeugung. Der Benutzer Python_xxt hat einen Videolink ohne Untertitel länger als eine Stunde getestet. Gemini2.0Flash EXP kann tatsächlich "Inhalte der Konferenz und eingehende Analyse direkt ausgeben, und der Effekt ist perfekt für alle zusammenfassenden Tools auf dem Markt", was einfach "magisch" ist. Die Implementierung dieser Funktion ist zweifellos auf Gemini2.0Flash Exps tiefem Verständnis des Videoinhalts zurückzuführen. Auch ohne den "Segen" von Untertiteln kann es die Schlüsselinformationen im Video genau extrahieren, die seine technische Stärke zeigen.

Branchenkenner haben die Aktualisierung von Google AI Studio sehr gut erfasst, um die Entwicklung seiner Entwicklungsstrategie zu einer umfassenden Transformation zu erzielen, um die Entwicklung auf Tools auf Anwendungsebene von einer einfachen grundlegenden Modellplattform zu beschleunigen. X -Benutzer Gantrols wies inzwischen darauf hin, dass die Bildgenerierungsfunktion von Gemini2.0Flash Exp die chinesischen Schnellwörter und Dialogmodifikationen perfekt unterstützen kann, was zweifellos den für die Verwendung des Benutzers Schwellenwerts des Benutzers stark reduziert. Er nahm auch nachdenklich den Operationsleitfaden an, "Gehen Sie einfach zu AI Studio und wählen Sie Modelle", und die Linien zeigen die hohe Bedeutung von Google für die Freundlichkeit der Entwickler.

Natürlich sind die neuen Funktionen aufregend, aber einige Benutzer haben auf ihre verbleibenden "Fehler" hingewiesen. Zum Beispiel stellte Dotey fest, dass es im chinesischen Text immer noch einige geringfügige Schlaganfallprobleme gibt, die von Gemini2.0Flash EXP generiert wurden. Der Benutzer wenigerNoise365 erwähnte auch, dass ähnliche Funktionen tatsächlich in die Gemini von Pixel -Handys integriert sind. Obwohl die freien Vorteile von AI Studio hervorragend sind, kann es Platz für eine weitere Optimierung in Bezug auf die Benutzerfreundlichkeit geben. Die Mängel verbergen jedoch nicht die Vorzüge. Benutzer auf der X-Plattform sind im Allgemeinen der Ansicht, dass dieses Update tiefgreifende Auswirkungen auf das vorhandene KI-Tool-Ökosystem haben wird, insbesondere auf die "Shell-Kapseligen" -Anwendungen, die auf einfache Verpackungen beruhen, was zweifellos mit großen Überlebensherausforderungen konfrontiert ist.

Google hat die umfassenden technischen Details von Gemini2.0Flash EXP nicht offiziell veröffentlicht, aber seine erstaunlichen multimodalen Fähigkeiten und Effizienz haben starke Erwartungen an die gesamte Branche geweckt. Angesichts der kontinuierlichen Iteration und der Aufrüstung von AI Studio kann Google seine enormen ökologischen Ressourcen weiter integrieren und mehr disruptive KI -Funktionen einführen, die im Jahr 2025 das wichtigste Highlight im KI -Bereich werden können.

API -Adresse:

https://ai.google.dev/gemini-api/docs/vision?lang=python&hl=zh-cn#youtube