¡El campo de las herramientas de IA ha provocado nuevamente! Google AI Studio lanzó una actualización importante hoy, y sus últimas características rápidamente provocaron discusiones acaloradas en la plataforma X. Los usuarios se sorprendieron de que Google AI Studio ahora pueda procesar directamente los enlaces de video de YouTube, ¡y puede comprender inmediatamente el contenido de video sin descargar o cargar! Lo que es aún más impactante es que el modelo experimental Gemini2.0flash (Gemini2.0flash Exp para abreviar) desbloquea silenciosamente las habilidades mágicas generadas por las imágenes naturales, ¡e incluso puede mantener la consistencia de los personajes en múltiples imágenes! Esta actualización del "resultado personal oficial" se considera como un "huelga de reducción de dimensionalidad" por parte de los expertos de la industria, lo que indica que muchos dispositivos de IA que dependen de la "tecnología" encerrada en el shell puede enfrentar el "día del juicio final".
El usuario de la plataforma X interjc publicado hoy: "Google AI Studio ahora puede pegar directamente los enlaces de YouTube para comprender el contenido de video, y un lote de varios dispositivos 'Shell' están a punto de caer". Señaló bruscamente que esta nueva característica es simplemente un "golpe de reducción de dimensionalidad". Los usuarios ya no necesitan descargar videos y cargarlos. Pueden hacer preguntas o resumir simplemente lanzando un enlace, y la eficiencia se ha mejorado en más de un orden de magnitud. Lo que es aún más sorprendente es que incluso esos videos sin subtítulos como "huesos duros" pueden obtener fácilmente obtener fácilmente por Gemini2.0flash Exp y analizar rápidamente el contenido es simplemente un "arma mágica". El usuario Jesselaunz también probó personalmente un video chino sin subtítulos. Como resultado, Gemini2.0flash Exp "resumió perfectamente" el contenido de video, y el efecto fue mucho más allá de otros grandes modelos. Se puede llamar una "habilidad exclusiva", lo que hace que otros AIS fuera del alcance.
Si la comprensión de video es solo un "aperitivo", entonces la evolución de Gemini2.0Flash Exp en la generación de imágenes puede llamarse una bomba de "nivel de bomba nuclear". X User Dotey compartió una grabación de pantalla impactante en la plataforma. Ella usó la palabra clave "tortuga y liebre para competir" como las palabras clave y generó 8 imágenes de escena de una sola vez, ¡y los resultados fueron sorprendentes! Las imágenes generadas no solo son naturales y suaves, sino lo más sorprendente es que los personajes "tortuga" y "conejo" en la imagen en realidad mantienen una apariencia muy consistente en las 8 imágenes. Lo que es aún más sorprendente es que la primera imagen incluso tiene cuatro grandes personajes en chino: "Tortoise and Hare Race". Aunque los golpes son ligeramente defectuosos cuando se observan cuidadosamente, esta habilidad sigue siendo sorprendente. Dotey suspiró con entusiasmo: "Esta velocidad es demasiado rápida, es solo un éxito de varias herramientas de 'shell-set'!"
La discusión en la plataforma X continúa aumentando. La potente fuerza que se muestra por Gemini2.0flash Exp no solo se refleja en sus capacidades de procesamiento multimodal, sino también en su increíble velocidad de generación y estabilidad extraordinaria. El usuario Python_XXT probó un enlace de video sin subtítulos durante más de una hora. Gemini2.0flash Exp puede "generar directamente el contenido de la conferencia y el análisis en profundidad, y el efecto es perfecto para todas las herramientas de resumen en el mercado", que es simplemente "mágica". La implementación de esta función se debe indudablemente a la comprensión profunda de Gemini2.0Flash Exp del contenido de video. Incluso sin la "bendición" de los subtítulos, puede extraer con precisión la información clave en el video, que muestra su fuerza técnica.
Los expertos de la industria han capturado muy bien que la actualización de Google AI Studio marca una transformación importante de su estrategia de desarrollo, acelerando la evolución a las herramientas a nivel de aplicación desde una plataforma de modelo básica simple. X Gantrols de usuario señaló incisivamente que la función de generación de imágenes de Gemini2.0Flash Exp puede admitir perfectamente las palabras y modificaciones de diálogo de inmediato, que sin duda reducen en gran medida el umbral del usuario para su uso. También adjuntó cuidadosamente la guía de operación, "simplemente vaya a AI Studio y seleccione modelos", y las líneas revelan la gran importancia de Google para la amistad del desarrollador.
Por supuesto, las nuevas características son emocionantes, pero algunos usuarios han señalado sus "defectos" restantes. Por ejemplo, Dotey observó que todavía hay algunos problemas de accidente cerebrovascular menores en el texto chino generados por Gemini2.0flash Exp. El usuario LessNoise365 también mencionó que las características similares en realidad están integradas en los teléfonos Géminis de Pixel. Aunque las ventajas gratuitas de AI Studio son sobresalientes, puede haber espacio para una mayor optimización en términos de facilidad de uso. Sin embargo, los defectos no ocultan los méritos. Los usuarios en la plataforma X generalmente creen que esta actualización tendrá un profundo impacto en el ecosistema de herramientas de inteligencia artificial existente, especialmente en aquellas aplicaciones "encapsuladas en caparazón" que dependen del empaque simple, lo que sin duda enfrentará enormes desafíos de supervivencia.
Google no ha publicado oficialmente los detalles técnicos integrales de Gemini2.0flash Exp, pero sus increíbles capacidades multimodales y eficiencia han despertado fuertes expectativas de toda la industria. Con la iteración continua y la actualización de AI Studio, si Google integrará aún más sus enormes recursos ecológicos y lanzará funciones de IA más disruptivas puede convertirse en lo más importante en el campo de IA en 2025.
Dirección de API:
https://ai.google.dev/gemini-api/docs/visision?lang=python&hl=zh-cn#youtube