El editor de Downcodes se enteró de que Zhipu AI ha abierto su último modelo de gráfico vicenciano CogView3 y su versión mejorada CogView-3Plus-3B, causando sensación en el campo de los gráficos vicencianos. Como primer modelo en utilizar difusión por retransmisión, CogView3 ha logrado avances en la calidad y eficiencia de la imagen con su exclusivo método de difusión en cascada. Su calidad de generación supera al SDXL, pero su velocidad de inferencia es más rápida, incluso en la versión optimizada. Sin duda, esto proporciona nuevas posibilidades para la generación de imágenes eficiente y de alta calidad.
Recientemente, Zhipu AI ha abierto al público su última obra maestra: CogView3 y su versión mejorada CogView-3Plus-3B, inyectando nueva vitalidad en el campo de los gráficos vicencianos.
El debut de CogView3 es sin duda un hito importante. Como primer modelo en implementar la difusión por retransmisión en el campo de la generación de texto a imagen, adopta un método de difusión en cascada único. Este enfoque innovador primero genera imágenes de baja resolución y luego completa el resultado final mediante tecnología de súper resolución basada en relés. Esto no sólo mejora enormemente la calidad de las imágenes generadas, sino que también reduce significativamente el coste de formación e inferencia.

Lo más llamativo es el rendimiento de CogView3. Según los resultados de la evaluación humana, CogView3 supera al actual modelo SDXL de texto a imagen de código abierto de última generación en términos de calidad de generación, con una tasa de ganancia del 77,0%. Aún más impresionante es que logra esta hazaña en sólo aproximadamente la mitad del tiempo de inferencia del SDXL. Si utiliza la versión optimizada de CogView3, aún puede mantener un nivel de rendimiento comparable y ocupar solo una décima parte del tiempo de inferencia de SDXL. Sin duda, este avance abre nuevas posibilidades para la generación de imágenes eficiente y de alta calidad.
Al mismo tiempo, Zhipu AI también lanzó CogView-3Plus-3B, un modelo de imagen basado en el marco DiT (Diffusion Transformers). Aunque los resultados de sus pruebas específicas aún no se han anunciado, la industria está llena de expectativas sobre su potencial. CogView-3Plus-3B se optimiza aún más sobre la base de CogView3 e introduce tecnologías avanzadas como la programación de ruido de difusión Zero-SNR y el mecanismo de atención conjunta de texto e imagen. Estas mejoras no solo reducen los costos de capacitación e inferencia, sino que también mantienen sólidas capacidades de generación de imágenes.
Vale la pena mencionar que CogView-3Plus-3B admite una amplia gama de resoluciones de imagen, desde 512x512 hasta 2048x2048, lo que aumenta en gran medida la flexibilidad de sus escenarios de aplicación. Ya sea para uso diario o creación profesional, encontrarás la opción de resolución adecuada.
Para ayudar a los usuarios a hacer un mejor uso de estos modelos, Zhipu AI también proporciona sugerencias y herramientas prácticas. Recomiendan a los usuarios optimizar las palabras clave mediante modelos de lenguaje grandes (LLM), que pueden mejorar significativamente la calidad de las imágenes generadas. Al mismo tiempo, Zhipu AI también proporciona scripts de muestra, lo que reduce en gran medida el umbral de uso del usuario.
Dirección del proyecto: https://github.com/THUDM/CogView3
El código abierto de CogView3 y CogView-3Plus-3B marca otro gran paso adelante para la tecnología Wenshengtu. ¡El editor de Downcodes espera traer más sorpresas en aplicaciones futuras! Espero que los desarrolladores puedan intentar contribuir activamente a su desarrollo.