El último modelo cultural y biográfico de código abierto COGVIEW4 lanzado por Zhipu AI se lanza oficialmente, marcando otro gran avance en la inteligencia artificial en el campo de la generación de imágenes. COGVIEW4 no solo tiene una escala de parámetros de hasta 600 millones, sino que también realiza un soporte total para la entrada china y el texto chino a la generación de imágenes por primera vez. Se conoce como "el primer modelo de código abierto que puede generar caracteres chinos en la imagen". Esta innovación proporciona herramientas poderosas para los creadores de contenido chino y promueve en gran medida el desarrollo de la tecnología de generación de imágenes en el contexto chino.
Lo más destacado de COGVIEW4 es que admite la entrada de palabras indicadas chinas e inglesas, especialmente en el manejo de instrucciones complejas chinas. Como el primer modelo biográfico de código abierto que puede generar caracteres chinos en las imágenes, COGVIEW4 llena un gran vacío en el campo de código abierto. Además, el modelo también admite la generación de imágenes de cualquier relación de aspecto y puede procesar la entrada de palabras rápidas de cualquier longitud, mostrando una flexibilidad y adaptabilidad extremadamente alta, satisfaciendo las necesidades de diferentes escenarios.
En términos de arquitectura técnica, COGView4 se ha actualizado completamente, y su codificador de texto se ha actualizado a GLM-4, lo que respalda la entrada bilingüe china e inglesa, rompiendo por completo la limitación anterior del modelo de código abierto que solo admite inglés. Al usar pares gráficos bilingües chinos e inglés para entrenar, la calidad de generación de COGVIEW4 en el contexto chino ha mejorado significativamente, asegurando su precisión y fluidez al procesar el texto chino.
En términos de procesamiento de texto, COGVIEW4 abandona el diseño tradicional de longitud fija y adopta un esquema de longitud de texto dinámico. Cuando el texto de descripción promedio es de 200-300 elementos de palabras, en comparación con la solución tradicional con elementos fijos de 512 palabras, la redundancia se reduce en aproximadamente un 50%y la eficiencia de entrenamiento se mejora en un 5%-30%. Esta innovación no solo optimiza el uso de recursos informáticos, sino que también permite que el modelo procese palabras rápidas de diferentes longitudes de manera más eficiente, mejorando aún más la calidad y la diversidad de las imágenes generadas.
COGVIEW4 admite la generación de imágenes de cualquier resolución, gracias a varios avances tecnológicos. El modelo está entrenado con resolución mixta, combinada con codificación de posición de rotación bidimensional y representación de posición interpolada, que puede adaptarse a las necesidades de diferentes tamaños. Además, basado en el modelo de difusión de coincidencia de flujo y la planificación de ruido dinámico lineal parametrizado, COGVIEW4 mejora aún más la calidad y la diversidad de las imágenes generadas, lo que hace que funcione mejor en escenarios complejos.
El proceso de capacitación de COGVIEW4 se divide en múltiples etapas, comenzando desde capacitación de resolución básica, adaptación de resolución general, hasta el ajuste de alta calidad de datos y finalmente el resultado optimizado a través de la alineación de preferencias humanas. Este proceso conserva la arquitectura DIT de Param Share-Param, al tiempo que introduce la normalización independiente de la capa adaptativa para diferentes modos para garantizar la estabilidad y la consistencia del modelo en múltiples tareas. Este proceso de capacitación refinado le permite a COGVIEW4 satisfacer mejor las necesidades de los usuarios al generar imágenes.
Dirección del proyecto: https://github.com/thudm/cogview4