Hoy, el equipo de modelos Big Doubao lanzó oficialmente el informe técnico de Wensheng Picture, que reveló los detalles técnicos del modelo de generación de imágenes Seedream 2.0 por primera vez. Este informe cubre todo el proceso de construcción de datos, el marco previo al entrenamiento y el RLHF posterior al entrenamiento, que marca un gran avance en el campo de los gráficos literarios y biográficos. El lanzamiento de Seedream 2.0 indudablemente dejó caer un "éxito de taquilla" en la industria, atrayendo una atención generalizada.
Desde su lanzamiento en la aplicación DouBao y la plataforma Zhimeng a principios de diciembre de 2024, Seedream2.0 ha servido a cientos de millones de usuarios de C-end y ha sido muy elogiado por diseñadores profesionales. En comparación con los modelos convencionales como el ideograma 2.0 y la mediana edad V6.1, Seedream 2.0 ha logrado mejoras significativas en muchos aspectos. No solo resuelve el problema de la representación de texto pobre, sino que también fortalece la comprensión de la cultura china, lo que mejora exhaustivamente la comprensión, la estética e instrucciones bilingües en chino e inglés.
A través de la prueba de referencia de evaluación de Bench-240, Seedream2.0 es particularmente prominente en la racionalidad estructural del contenido generado por las palabras rápidas en inglés y la precisión de la comprensión del texto. En términos de generación china y representación de texto, su tasa de disponibilidad alcanzó el 78%, y su tasa de respuesta perfecta fue tan alta como del 63%, superando con creces otros modelos en la industria y demostrando sus poderosas capacidades en el procesamiento multilingüe.
En términos de implementación técnica, el equipo de modelos Big Doubao ha hecho muchas innovaciones. En el proceso de preprocesamiento de datos, el equipo creó un marco con "integración del conocimiento" como el núcleo, y equilibró la calidad de los datos y la diversidad de conocimiento a través de una arquitectura de datos de cuatro dimensiones. El motor de anotación inteligente ha logrado la evolución cognitiva de tres niveles, mejorando significativamente las capacidades de comprensión y reconocimiento del modelo, mientras que la reconstrucción de ingeniería ha mejorado en gran medida la eficiencia del procesamiento de datos.
Durante la etapa previa al entrenamiento, el equipo se centró específicamente en la comprensión bilingüe y la representación de texto. A través del esquema de alineación bilingüe nativa, el equipo ajustó el LLM y construyó un conjunto de datos dedicado, rompiendo con éxito el muro dimensional entre el lenguaje y la visión. El sistema de fusión de codificación de doble modal permite que el modelo tenga en cuenta la semántica de texto y los glifos de fuentes, mientras que la arquitectura DIT de triple actualización introduce tecnologías de certificación QK-Norm y escala, lo que mejora la estabilidad de la capacitación y realiza la generación de imágenes de resolución múltiple.
Durante el proceso RLHF posterior al entrenamiento, el equipo desarrolló un sistema de optimización, comenzando a partir de tres aspectos: sistema de datos de preferencia multidimensional, tres modelos de recompensas diferentes y aprendizaje repetido para impulsar la evolución del modelo, mejorando efectivamente el rendimiento del modelo. Los valores de puntaje de rendimiento de diferentes modelos de recompensa han aumentado constantemente en la iteración, lo que demuestra aún más la posición principal de Seedream2.0 en el campo de la generación de imágenes.
El lanzamiento de este informe técnico no solo demuestra la determinación del equipo de Big Model de DoBao para promover el desarrollo de la tecnología de generación de imágenes, sino que también proporciona a la industria una valiosa experiencia técnica. En el futuro, el equipo continuará explorando tecnologías innovadoras, mejorará los límites del rendimiento del modelo, realizará una investigación en profundidad sobre mecanismos de optimización de aprendizaje de refuerzo y ayudará al desarrollo vigoroso de la tecnología de generación de imágenes.
Si está interesado en los detalles técnicos de Seedream2.0, puede visitar la página de visualización técnica: [https://team.doubao.com/tech/seedreamfont>(https://team.doubao.com/tech/seedream) o descargue el informe técnico completo: [https://arxiv.org/pdf/2503.07703font>(https://arxiv.org/pdf/2503.07703).