Aujourd'hui, l'équipe de Doubao Big Model a officiellement publié le rapport technique Wensheng Picture, qui a révélé les détails techniques du modèle de génération d'images Seedream 2.0 pour la première fois. Ce rapport couvre l'ensemble du processus de construction de données, le cadre pré-formation et le RLHF post-entraînement, marquant une percée majeure dans le domaine des graphiques littéraires et biographiques. Le lancement de Seedream 2.0 a sans aucun doute abandonné un "blockbuster" dans l'industrie, attirant une attention généralisée.
Depuis son lancement sur l'application Doubao et la plate-forme Zhimeng début décembre 2024, SeeDream2.0 a servi des centaines de millions d'utilisateurs C-End et a été très apprécié par des concepteurs professionnels. Par rapport aux modèles traditionnels tels que l'idéogramme 2.0 et le Midjourney V6.1, SeeDream 2.0 a apporté des améliorations significatives dans de nombreux aspects. Il résout non seulement le problème du mauvais rendu de texte, mais renforce également la compréhension de la culture chinoise, qui améliore de manière approfondie la compréhension bilingue, l'esthétique et les instructions en chinois et en anglais.
Grâce au test de référence d'évaluation Bench-240, SeeDream2.0 est particulièrement important dans la rationalité structurelle du contenu généré par les mots rapides anglais et la précision de la compréhension du texte. En termes de génération chinoise et de rendu du texte, son taux de disponibilité a atteint 78%, et son taux de réponse parfait a atteint 63%, dépassant de loin les autres modèles de l'industrie et démontrant ses puissantes capacités de traitement multilingue.
En termes de mise en œuvre technique, l'équipe de Doubao Big Model a fait de nombreuses innovations. Dans le processus de prétraitement des données, l'équipe a construit un cadre avec «l'intégration des connaissances» comme noyau et équilibré la qualité des données et la diversité des connaissances grâce à une architecture de données à quatre dimensions. Le moteur d'annotation intelligent a atteint une évolution cognitive à trois niveaux, améliorant considérablement les capacités de compréhension et de reconnaissance du modèle, tandis que la reconstruction de l'ingénierie a considérablement amélioré l'efficacité du traitement des données.
Pendant la phase de pré-formation, l'équipe s'est concentrée spécifiquement sur la compréhension bilingue et le rendu de texte. Grâce au schéma d'alignement bilingue natif, l'équipe a affiné le LLM et a construit un ensemble de données dédié, brisant avec succès la paroi dimensionnelle entre la langue et la vision. Le système de fusion à codage à double modal permet au modèle de prendre en compte la sémantique texte et les glyphes de police, tandis que l'architecture DIT à triple mise à niveau introduit des technologies de corde QK-Norm et à l'échelle, ce qui améliore la stabilité de la formation et réalise la génération d'images multi-résolution.
Au cours du processus RLHF post-formation, l'équipe a développé un système d'optimisation, à partir de trois aspects: système de données de préférence multidimensionnel, trois modèles de récompense différents et apprentissage répété pour stimuler l'évolution du modèle, améliorant efficacement les performances du modèle. Les valeurs de score de performance de différents modèles de récompense ont régulièrement augmenté dans l'itération, démontrant en outre la position principale de SeeDream2.0 dans le domaine de la génération d'images.
La publication de ce rapport technique démontre non seulement la détermination de l'équipe de Doubao Big Model à promouvoir le développement de la technologie de génération d'images, mais offre également à l'industrie une expérience technique précieuse. À l'avenir, l'équipe continuera d'explorer des technologies innovantes, d'améliorer les limites des performances du modèle, d'effectuer des recherches approfondies sur les mécanismes d'optimisation d'apprentissage du renforcement et d'aider le développement vigoureux de la technologie de génération d'images.
Si vous êtes intéressé par les détails techniques de SeeDream2.0, vous pouvez visiter la page d'affichage technique: [https://team.doubao.com/tech/seedream numéro(https://team.doubao.com/tech/seedream) ou téléchargez le rapport technique complet: [https://arxiv.org/pdf/2503.07703