Hoje, a equipe do Doubao Big Model lançou oficialmente o relatório técnico de imagem de Wensheng, que divulgou os detalhes técnicos do modelo de geração de imagens SeedReam 2.0 pela primeira vez. Este relatório abrange todo o processo de construção de dados, estrutura de pré-treinamento e RLHF pós-treinamento, marcando um grande avanço no campo dos gráficos literários e biográficos. O lançamento do SeedReam 2.0, sem dúvida, retirou um "sucesso de bilheteria" no setor, atraindo atenção generalizada.
Desde o seu lançamento no Doubao App e Zhimeng Platform no início de dezembro de 2024, o SeedReam2.0 serviu centenas de milhões de usuários do C-END e foi altamente elogiado por designers profissionais. Comparado com modelos convencionais como o ideograma 2.0 e o MidJourney v6.1, o SeedReam 2.0 alcançou melhorias significativas em muitos aspectos. Ele não apenas resolve o problema da baixa renderização de texto, mas também fortalece a compreensão da cultura chinesa, que melhora de maneira abrangente o entendimento bilíngue, a estética e as instruções em chinês e inglês.
Através do teste de referência de avaliação de bancada 240, o SeedReam2.0 é particularmente proeminente na racionalidade estrutural do conteúdo gerado pelas palavras rápidas em inglês e pela precisão do entendimento do texto. Em termos de geração chinesa e renderização do texto, sua taxa de disponibilidade atingiu 78%e sua taxa de resposta perfeita foi de 63%, excedendo em muito outros modelos no setor e demonstrando suas poderosas capacidades no processamento multilíngue.
Em termos de implementação técnica, a equipe de modelos de Big Doubao fez muitas inovações. No processo de pré-processamento de dados, a equipe construiu uma estrutura com "integração do conhecimento" como núcleo e qualidade de dados e diversidade de conhecimento equilibrado por meio de uma arquitetura de dados quadridimensionais. O mecanismo de anotação inteligente alcançou a evolução cognitiva de três níveis, melhorando significativamente os recursos de entendimento e reconhecimento do modelo, enquanto a reconstrução da engenharia melhorou bastante a eficiência do processamento de dados.
Durante a fase de pré-treinamento, a equipe se concentrou especificamente na compreensão bilíngue e na renderização de texto. Através do esquema de alinhamento bilíngue nativo, a equipe ajustou o LLM e construiu um conjunto de dados dedicado, quebrando com sucesso a parede dimensional entre linguagem e visão. O sistema de fusão de codificação duplo-modal permite que o modelo leve em consideração a semântica do texto e os glifos de fontes, enquanto a arquitetura DIT de atualização tripla introduz tecnologias de corda QK e escala, o que melhora a estabilidade do treinamento e realiza a geração de imagens de múltiplas resolução.
Durante o processo RLHF pós-treinamento, a equipe desenvolveu um sistema de otimização, a partir de três aspectos: sistema de dados de preferência multidimensional, três modelos de recompensa diferentes e aprendizado repetido para impulsionar a evolução do modelo, melhorando efetivamente o desempenho do modelo. Os valores de pontuação de desempenho de diferentes modelos de recompensa aumentaram constantemente na iteração, demonstrando ainda mais a posição de liderança do SeedRream2.0 no campo da geração de imagens.
O lançamento deste relatório técnico não apenas demonstra a determinação da equipe de Big Model Doubao em promover o desenvolvimento da tecnologia de geração de imagens, mas também fornece ao setor uma experiência técnica valiosa. No futuro, a equipe continuará a explorar tecnologias inovadoras, melhorar os limites de desempenho do modelo, realizar pesquisas aprofundadas sobre mecanismos de otimização de aprendizado de reforço e ajudarão o desenvolvimento vigoroso da tecnologia de geração de imagens.
Se você estiver interessado nos detalhes técnicos do SeedReam2.0, poderá visitar a página de exibição técnica: [https://team.doubao.com/tech/seedream ](https://team.doubao.com/tech/seedream) ou baixar o relatório técnico: [https://arxiv.org/pdf/2503.07703 ](https://arxiv.org/pdf/2503.07703).