Сегодня команда Doubao Big Model официально опубликовала технический отчет Wensheng Picture, в котором впервые раскрыли технические детали модели генерации изображений SeedReam 2.0. Этот отчет охватывает весь процесс построения данных, рамки предварительного обучения и после тренировки RLHF, что отмечает серьезный прорыв в области литературной и биографической графики. Запуск SeedReam 2.0, несомненно, уронил «блокбастер» в отрасли, привлекая широкое внимание.
С момента запуска приложения Doubao и платформы Zhimeng в начале декабря 2024 года SeedReam2.0 обслуживал сотни миллионов пользователей C-END и высоко оценили профессиональные дизайнеры. По сравнению с основными моделями, такими как Ideogram 2.0 и Midjourney V6.1, SeedReam 2.0 добился значительных улучшений во многих аспектах. Это не только решает проблему плохого рендеринга текста, но также укрепляет понимание китайской культуры, которая всесторонне улучшает двуязычное понимание, эстетику и инструкции на китайском и английском языке.
Благодаря тесту оценки оценки Bench-240 SeedReam2.0 особенно заметен в структурной рациональности содержания, генерируемого английскими быстрыми словами и точностью понимания текста. С точки зрения китайского генерации и рендеринга текста, уровень доступности достиг 78%, а его идеальное количество отклика достигло 63%, что намного превышало другие модели в отрасли и демонстрируя его мощные возможности в многоязычной обработке.
С точки зрения технической реализации, команда Doubao Big Model сделала много инноваций. В процессе предварительной обработки данных команда создала структуру с «интеграцией знаний» в качестве основной, а также сбалансированное качество данных и разнообразие знаний с помощью четырехмерной архитектуры данных. Интеллектуальный механизм аннотации достиг трехуровневой когнитивной эволюции, значительно улучшив возможности понимания и распознавания модели, в то время как инженерная реконструкция значительно повысила эффективность обработки данных.
На стадии предварительного обучения команда сосредоточилась специально на двуязычном понимании и рендеринге текста. Благодаря нативной схеме двуязычного выравнивания команда тонко настроила LLM и создала выделенный набор данных, успешно нарушая размерную стену между языком и видением. Двухмодальная система слияния кодирования позволяет модели учитывать текстовую семантику и глифы шрифтов, в то время как архитектура DIT с тройным обновлением вводит технологии QK-Norm и масштабирование веревочных технологий, что улучшает стабильность обучения и реализует генерацию изображений с несколькими разрешениями.
Во время процесса после тренировки RLHF команда разработала систему оптимизации, начиная с трех аспектов: многомерная система данных предпочтений, три различные модели вознаграждения и повторное обучение для управления эволюцией модели, эффективно повышая производительность модели. Значения оценки производительности различных моделей вознаграждений неуклонно увеличивались в итерации, еще больше демонстрируя лидирующую позицию SeedReam2.0 в области генерации изображений.
Выпуск этого технического отчета не только демонстрирует определение команды Doubao Big Model для содействия разработке технологий генерации изображений, но также предоставляет отрасли ценный технический опыт. В будущем команда будет продолжать изучать инновационные технологии, улучшать границы производительности модели, проводить углубленные исследования по механизмам подкрепления обучения и поможет активно развивать технологии генерации изображений.
Если вы заинтересованы в технических деталях SeedReam2.0, вы можете посетить страницу технического отображения: [https://team.doubao.com/tech/seedream!(https://team.doubao.com/tech/seedream) или загрузите полный технический отчет: [https://arxiv.org/pdf/2503.07703!(https://arxiv.org/pdf/2503.07703).