今日、Doubao Big Modelチームは、Wensheng Picture Technical Reportを正式にリリースしました。このレポートは、データ構築、トレーニング前のフレームワーク、およびトレーニング後のRLHFのプロセス全体をカバーし、文学および伝記グラフィックスの分野での大きなブレークスルーをマークしています。 Seedream 2.0の発売は、間違いなく業界で「大ヒット」を削除し、広範囲にわたる注目を集めました。
2024年12月上旬にDoubaoアプリとZhimengプラットフォームで発売されて以来、SeedReam2.0は数億人のC延長ユーザーにサービスを提供しており、プロのデザイナーから高く評価されています。 IDEOGRAM 2.0やMidjourney V6.1などの主流モデルと比較して、SeedReam 2.0は多くの側面で大幅な改善を達成しています。それは、貧弱なテキストレンダリングの問題を解決するだけでなく、中国文化の理解を強化し、中国と英語のバイリンガルの理解、美学、指示を包括的に改善します。
Bench-240評価ベンチマークテストを通じて、SeedReam2.0は、英語の迅速な単語によって生成されたコンテンツの構造合理性とテキスト理解の精度において特に顕著です。中国の世代とテキストのレンダリングに関しては、その可用性率は78%に達し、その完全な回答率は63%と高く、業界の他のモデルをはるかに超えており、多言語処理におけるその強力な機能を実証しています。
技術的な実装の観点から、Doubao Big Modelチームは多くの革新を行ってきました。データの前処理プロセスでは、チームはコアとして「知識統合」を備えたフレームワークを構築し、4次元データアーキテクチャを通じてデータの品質と知識の多様性のバランスを取りました。インテリジェントな注釈エンジンは3レベルの認知的進化を達成し、モデルの理解と認識能力を大幅に改善し、エンジニアリング再構築によりデータ処理の効率が大幅に向上しました。
トレーニング前の段階で、チームはバイリンガルの理解とテキストレンダリングに特に焦点を合わせました。ネイティブのバイリンガルアライメントスキームを通じて、チームはLLMを微調整し、専用のデータセットを構築し、言語とビジョンの間の寸法壁を正常に破壊しました。デュアルモーダルコーディング融合システムにより、モデルはテキストセマンティクスとフォントグリフを考慮し、トリプルアップグレードされたDITアーキテクチャはQK-ノームとスケーリングロープテクノロジーを導入し、トレーニングの安定性を改善し、マルチ解像度画像の生成を実現します。
トレーニング後のRLHFプロセス中に、チームは3つの側面から始まる最適化システムを開発しました:多次元設定データシステム、3つの異なる報酬モデル、モデルの進化を促進する繰り返し学習、モデルのパフォーマンスを効果的に改善します。異なる報酬モデルのパフォーマンススコア値は、反復で着実に増加しており、画像生成の分野でのSeedReam2.0の主要な位置をさらに実証しています。
このテクニカルレポートのリリースは、イメージ生成テクノロジーの開発を促進するというDoubao Big Modelチームの決意を実証するだけでなく、業界に貴重な技術体験を提供します。将来、チームは革新的なテクノロジーを探求し、モデルのパフォーマンスの境界を改善し、強化学習最適化メカニズムに関する詳細な研究を実施し、画像生成技術の活発な開発を支援し続けます。
SeedReam2.0の技術的な詳細に興味がある場合は、技術的な表示ページにアクセスできます。 [https://arxiv.org/pdf/2503.07703 [https://arxiv.org/pdf/2503.07703)。