오늘 Doubao Big Model 팀은 공식적으로 Wensheng Picture 기술 보고서를 발표했으며, 이는 SeedReam 2.0 이미지 생성 모델의 기술 세부 사항을 처음으로 공개했습니다. 이 보고서는 데이터 구성의 전체 프로세스, 사전 훈련 프레임 워크 및 교육 후 RLHF를 다루며 문학 및 전기 그래픽 분야에서 주요 획기적인 획기적인 것으로 나타납니다. SeedReam 2.0의 출시는 의심 할 여지없이 업계에서 "블록버스터"를 떨어 뜨려 광범위한 관심을 끌었습니다.
SeedReam2.0은 2024 년 12 월 초 Doubao App 및 Zhimeng 플랫폼에서 출시 된 이래 수백만 명의 C-End 사용자에게 서비스를 제공했으며 전문 디자이너들에게 칭찬을 받았습니다. SeedReam 2.0은 Ideogram 2.0 및 Midjourney V6.1과 같은 주류 모델과 비교하여 여러 측면에서 상당한 개선을 달성했습니다. 그것은 텍스트 렌더링의 열악한 문제를 해결할뿐만 아니라 중국 문화에 대한 이해를 강화시켜 중국어와 영어로 이중 언어의 이해, 미학 및 지침을 포괄적으로 향상시킵니다.
Bench-240 평가 벤치 마크 테스트를 통해 SeedReam2.0은 영어 프롬프트 단어와 텍스트 이해의 정확성에 의해 생성 된 내용의 구조적 합리성에서 특히 두드러집니다. 중국 세대와 텍스트 렌더링 측면에서, 가용성 비율은 78%에 달했으며, 완벽한 응답 속도는 63%로 높았으며 업계의 다른 모델을 훨씬 능가하고 다국어 처리에서 강력한 기능을 보여줍니다.
기술 구현 측면에서 Doubao Big Model 팀은 많은 혁신을 만들었습니다. 데이터 전처리 프로세스에서 팀은 "지식 통합"을 핵심으로, 4 차원 데이터 아키텍처를 통해 균형 잡힌 데이터 품질 및 지식 다양성의 프레임 워크를 구축했습니다. 지능형 주석 엔진은 3 단계인지 진화를 달성하여 모델의 이해 및 인식 기능을 크게 향상시키는 반면, 엔지니어링 재건은 데이터 처리의 효율성을 크게 향상 시켰습니다.
사전 훈련 단계에서 팀은 이중 언어 이해력과 텍스트 렌더링에 특히 중점을 두었습니다. 기본 이중 언어 정렬 체계를 통해 팀은 LLM을 미세 조정하고 전용 데이터 세트를 구축하여 언어와 비전 사이의 차원 벽을 성공적으로 깨뜨 렸습니다. 이중 모달 코딩 퓨전 시스템을 통해 모델은 텍스트 의미론 및 글리프를 고려할 수있는 반면, 트리플 업그레이드 된 DIT 아키텍처는 QK-Norm 및 스케일링 로프 기술을 도입하여 교육의 안정성을 향상시키고 다중 해상도 이미지의 생성을 실현합니다.
훈련 후 RLHF 프로세스 동안, 팀은 다차원 선호도 데이터 시스템, 세 가지 다른 보상 모델, 모델 진화를 주도하여 모델의 성능을 효과적으로 향상시키는 반복 학습의 세 가지 측면에서 시작하여 최적화 시스템을 개발했습니다. 다른 보상 모델의 성능 점수 값은 반복에서 꾸준히 증가하여 이미지 생성 분야에서 SeedReam2.0의 주요 위치를 더 보여줍니다.
이 기술 보고서의 출시는 이미지 생성 기술의 개발을 촉진하려는 Doubao Big Model 팀의 결정을 보여줄뿐만 아니라 업계에 귀중한 기술 경험을 제공합니다. 앞으로 팀은 혁신적인 기술을 계속 탐색하고, 모델 성능 경계를 개선하며, 강화 학습 최적화 메커니즘에 대한 심층적 인 연구를 수행하며, 이미지 생성 기술의 활발한 개발을 도울 것입니다.
SeedReam2.0의 기술적 세부 사항에 관심이 있으시면 기술 디스플레이 페이지를 방문 할 수 있습니다 : [https://team.doubao.com/tech/seedream] reamre) 전체 기술 보고서를 다운로드하십시오. [https://arxiv.org/pdf/2503.07703 ](https://arxiv.org/pdf/2503.07703).