2025 년 3 월 4 일, 베이징 Zhipu Huazhang Technology Co., Ltd.는 공식적으로 최신 오픈 소스 전기 그래픽 모델 -Cogview4를 발표했습니다. 이 모델은 DPG-Bench 벤치 마크 테스트에서 최고 수준의 전체 점수로 훌륭하게 수행되었으며 현재 오픈 소스 문학 및 전기 모델에서 기술 벤치 마크가되었습니다. Cogview4는 Apache 2.0 프로토콜을 따를뿐만 아니라 프로토콜을 지원하는 최초의 이미지 생성 모델이기도하여 오픈 소스 이미지 생성 기술의 새로운 이정표를 표시합니다.
Cogview4의 핵심 장점은 강력한 복잡한 시맨틱 정렬 및 기능에 따른 지시입니다. 중국어와 영어 이중 언어 입력을 처리하고 해상도의 이미지를 생성 할 수 있습니다. 이 기능은 Cogview4가 광고 및 짧은 비디오와 같은 창의적인 분야에서 광범위한 응용 프로그램 전망을 갖습니다. 기술적으로 Cogview4는 이중 언어 기술로 GLM-4encoder를 채택합니다. 이중 언어 중국어 및 영어 그래픽 교육을 통해 이중 언어 프롬프트 단어를 입력하는 능력을 깨닫고 모델의 실용성과 유연성을 더욱 향상시킵니다.

이미지 생성 측면에서 Cogview4는 모든 길이의 신속한 단어 입력을 지원하고 모든 해상도의 이미지를 생성하여 창의적 자유와 훈련 효율성을 크게 향상시킬 수 있습니다. 이 모델은 2 차원 회전 위치 코딩 (2D 로프)을 사용하여 이미지 위치 정보를 모델링하고 보간 위치 코딩을 통해 다른 해상도에서 이미지 생성을 지원합니다. 또한 Cogview4는 확산 생성 모델링을위한 유량 매칭 방식을 채택하여 매개 변수화 된 선형 동적 노이즈 계획을 결합하여 해상도가 다른 이미지의 신호 대 잡음비 요구 사항에 적응하고 생성 된 이미지의 높은 품질을 보장합니다.
아키텍처 설계 측면에서 Cogview4는 이전 세대의 공유-파람 DIT 아키텍처를 계속하고 텍스트와 이미지 양식에 대한 독립적 인 적응 형 Layernorm 레이어를 계속하여 양식 간의 효율적인 적응을 달성합니다. 이 모델은 기본 해상도 교육, 일반 해상도 훈련, 고품질 데이터 미세 조정 및 인간 선호도 정렬 교육을 포함한 다단계 교육 전략을 채택하여 생성 된 이미지가 높은 미적 감각을 가질뿐만 아니라 인간의 미학적 선호도에 부합하도록합니다.
Cogview4는 또한 전통적인 고정 토큰 길이 한계를 뚫고 토큰 상한이 높을 수 있으며 훈련 중 텍스트 토큰 중복성을 크게 줄입니다. 훈련 캡션의 평균 길이가 200-300 토큰 인 경우, 고정 된 512 토큰의 기존 솔루션과 비교할 때 Cogview4는 토큰 중복성을 약 50% 감소시키고 모델 진행성 훈련 단계에서 5% -30% 효율 개선을 달성하여 모델의 훈련 효과를 더욱 최적화합니다.
또한 Cogview4는 Apache 2.0 프로토콜을 지원하며 향후 Controlnet 및 Comfyui와 같은 생태 지원을 점차적으로 추가 할 것입니다. 전체 미세 조정 툴킷 세트가 곧 시작되어 개발자에게보다 편리한 사용자 경험을 제공합니다. 오픈 소스 창고 주소는 https://github.com/thudm/cogview4이며, 모델 창고 주소는 https://huggingface.co/thudm/cogview4-6b 및 https://modelscope.cn/models/zhipuai/cogview4-6b입니다.