Zhipu AI가 출시 한 최신 오픈 소스 문화 및 전기 모델 Cogview4는 공식적으로 출시되어 이미지 생성 분야에서 인공 지능의 또 다른 주요 획기적인 획기적인 발전을 나타냅니다. Cogview4의 매개 변수 척도는 최대 6 억의 매개 변수를 가지고있을뿐만 아니라 처음으로 중국의 입력 및 중국어 텍스트에 대한 전체 지원을 실현합니다. "그림에서 한자를 생성 할 수있는 최초의 오픈 소스 모델"이라고합니다. 이 혁신은 중국 콘텐츠 제작자에게 강력한 도구를 제공하고 중국 상황에서 이미지 생성 기술 개발을 크게 장려합니다.
Cogview4의 핵심 하이라이트는 특히 복잡한 중국어 지침을 처리 할 때 중국 및 영어 프롬프트 단어 입력을 지원한다는 것입니다. 이미지에서 한자를 생성 할 수있는 최초의 오픈 소스 전기 모델로서 Cogview4는 오픈 소스 필드에서 큰 차이를 채 웁니다. 또한이 모델은 모든 종횡비의 그림 생성을 지원하고 모든 길이의 신속한 단어 입력을 처리하여 매우 높은 유연성과 적응성을 보여 주어 다양한 시나리오의 요구를 충족시킬 수 있습니다.
기술 아키텍처 측면에서 Cogview4는 완전히 업그레이드되었으며 텍스트 인코더는 GLM-4로 업그레이드되어 중국어 및 영어 이중 언어 입력을 지원하여 영어 만 지원하는 오픈 소스 모델의 이전 제한을 완전히 중단했습니다. 중국어와 영어 이중 언어 그래픽 쌍을 훈련시킴으로써 중국 문맥에서 Cogview4의 생성 품질이 크게 향상되어 중국어 텍스트를 처리 할 때 정확성과 유창성을 보장합니다.
텍스트 처리 측면에서 Cogview4는 전통적인 고정 길이 설계를 포기하고 동적 텍스트 길이 체계를 채택합니다. 평균 설명 텍스트가 200-300 단어 요소 인 경우 고정 된 512 개의 단어 요소가있는 기존 솔루션과 비교하여 중복성은 약 50%감소하고 훈련 효율은 5%-30%향상됩니다. 이 혁신은 컴퓨팅 리소스의 사용을 최적화 할뿐만 아니라 모델이 다양한 길이의 신속한 단어를보다 효율적으로 처리 할 수 있도록하여 생성 된 이미지의 품질과 다양성을 더욱 향상시킬 수 있습니다.
Cogview4는 몇 가지 기술 혁신 덕분에 모든 해상도의 이미지 생성을 지원합니다. 이 모델은 혼합 해상도로 훈련되며, 2 차원 회전 위치 코딩 및 보간 위치 표현과 결합하여 다양한 크기의 요구에 적응할 수 있습니다. 또한, 흐름 일치 확산 모델과 매개 변수화 된 선형 동적 노이즈 계획을 기반으로 Cogview4는 생성 된 이미지의 품질과 다양성을 더욱 향상시켜 복잡한 시나리오에서 더 나은 성능을 제공합니다.
Cogview4의 훈련 과정은 기본 해상도 훈련에서 일반 해상도 적응, 고품질 데이터 미세 조정으로 시작하여 인간 선호도 정렬을 통해 최적화 된 출력으로 여러 단계로 나뉩니다. 이 프로세스는 Share-Param DIT 아키텍처를 유지하는 동시에 여러 작업에서 모델의 안정성과 일관성을 보장하기 위해 다른 모드에 대한 독립적 인 적응 형 층 정규화를 도입합니다. 이 정제 된 교육 프로세스를 통해 Cogview4는 이미지를 생성 할 때 사용자 요구를 더 잘 충족시킬 수 있습니다.
프로젝트 주소 : https://github.com/thudm/cogview4