Downcodes의 편집자는 Zhipu AI가 최신 Vincentian 그래프 모델 CogView3과 업그레이드된 버전 CogView-3Plus-3B를 오픈 소스화하여 Vincentian 그래프 분야에 파장을 일으키고 있다는 사실을 알게 되었습니다. CogView3는 릴레이 확산을 사용한 최초의 모델로서 독특한 캐스케이드 확산 방식으로 이미지 품질과 효율성 면에서 획기적인 발전을 이루었습니다. 생성 품질은 SDXL을 능가하지만, 유선형 버전에서도 추론 속도가 더 빠릅니다. 이는 의심할 여지없이 고품질의 효율적인 이미지 생성을 위한 새로운 가능성을 제공합니다.
최근 Zhipu AI는 최신 걸작인 CogView3와 업그레이드 버전 CogView-3Plus-3B를 대중에게 공개하여 Vincentian 그래픽 분야에 새로운 활력을 불어넣었습니다.
CogView3의 데뷔는 의심할 여지 없이 중요한 이정표입니다. 텍스트-이미지 생성 분야에서 최초로 릴레이 확산을 구현한 모델로 독특한 캐스케이드 확산 방식을 채택했습니다. 이 혁신적인 접근 방식은 먼저 저해상도 이미지를 생성한 후 릴레이 기반 초해상도 기술을 통해 최종 출력을 완성합니다. 이는 생성된 이미지의 품질을 크게 향상시킬 뿐만 아니라 교육 및 추론 비용도 크게 절감합니다.

가장 눈길을 끄는 것은 CogView3의 성능이다. 사람의 평가 결과에 따르면 CogView3는 생성 품질 측면에서 현재 최첨단 오픈 소스 텍스트-이미지 모델인 SDXL을 77.0%의 승률로 능가합니다. 더욱 인상적인 점은 SDXL 추론 시간의 약 절반만에 이러한 성과를 달성했다는 것입니다. CogView3의 간소화된 버전을 사용하는 경우 SDXL 추론 시간의 10분의 1만 차지하면서도 비슷한 성능 수준을 유지할 수 있습니다. 이 획기적인 발전은 의심할 여지없이 효율적인 고품질 이미지 생성을 위한 새로운 가능성을 열어줍니다.
동시에 Zhipu AI는 DiT(Diffusion Transformers) 프레임워크를 기반으로 한 이미지 모델인 CogView-3Plus-3B도 출시했습니다. 아직 구체적인 테스트 결과가 발표되지 않았지만 업계에서는 그 잠재력에 대한 기대가 가득하다. CogView-3Plus-3B는 CogView3를 기반으로 더욱 최적화되었으며 Zero-SNR 확산 노이즈 스케줄링 및 공동 텍스트-이미지 주의 메커니즘과 같은 고급 기술을 도입합니다. 이러한 개선 사항은 교육 및 추론 비용을 절감할 뿐만 아니라 강력한 이미지 생성 기능을 유지합니다.
CogView-3Plus-3B는 512x512에서 2048x2048에 이르는 광범위한 이미지 해상도를 지원하므로 애플리케이션 시나리오의 유연성이 크게 향상된다는 점은 언급할 가치가 있습니다. 일상적인 사용이든 전문적인 창작이든 관계없이 올바른 해결 옵션을 찾을 수 있습니다.
사용자가 이러한 모델을 더 잘 사용할 수 있도록 Zhipu AI는 실용적인 제안과 도구도 제공합니다. 그들은 생성된 이미지의 품질을 크게 향상시킬 수 있는 LLM(대형 언어 모델)을 통해 프롬프트 단어를 최적화할 것을 사용자에게 권장합니다. 동시에 Zhipu AI는 샘플 스크립트도 제공하여 사용자의 사용 임계값을 크게 줄입니다.
프로젝트 주소: https://github.com/THUDM/CogView3
CogView3 및 CogView-3Plus-3B의 오픈 소스는 Wenshengtu 기술의 또 다른 큰 발전을 의미합니다. Downcodes의 편집자는 향후 응용 프로그램에서 더 많은 놀라움을 가져올 것으로 기대합니다. 개발자들이 적극적으로 노력하고 개발에 기여할 수 있기를 바랍니다.