다운코드 편집자 보고서: InstantX 팀은 난징 과학 기술 대학교, 베이항 대학교 및 북경 대학교의 연구팀과 함께 CSGO라는 새로운 스타일 전송 모델을 공동 개발했습니다. 이 모델은 이미지 생성 기술의 병목 현상을 극복하고 특히 콘텐츠와 스타일의 통합을 크게 향상시키는 것을 목표로 합니다. CSGO 모델은 그림 및 그림, 그림 및 텍스트, 텍스트 편집 그림과 같은 다양한 응용 시나리오를 포괄하는 세 가지 스타일 전송 모드를 지원하여 강력한 기능과 유연성을 보여줍니다. 이 인상적인 AI 모델을 자세히 살펴보겠습니다.
최근 InstantX 팀은 난징 과학기술대학교, 베이항대학교, 북경대학교 연구팀과 공동으로 CSGO라는 새로운 스타일 전송 모델을 개발하여 특히 콘텐츠와 스타일의 결합에서 이미지 생성 기술을 향상시키는 것을 목표로 하고 있습니다.

CSGO는 주로 다음과 같이 3가지 스타일 마이그레이션 모드를 지원합니다.
1. 콘텐츠 사진 + 스타일 참고 사진으로 콘텐츠의 스타일 사진을 합성합니다. 예를 들어, 다음과 같은 경우에는 "곰, 집" 등 스타일 변경이 필요한 원본 사진을 주고 스타일 참고 사진을 주면 원본 사진의 스타일을 참고 사진으로 변경할 수 있습니다. 스타일 사진.

2. 스타일 참조 사진 + 텍스트는 스타일 사진과 텍스트 콘텐츠를 합성하라는 메시지를 표시합니다. 예를 들어, 다음과 같은 경우, 참조 스타일 사진이 주어지고 "고양이, 개, 남자, 판다"와 같은 텍스트 프롬프트가 주어지면 해당 콘텐츠 스타일 사진이 생성될 수 있다.

3) 그림에 지정된 개체를 텍스트를 통해 편집합니다.

CSGO 모델의 핵심은 고유한 데이터 구성 프로세스에 있습니다. 연구팀은 IMAGStyle이라는 대규모 스타일 전송 데이터 세트를 구축하기 위해 데이터 생성 및 자동 정리 파이프라인을 신중하게 설계했습니다. 이 데이터 세트에는 210,000개의 이미지 트리플이 포함되어 있으며 학술 연구 및 이미지 생성 기술 탐구에 중요한 리소스가 되었습니다.
이 모델의 디자인 컨셉은 매우 참신합니다. CSGO는 이미지 생성 과정에서 콘텐츠와 스타일 특징을 명확하게 구분할 수 있습니다. 연구원들은 이 모델의 장점은 엔드투엔드 훈련 방법이라고 말합니다. 이는 추론 단계에서 미세 조정이 필요하지 않음을 의미합니다.
동시에 CSGO 모델의 또 다른 특징은 UNet을 훈련하지 않고도 원본 텍스트-이미지 모델의 생성 기능을 유지한다는 것입니다. 이러한 혁신을 통해 CSGO는 이미지 중심 스타일 전송, 텍스트 중심 스타일 합성 및 텍스트 편집 중심 스타일 합성을 달성합니다.
실험 결과 측면에서 CSGO는 매우 좋은 성능을 보였습니다. 연구원들은 일련의 정량적 및 시각적 비교 데이터를 제공하고 최신 기존 방법과 포괄적인 비교를 수행했으며 스타일 제어 기능에서 CSGO의 장점을 입증했습니다.
가장 밝은 부분:
CSGO 모델은 혁신적인 데이터 구성 파이프라인을 통해 210,000개의 이미지 트리플을 포함하는 IMAGStyle 데이터 세트를 성공적으로 생성했습니다.
이 모델은 콘텐츠와 스타일을 명확하게 분리하고 이미지 기반 및 텍스트 기반 스타일 전송을 포함한 다양한 생성 방법을 지원합니다.
? 실험 결과에 따르면 CSGO는 스타일 제어 기능 측면에서 기존 기술을 능가하여 새로운 수준의 이미지 생성을 보여줍니다.
CSGO 모델의 출현은 이미지 생성 기술의 새로운 혁신을 의미합니다. 스타일 전달과 혁신적인 데이터 구성 방법에 있어서 뛰어난 성능은 미래 이미지 생성 연구에 새로운 방향과 영감을 제공합니다. Downcodes의 편집자는 CSGO 모델이 더 많은 분야에 적용되어 우리에게 더욱 흥미로운 시각적 경험을 선사할 수 있기를 바랍니다!