Zhiyuan Research Institute는 최근 다중 모드 상황 학습 기능에 획기적인 발전을 이룬 차세대 다중 모드 기본 모델 Emu2를 출시했습니다. 대규모 자동 회귀 생성 다중 모드 사전 훈련을 통해 Emu2는 Flamingo-80B 및 IDEFICS-80B와 같은 주류 모델을 능가하는 소수 샘플 다중 모드 이해 작업에서 좋은 성능을 발휘했으며 다중 소수 샘플 이해에서도 좋은 성능을 보였습니다. 시각적 질의 응답 및 이미지 생성 작업에 대한 최적의 성능을 달성합니다. Emu2에는 두 가지 주요 애플리케이션인 Emu2-Chat과 Emu2-Gen이 포함되어 있으며 각각 이미지 및 텍스트 명령 이해와 이미지/비디오 생성에 중점을 둡니다.
Zhiyuan Research Institute는 대규모 자동 회귀 생성 다중 모드 사전 학습을 통해 다중 모드 컨텍스트 학습 기능의 획기적인 발전을 크게 촉진하는 차세대 다중 모드 기본 모델 Emu2를 출시했습니다. Emu2는 소수 샘플 다중 모드 이해 작업에서 우수한 성능을 발휘하며, 주류 다중 모드 사전 훈련된 대형 모델 Flamingo-80B 및 IDEFICS-80B를 능가합니다. Emu2는 다중 소수 이해, 시각적 질문 답변 및 이미지 생성 작업에서 최적의 성능을 달성했습니다. Emu2-Chat은 그래픽 및 텍스트 지침을 정확하게 이해하여 더 나은 정보 인식, 의도 이해 및 의사 결정 계획을 달성할 수 있습니다. Emu2-Gen은 유연하고 제어 가능하며 고품질 이미지 및 비디오 생성을 달성하기 위해 이미지, 텍스트 및 인터리브 위치 시퀀스를 입력으로 수용할 수 있습니다. Emu2는 더 간단한 모델링 프레임워크를 채택하고 모델을 37B 매개변수로 확장합니다. 자세한 내용은 Zhiyuan Research Institute에서 공개한 프로젝트 링크를 참조하세요.강력한 성능과 간결한 프레임워크를 갖춘 Emu2는 다중 모드 인공 지능 분야의 최신 발전을 보여주고 미래 다중 모드 애플리케이션 개발을 위한 견고한 기반을 제공합니다. Zhiyuan Research Institute의 지속적인 혁신은 기대할만한 가치가 있습니다.