최근 몇 년 동안, LLM (Lange Language Models)은 인공 지능 분야, 특히 멀티 모달 융합 분야에서 획기적인 진전을 이루었습니다. Huazhong Science and Technology, Bytedance와 홍콩 대학교의 공동 팀은 최근 시각적 처리에서 현재 주류 멀티 모달 모델의 한계를 해결하기 위해 혁신적인 멀티 모달 생성 프레임 워크 인 Liquid를 제안했습니다. 이 기술의 출현은 멀티 모달 분야에서 인공 지능의 추가 개발을 의미합니다.
전통적인 멀티 모달 모형은 종종 복잡한 외부 비전 모듈에 의존하여 시스템의 복잡성을 증가시킬뿐만 아니라 확장 성과 유연성을 제한합니다. Liquid의 혁신은 VQGAN을 이미지 단어 세그먼트로 채택하고 외부 시각적 구성 요소에 대한 의존성을 포기한다는 것입니다. Liquid는 이미지를 개별 시각적 토큰으로 인코딩함으로써 모델이 텍스트 토큰과 직접 단어 목록을 공유하여 "기본"시각적 이해 및 생성 기능을 달성 할 수있게합니다. 이 설계는 모델 구조를 크게 단순화하면서 확장 성을 향상시킵니다.
이 연구는 액체가 훈련 비용을 크게 줄일뿐만 아니라 멀티 모달 기능과 LLM의 규모 규칙을 보여줍니다. 연구팀은 다양한 크기의 LLM (0.5B에서 32B)에 대한 실험을 수행했습니다. 결과는 모델 척도가 확장됨에 따라 시각적 생성 작업의 성능 및 생성 품질이 언어 작업과 일치하는 스케일링 패턴을 따랐음을 보여주었습니다. 더 흥미로운 것은 시각적 이해와 생성 작업 사이에 양방향 촉진 관계가 있다는 것입니다. 즉, 두 사람은 공유 된 표현 공간을 통해 공동 최적화를 달성 할 수 있다는 것입니다. 이 발견은 향후 멀티 모달 모델 설계에 중요한 이론적 기초를 제공합니다.
Liquid의 디자인은 통일 된 처리 프레임 워크를 채택하여 이미지와 텍스트를 동등하게 처리하는 미니멀리즘을 완전히 구현합니다. 건설 과정에서 연구팀은 30m 텍스트 데이터와 30m 사진 텍스트 데이터를 사용하여 모델의 멀티 모달 교육을위한 기초를 마련했습니다. 최종 실험 결과는 액체가 멀티 모달 이해, 이미지 생성 및 일반 텍스트 작업에서 우수한 성능을 가지고 있으며 생성 된 이미지와 텍스트 사이의 의미 론적 일관성은 다른 자동 회귀 모델보다 상당히 높습니다. 이 결과는 실제 응용 분야에서 액체의 큰 잠재력을 보여줍니다.
Liquid의 제안은 일반적인 멀티 모달 지능의 건축 설계에 대한 새로운 아이디어를 제공하여 인공 지능이 멀티 모달 융합의 미래에보다 효율적이고 유연한 진화를 할 수 있음을 나타냅니다. 이 기술의 성공은 멀티 모달 분야에서의 연구를 촉진 할뿐만 아니라보다 실용적인 시나리오에서 인공 지능 적용을위한 새로운 가능성을 열어줍니다.
종이 링크 : https://arxiv.org/pdf/2412.04332