상하이 AI 실험실은 최근 InternLM-Xcomposer-2.5 (IXC-2.5)라는 멀티 모달 대형 언어 모델을 발표 했으며이 오픈 소스 프로젝트는 인공 지능 분야에서 광범위한 관심을 끌었습니다. 이 모델은 기술 분야의 많은 혁신을 달성했을뿐만 아니라 실제 응용 분야, 특히 초고 해상도 이미지 이해, 세밀한 비디오 이해 및 여러 라운드 이미지 대화에서 강력한 잠재력을 보여주었습니다.

IXC-2.5의 출시는 중국의 멀티 모달 LLM 분야의 격차를 메우고 특히 웹 페이지 제작과 혼합 그래픽 및 텍스트 기사의 생성이 특별히 최적화되어 콘텐츠 제작자에게 큰 편의를 제공했습니다. 웹 디자인이든 그래픽 컨텐츠 생성이든 IXC-2.5는 효율적이고 정확한 솔루션을 제공하여 창의적 효율성을 크게 향상시킬 수 있습니다.
IXC-2.5 모델의 핵심 기능은 다음과 같습니다.
긴 컨텍스트 처리 기능 : 모델은 기본적으로 24K 마커 입력을 지원하고 96K로 확장 될 수 있습니다. 즉, 초대형 텍스트 및 이미지 입력을 처리하여 사용자에게보다 창의적인 공간을 제공 할 수 있습니다. 복잡한 문서이든 많은 양의 이미지 데이터이든 IXC-2.5는 쉽게 처리 할 수 있습니다.
다양한 시각적 기능 : IXC-2.5는 매우 높은 해상도 이미지 이해를 지원할뿐만 아니라 세밀한 비디오 이해와 다중 라운드 다중 그래픽 대화를 허용합니다. 이 멀티 모달 처리 기능은 이전 모델에서 특히 비디오 이해 측면에서 매우 드물다.
강력한 생성 기능 : IXC-2.5는 웹 페이지와 고품질 그래픽 기사를 생성하여 텍스트와 이미지의 조합을 새로운 수준으로 가져올 수 있습니다. 웹 디자인이든 혼합 텍스트 기사 생성이든 IXC-2.5는 다양한 시나리오의 요구를 충족시키기 위해 고품질 출력을 제공 할 수 있습니다.
고급 모델 아키텍처 : IXC-2.5는 경량 비전 인코더, 대형 언어 모델 및 일부 LORA 정렬 기술을 사용하여 모델을 크게 향상 시켰습니다. 특히 복잡한 멀티 모달 데이터를 다룰 때 IXC-2.5는 우수한 효율을 보여줍니다.
28 개의 벤치 마크 중 IXC-2.5는 16 개의 테스트에서 기존 오픈 소스 모델을 능가했으며 다른 16 개의 테스트의 성능은 GPT-4V 및 Gemini Pro와 가까이 있거나 능가했습니다. 이 테스트 결과는 IXC-2.5의 강한 강도, 특히 비디오 이해, 구조화 된 고해상도 이미지 이해, 여러 라운드의 다중 광학 대화 및 일반적인 시각적 질문 및 답변과 같은 작업에서 큰 강점을 보여줍니다. 경쟁력.
IXC-2.5의 R & D 팀은 공동으로 상하이 인공 지능 연구소, 중국 홍콩 대학교, Sensetime Technology Group 및 Tsinghua University로 구성되어 있습니다. 이 모델의 원래 디자인은 장기 텍스트 입력 및 출력을 지원하여 점점 더 복잡한 텍스트 이미지 이해 및 생성 작업에 대처하는 것입니다. 사전 훈련 단계 동안, IXC-2.5는 위치 인코딩 외삽 법을 통해 컨텍스트 창을 96K로 확장하며, 이는 인간 컴퓨터 상호 작용 및 컨텐츠 생성에서 뛰어난 기능을 보여줍니다.
이미지 처리 측면에서 IXC-2.5는 통합 된 동적 이미지 세분화 전략을 채택하여 해상도 및 종횡비의 이미지에 적응할 수 있습니다. 비디오 처리 측면에서, 짧은 모서리를 따라 비디오의 프레임을 스플릿하여 고해상도 이미지를 형성하면서 프레임의 인덱스를 유지하여 시간 관계를 제공 할 수 있습니다. 이 접근법은 비디오 이해 작업에서 IXC-2.5를 잘 수행하게합니다.
또한 IXC-2.5는 웹 페이지 생성에서 애플리케이션을 확장하여 시각적 스크린 샷, 무료 형식 지침 또는 이력서 문서를 기반으로 웹 페이지를 자동으로 빌드 할 수 있습니다. 텍스트 이미지 기사 생성 측면에서 IXC-2.5는 여러 기술을 결합하여 고품질의 안정적인 텍스트 이미지 기사를 생성함으로써 확장 가능한 프로세스를 제안합니다.
IXC-2.5의 오픈 소스는 기술적 인 도약 일뿐 만 아니라 인공 지능의 전체 분야에 큰 기여를합니다. 멀티 모달 LLM의 무한한 가능성을 볼 수 있으며 향후 AI 응용 프로그램을위한 새로운 경로를 열어줍니다. 컨텐츠 제작, 웹 디자인 또는 멀티 모달 데이터 처리이든 IXC-2.5는 향후 인공 지능 응용 프로그램에서 중요한 도구가 될 것입니다.
프로젝트 주소 : https://top.aibase.com/tool/internlm-xcomposer-2-5
종이 주소 : https://arxiv.org/pdf/2407.03320