Shanghai Ai Lab Open Source Super Multimodal LLM Internlm-XComposer-2.5-AI Artikel

Penulis：Eve Cole Waktu Pembaruan：2025-02-22 02:50:02

Shanghai AI Laboratory baru-baru ini merilis model bahasa besar multimodal yang disebut Internlm-XComposer-2.5 (IXC-2.5 singkatnya), dan proyek open source ini telah menarik perhatian luas di bidang kecerdasan buatan. Model ini tidak hanya mencapai banyak terobosan dalam teknologi, tetapi juga menunjukkan potensi yang kuat dalam aplikasi praktis, terutama dalam pemahaman gambar resolusi ultra-tinggi, pemahaman video berbutir halus dan dialog gambar multi-putaran.

Rilis IXC-2.5 telah mengisi kesenjangan di bidang multimodal LLM di Cina, terutama dalam produksi halaman web dan generasi artikel grafik dan teks campuran. Baik itu desain web atau pembuatan konten grafis, IXC-2.5 dapat memberikan solusi yang efisien dan akurat, sangat meningkatkan efisiensi kreatif.

Fitur inti dari model IXC-2.5 meliputi:

Kemampuan Pemrosesan Konteks Panjang: Model secara asli mendukung input penanda 24K dan dapat diperluas ke 96K, yang berarti dapat menangani input teks dan gambar yang sangat panjang, memberikan ruang yang lebih kreatif kepada pengguna. Apakah itu dokumen yang kompleks atau data gambar dalam jumlah besar, IXC-2.5 dapat menanganinya dengan mudah.

Kemampuan visual yang beragam: IXC-2.5 tidak hanya mendukung pemahaman gambar resolusi ultra-tinggi, tetapi juga memungkinkan pemahaman video berbutir halus dan dialog multi-grafik multi-putaran. Kemampuan pemrosesan multimodal ini sangat jarang pada model sebelumnya, terutama dalam hal pemahaman video.

Kemampuan Generasi yang Kuat: IXC-2.5 dapat menghasilkan halaman web dan artikel grafis berkualitas tinggi, membawa kombinasi teks dan gambar ke tingkat yang baru. Apakah itu desain web atau pembuatan artikel teks campuran, IXC-2.5 dapat memberikan output berkualitas tinggi untuk memenuhi kebutuhan berbagai skenario.

Arsitektur Model Lanjutan: IXC-2.5 menggunakan encoder penglihatan ringan, model bahasa besar dan beberapa teknologi penyelarasan LORA. Terutama ketika berhadapan dengan data multimodal yang kompleks, IXC-2.5 menunjukkan efisiensi yang sangat baik.

Dari 28 tolok ukur, IXC-2.5 mengungguli model open source yang ada dalam 16 tes, dan kinerja dalam 16 tes lain dekat atau melampaui GPT-4V dan Gemini Pro. Hasil tes ini sepenuhnya membuktikan kekuatan kuat IXC-2.5, terutama dalam tugas-tugas seperti pemahaman video, pemahaman gambar resolusi tinggi terstruktur, beberapa putaran dialog multi-gambar dan pertanyaan dan jawaban visual umum. Daya saing.

Tim R&D IXC-2.5 bersama-sama terdiri dari Laboratorium Intelijen Buatan Shanghai, Universitas Cina Hong Kong, Sensetime Technology Group dan Tsinghua University. Desain asli dari model ini adalah untuk mendukung input dan output konteks panjang untuk mengatasi pemahaman gambar teks yang semakin kompleks dan tugas pembuatan. Selama fase pra-pelatihan, IXC-2.5 memperluas jendela konteks ke 96k melalui posisi pengkodean ekstrapolasi, yang menunjukkan kemampuan luar biasa dalam interaksi manusia-komputer dan pembuatan konten.

Dalam hal pemrosesan gambar, IXC-2.5 mengadopsi strategi segmentasi gambar dinamis yang terpadu, yang dapat beradaptasi dengan gambar dari setiap resolusi dan rasio aspek. Dalam hal pemrosesan video, ia dapat menyambungkan bingkai dalam video di sepanjang tepi pendek untuk membentuk gambar resolusi tinggi sambil mempertahankan indeks bingkai untuk memberikan hubungan waktu. Pendekatan ini membuat IXC-2.5 berkinerja baik dalam tugas pemahaman video.

Selain itu, IXC-2.5 juga memperluas aplikasinya dalam pembuatan halaman web, memungkinkannya untuk secara otomatis membangun halaman web berdasarkan tangkapan layar visual, instruksi bentuk bebas atau dokumen melanjutkan. Dalam hal pembuatan artikel gambar teks, IXC-2.5 mengusulkan proses yang dapat diskalakan dengan menggabungkan beberapa teknologi untuk menghasilkan artikel gambar teks berkualitas tinggi dan stabil.

Sumber terbuka IXC-2.5 tidak hanya lompatan teknologi, tetapi juga kontribusi besar untuk seluruh bidang kecerdasan buatan. Ini memungkinkan kita untuk melihat kemungkinan tak terbatas dari multimodal LLM dan juga membuka jalur baru untuk aplikasi AI di masa depan. Apakah itu pembuatan konten, desain web atau pemrosesan data multimodal, IXC-2.5 akan menjadi alat penting dalam aplikasi kecerdasan buatan di masa depan.

Alamat Proyek: https://top.aibase.com/tool/internlm-xcomposer-2-5

Alamat kertas: https://arxiv.org/pdf/2407.03320