Das chinesische wissenschaftliche Forschungsteam startete den multimodalen Datensatz von Infinity-MM Super-Large-Scale und das Aquila-VL-2B-KI-Modell, das basierend auf dem Datensatz trainiert wurde, wodurch erhebliche Durchbrüche auf das Gebiet der multimodalen KI führten. Der Infinity-MM-Datensatz enthält massive Bildbeschreibungen, visuelle Anweisungsdaten und Daten, die von GPT-4-Modellen generiert werden, und verwendet RAM ++ -Modelle für die Bildanalyse und ein eindeutiges Klassifizierungssystem mit sechs Kategorien, um die Datenqualität zu gewährleisten. Das Aquila-VL-2B-Modell basiert auf der LLAVA-Onevision-Architektur, integriert das QWEN-2.5-Sprachmodell und die Siglip-Image-Verarbeitungstechnologie und verwendet eine vierstufige progressive Trainingsmethode, die in mehreren Benchmark-Tests hervorragend abschneidet und ähnliche Systeme übertrifft.
Der Infinity-MM-Datensatz ist im Maßstab erstaunlich und enthält vier Datenkategorien: 10 Millionen Bildbeschreibungen, 24,4 Millionen allgemeine visuelle Anweisungsdaten, 6 Millionen ausgewählte Daten für hochwertige Anweisungen und 3 Millionen KI-Modelle wie GPT-4 die generierten Daten. Das Forschungsteam verwendete Open Source KI-Modell RAM ++ für die Bildanalyse und Informationsextraktion und stellte die Qualität und Vielfalt generierter Daten über ein eindeutiges Klassifizierungssystem mit sechs Kategorien sicher.

In Bezug auf die Modellarchitektur basiert Aquila-VL-2B auf der Basis von LLAVA-Onevision und integriert das QWEN-2.5-Sprachmodell und die Siglip-Bildverarbeitungstechnologie. Das Forschungsteam übernahm eine vierstufige allmähliche Trainingsmethode: Ausgehend von grundlegendem Grafiktext-Korrelationslernen, allmählich über die allgemeine visuelle Aufgaben und spezifische Anweisungsverarbeitung und schließlich integrierte synthetische Daten, während die Obergrenze der Bildauflösung allmählich erhöht wurde.
Trotz nur 2 Milliarden Parametern erzielte Aquila-VL-2B bei verschiedenen Benchmark-Tests eine gute Leistung. Die beste Punktzahl im multimodalen Verständnis -Fähigkeitstest mmstar erreichte 54,9%, und der hohe Score im Mathematik -Fähigkeitstest Mathvista erreichte 59%und übertraf ähnliche Systeme signifikant. Im allgemeinen Bildverständnis -Test erzielte das Modell in HallusionBench bzw. MMBench hervorragende Ergebnisse von 43% bzw. 75,2%.
Die Studie ergab, dass die Einführung synthetischer Daten signifikant zur Verbesserung der Modellleistung beitrug. Experimente zeigen, dass die Modellleistung ohne die Verwendung dieser zusätzlichen Daten um durchschnittlich 2,4%sinkt. Ab der dritten Stufe übertraf die Leistung von Aquila-VL-2B die Referenzmodelle wie Internvl2-2b und QWEN2VL-2B, insbesondere in der vierten Stufe, die Leistungsverbesserung mit zunehmender Datenmenge offensichtlicher.
Es ist erwähnenswert, dass das Forschungsteam Datensätze und Modelle für die Forschungsgemeinschaft geöffnet hat, die die Entwicklung der multimodalen KI -Technologie erheblich fördern wird. Dieses Modell absolviert nicht nur das Training in der NVIDIA A100GPU, sondern unterstützt auch chinesische selbst entwickelte Chips, was eine starke Anpassungsfähigkeit der Hardware zeigt.
Der Erfolg des Aquila-VL-2B-Modells sowie die Open Source of Data Sets und Modelle markiert einen signifikanten Fortschritt im multimodalen künstlichen Intelligenzbereich Chinas, bietet eine solide Grundlage für die zukünftige KI-Entwicklung und zeigt auch multimodale KI wird breitere Anwendungsaussichten einleiten.