In den letzten Jahren haben große Sprachmodelle (LLMs) im Bereich der künstlichen Intelligenz durchbruch Fortschritte erzielt, insbesondere in der multimodalen Fusion. Ein gemeinsames Team der Huazhong University of Science and Technology, Bytedance und der University of Hong Kong schlug kürzlich ein innovatives Rahmen für multimodale Generationen vor - Flüssigkeit, das die Einschränkungen der aktuellen multimodalen Mainstream -Modelle in der visuellen Verarbeitung lösen soll. Die Entstehung dieser Technologie ist die Weiterentwicklung künstlicher Intelligenz im multimodalen Bereich.
Herkömmliche multimodale Module beruhen häufig auf komplexe externe Sehmodule, die nicht nur die Komplexität des Systems erhöhen, sondern auch seine Skalierbarkeit und Flexibilität einschränken. Liquids Innovation ist, dass es Vqgan als Bildwortsegmentierer übernimmt und seine Abhängigkeit von externen visuellen Komponenten aufgibt. Durch die Codierung des Bildes in diskrete visuelle Token ermöglicht Flüssigkeit das Modell, die Wortliste direkt mit den Text -Token zu teilen und damit das "native" visuelle Verständnis und die Erzeugungsfunktionen zu erreichen. Dieses Design vereinfacht die Modellstruktur erheblich und verbessert seine Skalierbarkeit.
Die Studie ergab, dass Flüssigkeit nicht nur die Schulungskosten signifikant senkt, sondern auch die Skalenregeln multimodaler Fähigkeiten und LLM aufzeigt. Das Forschungsteam führte Experimente an LLMs unterschiedlicher Größen (von 0,5B bis 32B) durch. Die Ergebnisse zeigten, dass die Leistung und die Qualität der visuellen Erzeugungsaufgaben mit der Erweiterung der Modellskala einem Skalierungsmuster folgten, das mit den Sprachaufgaben übereinstimmte. Noch aufregender ist, dass es eine Zwei-Wege-Erleichterungsbeziehung zwischen visuellem Verständnis und generativen Aufgaben gibt, dh die beiden können eine gemeinsame Optimierung durch einen gemeinsamen Repräsentationsraum erreichen. Diese Entdeckung bietet eine wichtige theoretische Grundlage für das zukünftige multimodale Modelldesign.
Das Design von Liquid verkörpert vollständig Minimalismus, die Behandlung von Bildern und Text gleichermaßen, wobei ein einheitliches Verarbeitungsrahmen verwendet wird. Während des Konstruktionsprozesses verwendete das Forschungsteam 30m Textdaten und 30 m Bildertextdaten, um die Grundlage für das multimodale Training des Modells zu legen. Die endgültigen experimentellen Ergebnisse zeigen, dass Flüssigkeit eine hervorragende Leistung in Bezug auf multimodales Verständnis, Bildgenerierung und einfache Textaufgaben hat, und die semantische Konsistenz zwischen den erzeugten Bildern und Text ist signifikant höher als andere autoregressive Modelle. Dieses Ergebnis zeigt das große Potenzial der Flüssigkeit in praktischen Anwendungen.
Der Vorschlag von Liquid bietet neue Ideen für das architektonische Design allgemeiner multimodaler Intelligenz, was darauf hinweist, dass künstliche Intelligenz in der Zukunft der multimodalen Fusion eine effizientere und flexiblere Entwicklung einleiten kann. Der Erfolg dieser Technologie fördert nicht nur die Forschung im multimodalen Bereich, sondern eröffnet auch neue Möglichkeiten für die Anwendung künstlicher Intelligenz in praktischeren Szenarien.
Papierlink: https://arxiv.org/pdf/2412.04332