Am 4. März 2025 veröffentlichte Peking Zhipu Huazhang Technology Co., Ltd. offiziell sein neuestes Open Source Biographical Graphics -Modell - CogView4. Dieses Modell wurde im DPG-Bench-Benchmark-Test mit einer Top-Gesamtpunktzahl hervorragend durchgeführt und wurde im aktuellen open-Source-literarischen und biografischen Modell zu einem technischen Benchmark. CogView4 folgt nicht nur dem Apache 2.0 -Protokoll, sondern ist auch das erste Bildgenerierungsmodell, das das Protokoll unterstützt und einen neuen Meilenstein in der Open -Source -Bildgenerierungstechnologie markiert.
Der Kernvorteil von CogView4 ist die leistungsstarke komplexe semantische Ausrichtung und Anweisung nach Funktionen. Es kann zweisprachige chinesische und englische Eingaben jeglicher Länge verarbeiten und Bilder jeder Auflösung erzeugen. Mit dieser Funktion verfügt CogView4 über umfassende Anwendungsaussichten in kreativen Bereichen wie Werbung und kurzen Videos. Technisch gesehen nimmt CogView4 den GLM-4Encoder mit zweisprachigen Fähigkeiten an. Durch zweisprachige chinesische und englische Grafiktraining erkennt es die Fähigkeit, zweisprachige Eingabeaufentfälle einzugeben und die Praktikabilität und Flexibilität des Modells weiter zu verbessern.

In Bezug auf die Bildgenerierung unterstützt CogView4 jegliche Länge der schnellen Worteingabe und kann Bilder von jeder Lösung generieren, wodurch die kreative Freiheit und die Schulungseffizienz erheblich verbessert werden. Das Modell verwendet die zweidimensionale Rotationspositionscodierung (2D-Seil), um Bildpositionsinformationen zu modellieren, und unterstützt die Bildgenerierung bei verschiedenen Auflösungen durch interpolierte Positionscodierung. Darüber hinaus übernimmt CogView4 das Fluss-Matching-Schema für die Modellierung der Diffusionsgenerierung und kombiniert die parametrisierte lineare dynamische Rauschplanung, um sich an die Anforderungen an das Signal-Rausch-Verhältnis von Bildern mit unterschiedlichen Auflösungen anzupassen und eine hohe Qualität der generierten Bilder zu gewährleisten.
In Bezug auf das architektonische Design setzt CogView4 die vorherige Generation von Share-Param-DIT-Architektur fort und entwirft unabhängige adaptive Layernorm-Ebenen für Text- und Bildmodalitäten, um eine effiziente Anpassung zwischen Modalitäten zu erreichen. Das Modell verfolgt eine mehrstufige Trainingsstrategie, einschließlich grundlegender Auflösung, allgemeine Auflösungtraining, hochwertige Datenfeineinstellungen und Training für die Ausrichtung des menschlichen Vorliebens, um sicherzustellen, dass die erzeugten Bilder nicht nur einen hohen ästhetischen Sinn aufweisen, sondern auch den Präferenzen der menschlichen ästhetischen Präferenzen entsprechen.
CogView4 durchbricht auch die traditionelle Länge der festen Token, die eine höhere obere Grenze für eine höhere Token ermöglicht und während des Trainings die Redundanz von Texttoken erheblich verringert. Wenn die durchschnittliche Länge der Trainingsbeschreibung 200-300 Token beträgt, reduziert CogView4 im Vergleich zur traditionellen Lösung von festen 512-Tokens die Token-Redundanz um etwa 50% und erreicht eine Effizienzverbesserung der Effizienz in der progressiven Trainingsstufe von 5% -30% und optimiert den Trainingseffekt des Modells weiter.
Darüber hinaus unterstützt CogView4 das Apache 2.0 -Protokoll und wird in Zukunft nach und nach ökologische Unterstützung wie ControlNet und Comfyui hinzufügen. In Kürze wird eine vollständige Reihe von Feinabstimmungs-Toolkits gestartet, die Entwicklern ein bequemeres Benutzererlebnis bieten. Die Open-Source-Warehouse-Adresse lautet: https://github.com/thudm/cogview4, und die Modelllageradresse lautet: https://huggingface.co/thudm/cogview4-6b und https