Das neueste Open -Source -Kultur- und Biografische Modell Cogview4, der von Zhipu AI auf den Markt gebracht wurde, wird offiziell veröffentlicht, die einen weiteren großen Durchbruch in der künstlichen Intelligenz im Bereich der Bildgenerierung markiert. CogView4 hat nicht nur eine Parameterskala von bis zu 600 Millionen, sondern erkennt auch zum ersten Mal die volle Unterstützung für chinesische Eingaben und chinesische Textgenerierung. Es ist als "das erste Open -Source -Modell bekannt, das chinesische Zeichen im Bild generieren kann". Diese Innovation bietet leistungsstarke Tools für Ersteller chinesischer Inhalte und fördert die Entwicklung der Bildgenerierungstechnologie im chinesischen Kontext erheblich.
Der Kernhighlight von CogView4 ist, dass es chinesische und englische Eingabeaufgaben unterstützt, insbesondere bei der Behandlung komplexer chinesischer Anweisungen. Als erstes Open -Source -Biographical -Modell, das chinesische Zeichen in Bildern erzeugen kann, füllt CogView4 eine große Lücke im Feld Open Source. Darüber hinaus unterstützt das Modell auch die Erzeugung von Bildern eines beliebigen Seitenverhältnisses und kann die Eingabe der Worteingabe jeder Länge und die Anpassungsfähigkeit und die Anpassungsfähigkeit der Anforderungen verschiedener Szenarien verarbeiten.
In Bezug auf die technische Architektur wurde CogView4 vollständig aktualisiert, und sein Textcodierer wurde auf GLM-4 verbessert, wodurch chinesische und englische zweisprachige Eingaben unterstützt werden und die vorherige Einschränkung des Open-Source-Modells, das nur Englisch unterstützt, vollständig gebrochen wird. Durch die Verwendung chinesischer und englischer zweisprachiger Grafikpaare zum Training wurde die Erzeugungsqualität von Cogview4 im chinesischen Kontext erheblich verbessert, um seine Genauigkeit und Fließfähigkeit bei der Verarbeitung chinesischer Text zu gewährleisten.
In Bezug auf die Textverarbeitung verlässt CogView4 das herkömmliche Design mit fester Länge und nimmt ein dynamisches Textlängenschema an. Wenn der durchschnittliche Beschreibungstext 200-300 Wortelemente im Vergleich zur herkömmlichen Lösung mit festen 512 Wörternelementen beträgt, wird die Redundanz um etwa 50%reduziert und die Trainingseffizienz um 5%-30%verbessert. Diese Innovation optimiert nicht nur die Verwendung von Rechenressourcen, sondern ermöglicht das Modell auch, schnelle Wörter unterschiedlicher Längen effizienter zu verarbeiten und die Qualität und Vielfalt generierter Bilder weiter zu verbessern.
Cogview4 unterstützt dank mehrerer technologischer Durchbrüche die Erzeugung von Bildern einer beliebigen Auflösung. Das Modell wird mit gemischter Auflösung in Kombination mit einer zweidimensionalen Rotationspositionskodierung und der interpolierten Positionsdarstellung geschult, die sich an die Bedürfnisse verschiedener Größen anpassen kann. Basierend auf dem Flussanpassungsdiffusionsmodell und der parametrisierten linearen dynamischen Rauschplanung verbessert CogView4 die Qualität und Vielfalt erzeugter Bilder weiter, sodass es in komplexen Szenarien besser funktioniert.
Der Trainingsprozess von CogView4 ist in mehrere Stufen unterteilt, beginnend von der grundlegenden Auflösung-Schulung über die allgemeine Anpassung der Auflösung bis hin zur Feinabstimmung hochwertiger Daten und schließlich optimierte die Output durch die Ausrichtung der menschlichen Präferenz. Dieser Prozess behält die Share-Param-DIT-Architektur bei und führt gleichzeitig die Normalisierung der unabhängigen adaptiven Schicht für verschiedene Modi ein, um die Stabilität und Konsistenz des Modells in mehreren Aufgaben sicherzustellen. Dieser raffinierte Trainingsprozess ermöglicht es CogView4, die Benutzerbedürfnisse beim Generieren von Bildern besser zu erfüllen.
Projektadresse: https://github.com/thudm/cogview4