Dieser Artikel berichtet über den Fortschrittsbericht des Zhiyuan Research Institute 2024, der von Wang Zhongyuan, Direktor des Zhiyuan Research Institute, auf der 6. Zhiyuan-Konferenz in Peking veröffentlicht wurde und sich auf den großen Eimer der Zhiyuan-Modellfamilie konzentriert. Der Bericht zeigt die neuesten Forschungsergebnisse des Intelligent Source Research Institute in den Bereichen Sprache, Multimodalität, Verkörperung und große biologische Computermodelle sowie die Aktualisierung und Gestaltung seiner Open-Source-Technologiebasis. Der Herausgeber von Downcodes wird den Inhalt des Berichts im Detail interpretieren, insbesondere die Zusammensetzung des Eimers der großen Zhiyuan-Modellfamilie und seine Kerntechnologie.

Am 14. Juni fand im Zhongguancun Exhibition Center die 6. „Beijing Wisdom Conference“ statt, die vom Wisdom Research Institute veranstaltet wurde. Während dieses Treffens erstellte Wang Zhongyuan, Präsident des Zhiyuan Research Institute, einen Fortschrittsbericht über das Zhiyuan Research Institute im Jahr 2024 und konzentrierte sich auf den großen Modellfamilieneimer von Zhiyuan.
Im Fortschrittsbericht 2024 des Zhiyuan Research Institute teilte das Zhiyuan Research Institute seine neuesten Erforschungs- und Forschungsfortschritte in den Bereichen Sprache, Multimodalität, Verkörperung und biologische Berechnung großer Modelle sowie die iterative Aktualisierung und Entwicklung des offenen Full-Stack-Modells für große Modelle mit Quelltechnologiebasis. Nach Angaben des Zhiyuan Research Institute verfügt die Entwicklung großer Sprachmodelle in diesem Stadium bereits über die grundlegenden Verständnis- und Argumentationsfähigkeiten der allgemeinen künstlichen Intelligenz und hat einen technischen Weg geschaffen, der große Sprachmodelle als Kern für die Ausrichtung und Abbildung anderer Modalitäten verwendet . Das Modell verfügt über vorläufige multimodale Verständnis- und Generierungsfunktionen. Dies ist jedoch nicht der ultimative technische Weg für künstliche Intelligenz, die physische Welt wahrzunehmen und zu verstehen. Stattdessen sollte sie ein einheitliches Modellparadigma übernehmen, um multimodale Eingaben und Ausgaben zu realisieren, sodass das Modell über native multimodale Erweiterungsfähigkeiten verfügt und sich weiterentwickelt in ein Weltmodell.
„In Zukunft werden große Modelle in Form digitaler Agenten in intelligente Hardware integriert und in Form verkörperter Intelligenz aus der digitalen Welt in die physische Welt gelangen. Gleichzeitig können die technischen Mittel großer Modelle dafür sorgen.“ „Ein neues Paradigma zum Ausdruck von Wissen für die wissenschaftliche Forschung zu schaffen und die Erforschung und Erforschung der Gesetze der mikrophysikalischen Welt durch die Menschheit zu beschleunigen, nähert sich ständig dem ultimativen Ziel der allgemeinen künstlichen Intelligenz“, sagte Wang Zhongyuan.
Der große Eimer der Zhiyuan-Modellfamilie ist ein Highlight in diesem Fortschrittsbericht 2024 des Zhiyuan Research Institute. Der Reporter erfuhr bei dem Treffen, dass die große Modellfamilie von Zhiyuan aus vier großen Modellforschungsrichtungen besteht: große Sprachmodellserien, multimodale große Modellserien, große Modelle der verkörperten Intelligenz und große Modelle der biologischen Datenverarbeitung mit insgesamt 12 Studien. Am Beispiel der großen Modellreihe der Zhiyuan-Sprache umfasst diese Richtung zwei große Modellstudien, das weltweit erste kohlenstoffarme Einzelkörper-Sprachmodell mit dichter Billion Tele-FLM-1T und die BGE-Reihe (BAAI General Embedding) des allgemeinen Sprachvektormodells .
„Als Reaktion auf das Problem des hohen Rechenleistungsverbrauchs beim Training großer Modelle haben das Zhiyuan Research Institute und das China Telecom Artificial Intelligence Research Institute (TeleAI) gemeinsam die weltweit erste kohlenstoffarme Monomerdichte-Billion entwickelt und auf den Markt gebracht, die auf Schlüsseltechnologien wie Modellwachstum basiert.“ und Verlustvorhersage. Dieses Modell bildet zusammen mit der 10-Milliarden-Ebene 52B-Version und der 100-Milliarden-Ebene 102B-Version das Modell der Tele-FLM-Serie relevanten Geschäft des Tele-FLM-Serienmodells sagte Reportern. Es wird berichtet, dass die Modelle der Tele-FLM-Serie ein kohlenstoffarmes Wachstum erzielt haben. Mit nur 9 % der Rechenleistungsressourcen des branchenüblichen Schulungsprogramms, basierend auf 112 A800-Servern, dauerte die Schulung von 3 Modellen 4 Monate insgesamt 2,3 Ttokens und das 10.000 Milliarden dichte Modell Tele-FLM-1T erfolgreich trainiert. „Der gesamte Modelltrainingsprozess erfolgt ohne Anpassung und ohne Wiederholungsversuche mit hoher Rechenleistungseffizienz und guter Modellkonvergenz und -stabilität. Derzeit ist das Modell der TeleFLM-Serie in Version 52B vollständig Open Source und verfügt über Kerntechnologien (Wachstumstechnologie, optimale Hyperparameter). Vorhersage), Trainingsdetails (Verlustkurve, optimale Hyperparameter, Datenverhältnis und G radNorm usw.) sind alle Open Source. Es besteht die Hoffnung, dass die Tele-FLM-1T-Version bald einen positiven Einfluss haben kann Hervorragende Ausgangsparameter für die Community, um Billionen-dichte Modelle zu trainieren und die Schwierigkeit der Konvergenz beim Training von Billionen-Modellen und andere Probleme zu vermeiden“, sagte die verantwortliche Person.
Die BGE-Serie universeller semantischer Vektormodelle, die unabhängig vom Zhiyuan Research Institute entwickelt wurden, basiert auf der retrieval-enhanced RAG-Technologie, die einen präzisen semantischen Abgleich zwischen Daten erreichen und den Aufruf externen Wissens in großen Modellen unterstützen kann. „Seit August 2023 hat die BGE-Modellreihe drei Iterationen durchlaufen und dabei die beste Leistung in der Branche in den drei Aufgaben Chinesisch- und Englischabrufen, Mehrsprachenabrufen und verfeinerter Abruf erzielt. Seine umfassenden Fähigkeiten sind deutlich besser als die von OpenAI, ähnlich Modelle von Google, Microsoft, Cohere und anderen Institutionen stehen derzeit zum Download bereit. Es steht an erster Stelle bei inländischen KI-Modellen und wurde von internationalen Mainstream-KI-Entwicklungsframeworks wie HuggingFace, Langchain und LlamaIndex sowie großen Cloud-Dienstanbietern wie Tencent, Huawei, Alibaba, Byte, Microsoft und Amazon integriert und bietet Kommerzielle Dienstleistungen für die Außenwelt, sagte der Verantwortliche für das semantische Vektormodell der BGE-Serie gegenüber Reportern.
Alles in allem hat das Zhiyuan Research Institute bei der Förderung der Entwicklung großer Modelltechnologien erhebliche Fortschritte gemacht. Seine „Big Model Family Bucket“- und Open-Source-Strategie wird Innovation und Entwicklung im KI-Bereich weiter fördern und verdient weiterhin Aufmerksamkeit. Der Herausgeber von Downcodes freut sich auf weitere bahnbrechende Ergebnisse in der Zukunft.