Das Zhiyuan Research Institute veröffentlicht den Chinese Internet Corpus CCI3.0 mit einem 1000-GB-Datensatz

Autor：Eve Cole Aktualisierungszeit：2025-03-07 00:00:03

Das Beijing Zhiyuan Artificial Intelligence Institute (BAAI) hat auf dem Beijing Cultural Forum 2024 eine neue Generation des chinesischen Internetkorpus CCI3.0 veröffentlicht. Dies ist ein weiteres wichtiges Update nach CCI1.0 und CCI2.0. CCI3.0 umfasst einen 1000 GB großen Datensatz und einen 498 GB großen hochwertigen Teilsatz CCI3.0-HQ. Seitdem die Datensätze der CCI-Serie als Open Source verfügbar sind, wurden sie mehr als 40.000 Mal heruntergeladen und dienen der Forschung und Entwicklung großer Modelle 500 Unternehmen und Institutionen unterstützen nachdrücklich die ökologische Entwicklung der chinesischen Industrie für künstliche Intelligenz. Der Herausgeber von Downcodes wird die Funktionen und Download-Methoden von CCI3.0 ausführlich erläutern.

Auf dem Beijing Cultural Forum 2024 kündigte das Beijing Zhiyuan Artificial Intelligence Research Institute (BAAI) die offizielle Veröffentlichung einer neuen Generation des chinesischen Internet-Korpus CCI3.0 (Chinese Corpora Internet) an, um die gemeinsame Konstruktion und den Austausch von Daten weiter zu fördern. CCI3.0 umfasst einen 1000 GB großen Datensatz und einen 498 GB großen hochwertigen Teilsatz CCI3.0-HQ. Es handelt sich um ein weiteres wichtiges Update nach dem ersten Open-Source-CCI1.0 im November 2023 und der Veröffentlichung von CCI2.0 im April 2024.

Seit der ersten Open Source-Veröffentlichung wurden die Datensätze der CCI-Serie mehr als 40.000 Mal heruntergeladen. Sie dienen der groß angelegten Modellforschung und -entwicklung von mehr als 500 Unternehmen und Institutionen und unterstützen effektiv die Entwicklung des chinesischen Ökosystems für die Industrie der künstlichen Intelligenz.

Zu den Funktionen von CCI3.0 gehören:

Erweiterter Umfang und breites Quellenspektrum: CCI3.0 umfasst mehr als 268 Millionen Webseiten, die Nachrichten, soziale Medien, Blogs und andere Bereiche abdecken. Im Vergleich zu CCI2.0 hat sich der Datenumfang von CCI3.0 nahezu verdoppelt und die Anzahl der Datenquelleninstitutionen ist auf über 20 gestiegen, was die Abdeckung und Repräsentativität der Daten erheblich verbessert.
Feine Annotation, leistungsfähigere Anwendungen: CCI3.0 führt eine feinkörnige Klassifizierung und detaillierte Kennzeichnung von Rohdaten in mehr als 10 Dimensionen durch, einschließlich Grammatik, Syntax, Bildungsniveau usw., um hochwertige Daten herauszufiltern. Darüber hinaus basiert CCI3.0HQ auf dem 70B-Modell, das Proben automatisch beschriftet und anschließend kleine Qualitätsmodelle trainiert, um hochwertige Teilmengen zu optimieren und so den Anforderungen verschiedener Branchen und Anwendungsszenarien besser gerecht zu werden.
Bemerkenswerter Effekt, besseres Verständnis der chinesischen Sprache: In einem Vergleichsexperiment, in dem ein 500M-Modell von Grund auf auf 100B-Daten trainiert wurde, war CCI3.0 sowohl beim separaten Chinesisch-Korpus-Training als auch beim gemischten Chinesisch- und Englisch-Korpus-Training besser als andere Datensätze, während CCI3 .0HQ's Der Effekt ist noch deutlicher.

Das Zhiyuan Research Institute erklärte, dass es auch in Zukunft mit dem Branchenökosystem zusammenarbeiten werde, um die gemeinsame Erstellung und den Austausch von Korpora zu fördern, groß angelegte, qualitativ hochwertige und wissensdichte chinesische Datensätze zu erstellen und diese zu erweitern Beiträge zur Entwicklung der chinesischen Industrie für künstliche Intelligenz.

CCI3.0-Download-Adresse

Flopsera:

https://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3

Huggingface: https://huggingface.co/datasets/BAAI/CCI3-Data

Datenhub:

https://data.baai.ac.cn/details/BAAI-CCI3

Alles in allem markiert die Veröffentlichung von CCI3.0 einen neuen Schritt beim Aufbau des chinesischen Korpus. Sein umfangreicher, qualitativ hochwertiger Datensatz wird die wissenschaftliche Forschung und Anwendung im Bereich der künstlichen Intelligenz stark unterstützen und helfen Chinas Industrie für künstliche Intelligenz floriert. Jeder ist herzlich eingeladen, den obigen Link zum Herunterladen und Verwenden zu besuchen.