L'Institut d'intelligence artificielle Zhiyuan de Pékin (BAAI) a publié une nouvelle génération de corpus Internet chinois CCI3.0 lors du Forum culturel de Pékin 2024. Il s'agit d'une autre mise à jour importante après CCI1.0 et CCI2.0. CCI3.0 comprend un ensemble de données de 1 000 Go et un sous-ensemble de haute qualité CCI3.0-HQ de 498 Go. Depuis qu'ils sont open source, les ensembles de données de la série CCI ont été téléchargés plus de 40 000 fois et servent à la recherche et au développement de grands modèles dans plus de 1000 Go. 500 entreprises et institutions. Il apporte un soutien important au développement écologique de l'industrie chinoise de l'intelligence artificielle. L'éditeur de Downcodes vous expliquera en détail les fonctionnalités et les méthodes de téléchargement de CCI3.0.
Lors du Forum culturel de Pékin 2024, l'Institut de recherche sur l'intelligence artificielle Zhiyuan (BAAI) de Pékin a annoncé la sortie officielle d'une nouvelle génération de corpus Internet chinois CCI3.0 (Chinese Corpora Internet) pour promouvoir davantage la co-construction et le partage de données. CCI3.0 comprend un ensemble de données de 1 000 Go et un sous-ensemble CCI3.0-HQ de haute qualité de 498 Go. Il s'agit d'une autre mise à jour importante après la première version open source CCI1.0 en novembre 2023 et la sortie de CCI2.0 en avril 2024.
Depuis le premier open source, les ensembles de données de la série CCI ont été téléchargés plus de 40 000 fois, servant la recherche et le développement de modèles à grande échelle de plus de 500 entreprises et institutions, soutenant efficacement le développement de l'écosystème industriel de l'intelligence artificielle en Chine.

Les fonctionnalités de CCI3.0 incluent :
Échelle étendue et large gamme de sources : CCI3.0 comprend plus de 268 millions de pages Web, couvrant l'actualité, les médias sociaux, les blogs et d'autres domaines. Par rapport à CCI2.0, l'échelle des données de CCI3.0 a presque doublé et le nombre d'institutions sources de données est passé à plus de 20, améliorant considérablement la couverture et la représentativité des données.
Annotation fine, applications autonomes : CCI3.0 effectue une classification fine et un étiquetage détaillé des données brutes dans plus de 10 dimensions, notamment la grammaire, la syntaxe, le niveau d'éducation, etc., pour filtrer les données de grande valeur. De plus, CCI3.0HQ est basé sur le modèle 70B qui étiquette automatiquement les échantillons, puis entraîne des modèles de qualité de petite taille pour optimiser les sous-ensembles de haute qualité afin de mieux répondre aux besoins des différentes industries et scénarios d'application.
Effet remarquable, meilleure compréhension du chinois : dans une expérience comparative dans laquelle un modèle de 500 M a été formé à partir de zéro sur 100 B de données, CCI3.0 était meilleur que les autres ensembles de données dans la formation de corpus chinois séparés et dans la formation de corpus mixtes chinois et anglais, tandis que CCI3 .0HQ's L'effet est encore plus significatif.
L'Institut de recherche Zhiyuan a déclaré qu'il continuerait à coopérer avec l'écosystème industriel à l'avenir pour promouvoir la co-construction et le partage de corpus, créer des ensembles de données chinois à grande échelle, de haute qualité et à haute densité de connaissances, et améliorer contributions au développement de l’industrie chinoise de l’intelligence artificielle.
Adresse de téléchargement CCI3.0
Flopséra :
https://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3
Visage câlin : https://huggingface.co/datasets/BAAI/CCI3-Data
Centre de données :
https://data.baai.ac.cn/details/BAAI-CCI3
Dans l’ensemble, la sortie de CCI3.0 marque une nouvelle étape dans la construction du corpus chinois. Son ensemble de données à grande échelle et de haute qualité fournira un soutien solide à la recherche scientifique et à ses applications dans le domaine de l’intelligence artificielle et aidera. L’industrie chinoise de l’intelligence artificielle est florissante. Tout le monde est invité à visiter le lien ci-dessus pour télécharger et utiliser.