El Instituto de Investigación Zhiyuan lanza el Corpus de Internet chino CCI3.0 que contiene un conjunto de datos de 1000 GB

Autor：Eve Cole Fecha de actualización：2025-03-07 00:00:03

El Instituto de Inteligencia Artificial Zhiyuan de Beijing (BAAI) lanzó una nueva generación de corpus de Internet chino CCI3.0 en el Foro Cultural de Beijing 2024. Esta es otra actualización importante después de CCI1.0 y CCI2.0. CCI3.0 incluye un conjunto de datos de 1000 GB y un subconjunto de alta calidad CCI3.0-HQ de 498 GB. Desde que fue de código abierto, los conjuntos de datos de la serie CCI se han descargado más de 40 000 veces y sirven para la investigación y el desarrollo de modelos grandes en más de. 500 empresas e instituciones. Proporciona un fuerte apoyo al desarrollo ecológico de la industria de inteligencia artificial de China. El editor de Downcodes explicará en detalle las características y métodos de descarga de CCI3.0.

En el Foro Cultural de Beijing 2024, el Instituto de Investigación de Inteligencia Artificial Zhiyuan (BAAI) de Beijing anunció el lanzamiento oficial de una nueva generación de corpus de Internet chino CCI3.0 (Corpora Internet china) para promover aún más la construcción conjunta y el intercambio de datos. CCI3.0 incluye un conjunto de datos de 1000 GB y un subconjunto de alta calidad de 498 GB CCI3.0-HQ. Es otra actualización importante después del primer CCI1.0 de código abierto en noviembre de 2023 y el lanzamiento de CCI2.0 en abril de 2024.

Desde el primer código abierto, los conjuntos de datos de la serie CCI se han descargado más de 40.000 veces, lo que ha servido para la investigación y el desarrollo de modelos a gran escala de más de 500 empresas e instituciones, apoyando eficazmente el desarrollo del ecosistema industrial de inteligencia artificial de China.

Las características de CCI3.0 incluyen:

Escala ampliada y amplia gama de fuentes: CCI3.0 incluye más de 268 millones de páginas web, que cubren noticias, redes sociales, blogs y otros campos. En comparación con CCI2.0, la escala de datos de CCI3.0 casi se ha duplicado y el número de instituciones fuente de datos ha aumentado a más de 20, lo que mejora significativamente la cobertura y representatividad de los datos.
Anotación fina, aplicaciones potenciadoras: CCI3.0 realiza una clasificación detallada y un etiquetado detallado de datos sin procesar en más de 10 dimensiones, incluida gramática, sintaxis, nivel educativo, etc., para filtrar datos de alto valor. Además, CCI3.0HQ se basa en el modelo 70B que etiqueta automáticamente muestras y luego entrena modelos de calidad de tamaño pequeño para optimizar subconjuntos de alta calidad para satisfacer mejor las necesidades de diferentes industrias y escenarios de aplicación.
Efecto notable, mejor comprensión del chino: en un experimento comparativo en el que se entrenó un modelo de 500M desde cero con datos de 100B, CCI3.0 fue mejor que otros conjuntos de datos tanto en el entrenamiento de corpus chino separado como en el entrenamiento de corpus mixto chino e inglés, mientras que CCI3 .0HQ's El efecto es aún más significativo.

El Instituto de Investigación Zhiyuan declaró que continuará cooperando con el ecosistema industrial en el futuro para promover la construcción conjunta y el intercambio de corpus, construir conjuntos de datos chinos a gran escala, de alta calidad y con alta densidad de conocimiento, y hacer mayores Contribuciones al desarrollo de la industria de inteligencia artificial de China.

Dirección de descarga CCI3.0

Flopsera:

https://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3

Abrazando cara: https://huggingface.co/datasets/BAAI/CCI3-Data

Centro de datos:

https://data.baai.ac.cn/details/BAAI-CCI3

En definitiva, el lanzamiento de CCI3.0 marca un nuevo paso en la construcción del corpus chino. Su conjunto de datos a gran escala y de alta calidad proporcionará un fuerte apoyo a la investigación científica y su aplicación en el campo de la inteligencia artificial, y ayudará. La industria de la inteligencia artificial de China florece. Todos pueden visitar el enlace de arriba para descargarlo y usarlo.