Instituto de Pesquisa Zhiyuan lança Internet Corpus CCI3.0 chinês contendo conjunto de dados de 1000 GB

Autor：Eve Cole Data da Última Atualização：2025-03-07 00:00:03

O Instituto de Inteligência Artificial Zhiyuan de Pequim (BAAI) lançou uma nova geração do corpus chinês da Internet CCI3.0 no Fórum Cultural de Pequim de 2024. Esta é outra atualização importante após CCI1.0 e CCI2.0. CCI3.0 inclui um conjunto de dados de 1000 GB e um subconjunto de alta qualidade CCI3.0-HQ de 498 GB. Desde que foram de código aberto, os conjuntos de dados da série CCI foram baixados mais de 40.000 vezes e servem para pesquisa e desenvolvimento de grandes modelos em mais de. 500 empresas e instituições Fornece forte apoio ao desenvolvimento ecológico da indústria de inteligência artificial da China. O editor de Downcodes explicará detalhadamente os recursos e métodos de download do CCI3.0.

No Fórum Cultural de Pequim de 2024, o Instituto de Pesquisa de Inteligência Artificial Zhiyuan de Pequim (BAAI) anunciou o lançamento oficial de uma nova geração do corpus chinês da Internet CCI3.0 (Chinese Corpora Internet) para promover ainda mais a coconstrução e o compartilhamento de dados. CCI3.0 inclui um conjunto de dados de 1000 GB e um subconjunto CCI3.0-HQ de 498 GB de alta qualidade. É outra atualização importante após o primeiro CCI1.0 de código aberto em novembro de 2023 e o lançamento do CCI2.0 em abril de 2024.

Desde o primeiro código aberto, os conjuntos de dados da série CCI foram baixados mais de 40.000 vezes, servindo à pesquisa e desenvolvimento de modelos em grande escala de mais de 500 empresas e instituições, apoiando efetivamente o desenvolvimento do ecossistema da indústria de inteligência artificial da China.

Os recursos do CCI3.0 incluem:

Escala expandida e ampla variedade de fontes: CCI3.0 inclui mais de 268 milhões de páginas da web, cobrindo notícias, mídias sociais, blogs e outros campos. Em comparação com o CCI2.0, a escala de dados do CCI3.0 quase duplicou e o número de instituições fontes de dados aumentou para mais de 20, melhorando significativamente a cobertura e a representatividade dos dados.
Anotação precisa, aplicativos capacitadores: o CCI3.0 realiza classificação refinada e rotulagem detalhada de dados brutos em mais de 10 dimensões, incluindo gramática, sintaxe, nível de escolaridade, etc., para filtrar dados de alto valor. Além disso, o CCI3.0HQ é baseado no modelo 70B que rotula amostras automaticamente e, em seguida, treina modelos de qualidade de tamanho pequeno para otimizar subconjuntos de alta qualidade para melhor atender às necessidades de diferentes indústrias e cenários de aplicação.
Efeito notável, melhor compreensão do chinês: em um experimento comparativo em que um modelo 500M foi treinado do zero em dados 100B, o CCI3.0 foi melhor do que outros conjuntos de dados tanto no treinamento de corpus chinês separado quanto no treinamento de corpus misto em chinês e inglês, enquanto o CCI3 .0HQ's O efeito é ainda mais significativo.

O Instituto de Pesquisa Zhiyuan declarou que continuará a cooperar com o ecossistema da indústria no futuro para promover a co-construção e compartilhamento de corpora, construir conjuntos de dados chineses em grande escala, de alta qualidade e com alta densidade de conhecimento, e fazer maior contribuições para o desenvolvimento da indústria de inteligência artificial da China.

Endereço de download CCI3.0

Flopsera:

https://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3

Huggingface: https://huggingface.co/datasets/BAAI/CCI3-Data

Centro de dados:

https://data.baai.ac.cn/details/BAAI-CCI3

Em suma, o lançamento do CCI3.0 marca um novo passo na construção do corpus chinês. O seu conjunto de dados em grande escala e de alta qualidade fornecerá um forte apoio à investigação científica e à aplicação no campo da inteligência artificial e ajudará. A indústria de inteligência artificial da China floresce. Todos são bem-vindos para visitar o link acima para baixar e usar.