Zhiyuan Research Institute, 1000GB 데이터 세트를 포함하는 중국 인터넷 코퍼스 CCI3.0 출시

저자：Eve Cole 업데이트 시간：2025-03-07 00:00:03

BAAI(Beijing Zhiyuan Artificial Intelligence Institute)는 2024년 베이징 문화 포럼에서 차세대 중국 인터넷 코퍼스 CCI3.0을 출시했습니다. 이는 CCI1.0 및 CCI2.0에 이어 또 다른 중요한 업데이트입니다. CCI3.0에는 1000GB 데이터 세트와 498GB 고품질 하위 세트 CCI3.0-HQ가 포함되어 있습니다. CCI 시리즈 데이터 세트는 오픈 소스 이후 40,000회 이상 다운로드되었으며 2년 이상 대규모 모델의 연구 및 개발에 사용됩니다. 500개 기업 및 기관이 중국 인공지능 산업의 생태적 발전을 강력하게 지원합니다. 다운코드 편집자는 CCI3.0의 기능과 다운로드 방법을 자세히 설명합니다.

2024년 베이징 문화 포럼에서 베이징 Zhiyuan 인공 지능 연구소(BAAI)는 데이터 공동 구축 및 공유를 더욱 촉진하기 위해 차세대 중국 인터넷 코퍼스 CCI3.0(중국 코포라 인터넷)의 공식 출시를 발표했습니다. CCI3.0에는 1000GB 데이터 세트와 498GB 고품질 하위 세트 CCI3.0-HQ가 포함되어 있습니다. 이는 2023년 11월 첫 번째 오픈 소스 CCI1.0과 2024년 4월 CCI2.0 출시 이후의 또 다른 중요한 업데이트입니다.

첫 번째 오픈 소스 이후 CCI 시리즈 데이터 세트는 40,000회 이상 다운로드되어 500개 이상의 기업 및 기관의 대규모 모델 연구 및 개발에 서비스를 제공하고 중국의 인공 지능 산업 생태계 발전을 효과적으로 지원합니다.

CCI3.0의 기능은 다음과 같습니다.

확장된 규모와 광범위한 소스: CCI3.0에는 뉴스, 소셜 미디어, 블로그 및 기타 분야를 다루는 2억 6,800만 개 이상의 웹 페이지가 포함되어 있습니다. CCI2.0에 비해 CCI3.0의 데이터 규모는 거의 두 배로 늘어났고, 데이터 소스 기관의 수도 20개 이상으로 늘어나 데이터의 범위와 대표성이 크게 향상됐다.
정밀한 주석, 애플리케이션 강화: CCI3.0은 문법, 구문, 교육 수준 등을 포함하여 10개 이상의 차원에서 원시 데이터를 세밀하게 분류하고 세부적인 라벨링을 수행하여 고가치 데이터를 필터링합니다. 또한 CCI3.0HQ는 자동으로 샘플에 라벨을 붙인 다음 소규모 품질 모델을 교육하여 고품질 하위 집합을 최적화하는 70B 모델을 기반으로 하며 다양한 산업 및 애플리케이션 시나리오의 요구 사항을 더 잘 충족합니다.
놀라운 효과, 중국어에 대한 이해도 향상: 100B 데이터를 바탕으로 500M 모델을 처음부터 학습시킨 비교 실험에서 개별 중국어 코퍼스 학습과 중국어 및 영어 혼합 코퍼스 학습 모두에서 CCI3.0이 다른 데이터 세트보다 우수했지만 CCI3 .0HQ의 효과는 더욱 큽니다.

Zhiyuan 연구소는 앞으로도 산업 생태계와 지속적으로 협력하여 말뭉치의 공동 구축 및 공유를 촉진하고, 대규모, 고품질, 지식 밀도가 높은 중국 데이터 세트를 구축하고, 중국 인공지능 산업 발전에 기여

CCI3.0 다운로드 주소

플롭세라:

https://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3

허깅페이스: https://huggingface.co/datasets/BAAI/CCI3-Data

데이터허브:

https://data.baai.ac.cn/details/BAAI-CCI3

전체적으로 CCI3.0의 출시는 중국어 중국어 말뭉치 구축의 새로운 단계를 의미합니다. CCI 3.0의 대규모 고품질 데이터 세트는 인공 지능 분야의 과학적 연구 및 응용에 대한 강력한 지원을 제공할 것입니다. 중국의 인공지능 산업이 번창하고 있다. 누구나 위의 링크를 방문하여 다운로드하여 사용할 수 있습니다.