智源研究院發布中文網路語料庫CCI3.0 包含1000GB資料集

作者：Eve Cole 更新時間：2025-03-07 00:00:03

北京智源人工智慧研究院（BAAI）在2024北京文化論壇上重磅發布新一代中文網路語料庫CCI3.0，這是繼CCI1.0和CCI2.0之後又一次重要更新。 CCI3.0包含1000GB的資料集及498GB的高品質子集CCI3.0-HQ，自開源以來，CCI系列資料集已下載超過4萬次，服務500多個企事業單位的大模型研發，為中國人工智慧產業生態發展提供了有力支撐。 Downcodes小編將為您詳細解讀CCI3.0的特性及下載方式。

在2024北京文化論壇上，北京智源人工智慧研究院（BAAI）宣布正式發表新一代中文網路語料庫CCI3.0(Chinese Corpora Internet)，進一步推動資料共建共享。 CCI3.0包含1000GB的資料集及498GB的高品質子集CCI3.0-HQ，是繼2023年11月首次開源CCI1.0和2024年4月發布CCI2.0之後的另一個重要更新。

自首次開源以來，CCI系列資料集的下載量已超過4萬次，服務於500多個企事業單位的大模型研發，有效支持了中國人工智慧產業生態的發展。

CCI3.0的特點包括:

規模擴大，來源廣泛:CCI3.0收錄了超過2.68億個網頁，內容涵蓋新聞、社群媒體、部落格等多個領域。相較於CCI2.0，CCI3.0的資料規模擴大了近一倍，資料來源機構增加至20多家，顯著提升了資料的覆蓋率和代表性。
精細標註，賦能應用:CCI3.0對原始資料進行了包括語法、句法、教育程度等10多個維度的細粒度分類和詳細標記，以篩選出高價值資料。此外，CCI3.0HQ是基於70B模型自動標註樣本，然後透過訓練小尺寸品質模型進行優選得到的高品質子集，以更好地滿足不同行業和應用場景的需求。
效果顯著，更懂中文:在500M模型從零開始訓練100B資料的對比實驗中，CCI3.0在單獨中文語料訓練和中英文語料混合訓練的效果上均優於其他資料集，而CCI3.0HQ的效果則更加顯著。

智源研究院表示，未來將繼續與產業生態合作，推動語料庫的共建共享，建構大規模、高品質、高知識密度的中文資料集，為中國人工智慧產業的發展做出更大的貢獻。

CCI3.0下載地址

Flopsera:

https://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3

Huggingface: https://huggingface.co/datasets/BAAI/CCI3-Data

Datahub:

https://data.baai.ac.cn/details/BAAI-CCI3

總而言之，CCI3.0的發布標誌著中國中文語料庫建設邁向新台階，其大規模、高品質的數據集將為人工智慧領域的科學研究和應用提供強有力的支撐，助力中國人工智慧產業蓬勃發展。歡迎大家造訪以上連結下載使用。