Исследовательский институт Чжиюань выпустил китайский интернет-корпус CCI3.0, содержащий набор данных объемом 1000 ГБ

Автор：Eve Cole Время обновления：2025-03-07 00:00:03

Пекинский институт искусственного интеллекта Чжиюань (BAAI) представил новое поколение китайского интернет-корпуса CCI3.0 на Пекинском культурном форуме 2024 года. Это еще одно важное обновление после CCI1.0 и CCI2.0. CCI3.0 включает в себя набор данных объемом 1000 ГБ и высококачественный подмножество CCI3.0-HQ объемом 498 ГБ. Поскольку исходный код серии CCI открыт, наборы данных серии CCI были загружены более 40 000 раз и служат для исследований и разработки больших моделей более чем. 500 предприятий и учреждений оказывают мощную поддержку экологическому развитию индустрии искусственного интеллекта в Китае. Редактор Downcodes подробно объяснит функции и способы загрузки CCI3.0.

На Пекинском культурном форуме 2024 года Пекинский научно-исследовательский институт искусственного интеллекта Чжиюань (BAAI) объявил об официальном выпуске нового поколения китайского интернет-корпуса CCI3.0 (Chinese Corpora Internet) для дальнейшего содействия совместному созданию и обмену данными. CCI3.0 включает набор данных объемом 1000 ГБ и высококачественный подмножество CCI3.0-HQ объемом 498 ГБ. Это еще одно важное обновление после первого CCI1.0 с открытым исходным кодом в ноябре 2023 года и выпуска CCI2.0 в апреле 2024 года.

С момента первого открытого исходного кода наборы данных серии CCI были загружены более 40 000 раз, обслуживая крупномасштабные исследования и разработки моделей более чем 500 предприятий и учреждений, эффективно поддерживая развитие экосистемы индустрии искусственного интеллекта в Китае.

Особенности CCI3.0 включают в себя:

Расширенный масштаб и широкий спектр источников: CCI3.0 включает более 268 миллионов веб-страниц, охватывающих новости, социальные сети, блоги и другие области. По сравнению с CCI2.0 масштаб данных CCI3.0 увеличился почти вдвое, а количество учреждений-источников данных увеличилось до более чем 20, что значительно улучшило охват и репрезентативность данных.
Точные аннотации, расширяющие возможности приложений: CCI3.0 выполняет детальную классификацию и подробную маркировку необработанных данных по более чем 10 измерениям, включая грамматику, синтаксис, уровень образования и т. д., для фильтрации ценных данных. Кроме того, CCI3.0HQ основан на модели 70B, которая автоматически маркирует образцы, а затем обучает небольшие качественные модели для оптимизации высококачественных подмножеств для лучшего удовлетворения потребностей различных отраслей и сценариев применения.
Замечательный эффект, лучшее понимание китайского языка: в сравнительном эксперименте, в котором модель 500M обучалась с нуля на данных 100B, CCI3.0 был лучше, чем другие наборы данных, как при отдельном обучении китайского корпуса, так и при обучении смешанного корпуса на китайском и английском языках, в то время как CCI3 .0HQ's Эффект еще более значителен.

Научно-исследовательский институт Чжиюань заявил, что он продолжит сотрудничать с отраслевой экосистемой в будущем, чтобы способствовать совместному созданию и совместному использованию корпусов, созданию крупномасштабных, высококачественных китайских наборов данных с высокой плотностью знаний, а также увеличению вклад в развитие китайской индустрии искусственного интеллекта.

Адрес загрузки CCI3.0

Флопсера:

https://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3

Обнимающее лицо: https://huggingface.co/datasets/BAAI/CCI3-Data

Датахаб:

https://data.baai.ac.cn/details/BAAI-CCI3

В целом, выпуск CCI3.0 знаменует собой новый шаг в создании китайского корпуса. Его крупномасштабный набор высококачественных данных обеспечит надежную поддержку научных исследований и приложений в области искусственного интеллекта, а также поможет. Китайская индустрия искусственного интеллекта процветает. Каждый может перейти по ссылке выше, чтобы скачать и использовать.