Zhiyuan Research Institute merilis Chinese Internet Corpus CCI3.0 yang berisi kumpulan data 1000 GB

Penulis：Eve Cole Waktu Pembaruan：2025-03-07 00:00:03

Institut Kecerdasan Buatan Zhiyuan Beijing (BAAI) merilis generasi baru korpus Internet Tiongkok CCI3.0 di Forum Kebudayaan Beijing 2024. Ini merupakan pembaruan penting lainnya setelah CCI1.0 dan CCI2.0. CCI3.0 mencakup kumpulan data 1000 GB dan subset CCI3.0-HQ berkualitas tinggi 498 GB. Sejak bersumber terbuka, kumpulan data seri CCI telah diunduh lebih dari 40.000 kali dan melayani penelitian dan pengembangan model besar di lebih dari 500 perusahaan dan institusi. Hal ini memberikan dukungan kuat bagi pengembangan ekologi industri kecerdasan buatan Tiongkok. Editor Downcodes akan menjelaskan secara rinci fitur dan metode pengunduhan CCI3.0.

Pada Forum Kebudayaan Beijing 2024, Institut Penelitian Kecerdasan Buatan Zhiyuan Beijing (BAAI) mengumumkan peluncuran resmi generasi baru korpus Internet Tiongkok CCI3.0 (Chinese Corpora Internet) untuk lebih mempromosikan konstruksi dan pembagian data bersama. CCI3.0 menyertakan kumpulan data 1000 GB dan subset CCI3.0-HQ berkualitas tinggi 498 GB. Ini merupakan pembaruan penting lainnya setelah CCI1.0 open source pertama pada November 2023 dan rilis CCI2.0 pada April 2024.

Sejak open source pertama, kumpulan data seri CCI telah diunduh lebih dari 40.000 kali, melayani penelitian dan pengembangan model berskala besar di lebih dari 500 perusahaan dan institusi, secara efektif mendukung pengembangan ekosistem industri kecerdasan buatan Tiongkok.

Fitur CCI3.0 meliputi:

Skala yang diperluas dan sumber yang luas: CCI3.0 mencakup lebih dari 268 juta halaman web, mencakup berita, media sosial, blog, dan bidang lainnya. Dibandingkan dengan CCI2.0, skala data CCI3.0 meningkat hampir dua kali lipat, dan jumlah lembaga sumber data meningkat menjadi lebih dari 20, sehingga secara signifikan meningkatkan cakupan dan keterwakilan data.
Anotasi halus, aplikasi yang memberdayakan: CCI3.0 melakukan klasifikasi terperinci dan pelabelan terperinci pada data mentah di lebih dari 10 dimensi, termasuk tata bahasa, sintaksis, tingkat pendidikan, dll., untuk menyaring data bernilai tinggi. Selain itu, CCI3.0HQ didasarkan pada model 70B yang secara otomatis memberi label pada sampel, dan kemudian melatih model kualitas berukuran kecil untuk mengoptimalkan subset berkualitas tinggi agar lebih memenuhi kebutuhan berbagai industri dan skenario aplikasi.
Efek luar biasa, pemahaman bahasa Mandarin yang lebih baik: Dalam eksperimen komparatif di mana model 500M dilatih dari awal pada data 100 miliar, CCI3.0 lebih baik dibandingkan kumpulan data lainnya dalam pelatihan korpus bahasa Mandarin terpisah dan pelatihan korpus campuran bahasa Mandarin dan Inggris, sedangkan CCI3 .0HQ's Efeknya bahkan lebih signifikan.

Zhiyuan Research Institute menyatakan bahwa mereka akan terus bekerja sama dengan ekosistem industri di masa depan untuk mempromosikan konstruksi bersama dan berbagi korpora, membangun kumpulan data Tiongkok berskala besar, berkualitas tinggi, dan padat pengetahuan tinggi, dan menjadikan lebih besar kontribusi terhadap pengembangan industri kecerdasan buatan Tiongkok.

Alamat unduhan CCI3.0

Flopsera:

https://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3

Wajah Memeluk: https://huggingface.co/datasets/BAAI/CCI3-Data

Pusat Data:

https://data.baai.ac.cn/details/BAAI-CCI3

Secara keseluruhan, peluncuran CCI3.0 menandai langkah baru dalam pembangunan korpus Tiongkok Tiongkok. Kumpulan data berskala besar dan berkualitas tinggi akan memberikan dukungan kuat untuk penelitian ilmiah dan penerapan di bidang kecerdasan buatan, serta membantu Industri kecerdasan buatan Tiongkok berkembang pesat. Setiap orang dipersilakan untuk mengunjungi tautan di atas untuk mengunduh dan menggunakan.