Beijing Zhiyuan Artificial Intelligence Institute (BAAI) เปิดตัว CCI3.0 คลังข้อมูลอินเทอร์เน็ตของจีนรุ่นใหม่ที่ Beijing Cultural Forum ปี 2024 นี่เป็นการอัปเดตที่สำคัญอีกประการหนึ่งหลังจาก CCI1.0 และ CCI2.0 CCI3.0 ประกอบด้วยชุดข้อมูลขนาด 1,000GB และชุดย่อยคุณภาพสูงขนาด 498GB CCI3.0-HQ นับตั้งแต่เป็นโอเพ่นซอร์ส ชุดข้อมูลซีรีส์ CCI ก็มีการดาวน์โหลดมากกว่า 40,000 ครั้ง และรองรับการวิจัยและพัฒนาโมเดลขนาดใหญ่ในมากกว่า องค์กรและสถาบัน 500 แห่งให้การสนับสนุนการพัฒนาระบบนิเวศของอุตสาหกรรมปัญญาประดิษฐ์ของจีน เครื่องมือแก้ไข Downcodes จะอธิบายรายละเอียดคุณสมบัติและวิธีการดาวน์โหลดของ CCI3.0
ที่งาน Beijing Cultural Forum ประจำปี 2024 สถาบันวิจัยปัญญาประดิษฐ์ Beijing Zhiyuan (BAAI) ได้ประกาศเปิดตัว CCI3.0 คอร์ปัสอินเทอร์เน็ตของจีน (China Corpora Internet) เจเนอเรชั่นใหม่อย่างเป็นทางการ เพื่อส่งเสริมการสร้างและแบ่งปันข้อมูลร่วมกัน CCI3.0 ประกอบด้วยชุดข้อมูล 1,000GB และชุดย่อยคุณภาพสูง CCI3.0-HQ ขนาด 498GB ถือเป็นการอัปเดตที่สำคัญอีกประการหนึ่งหลังจาก CCI1.0 โอเพ่นซอร์สครั้งแรกในเดือนพฤศจิกายน 2023 และการเปิดตัว CCI2.0 ในเดือนเมษายน 2024
นับตั้งแต่โอเพ่นซอร์สชุดแรก ชุดข้อมูลซีรีส์ CCI ได้รับการดาวน์โหลดมากกว่า 40,000 ครั้ง เพื่อรองรับการวิจัยแบบจำลองขนาดใหญ่และการพัฒนาขององค์กรและสถาบันมากกว่า 500 แห่ง ซึ่งสนับสนุนการพัฒนาระบบนิเวศอุตสาหกรรมปัญญาประดิษฐ์ของจีนได้อย่างมีประสิทธิภาพ

คุณสมบัติของ CCI3.0 ประกอบด้วย:
ขยายขนาดและแหล่งที่มาที่หลากหลาย: CCI3.0 มีหน้าเว็บมากกว่า 268 ล้านหน้า ครอบคลุมข่าวสาร โซเชียลมีเดีย บล็อก และสาขาอื่นๆ เมื่อเปรียบเทียบกับ CCI2.0 ระดับข้อมูลของ CCI3.0 เพิ่มขึ้นเกือบสองเท่า และจำนวนสถาบันแหล่งข้อมูลก็เพิ่มขึ้นเป็นมากกว่า 20 แห่ง ซึ่งช่วยเพิ่มความครอบคลุมและความเป็นตัวแทนของข้อมูลได้อย่างมาก
คำอธิบายประกอบที่ละเอียด เสริมศักยภาพให้กับแอปพลิเคชัน: CCI3.0 ดำเนินการจำแนกแบบละเอียดและการติดป้ายกำกับข้อมูลดิบโดยละเอียดในมากกว่า 10 มิติ รวมถึงไวยากรณ์ ไวยากรณ์ ระดับการศึกษา ฯลฯ เพื่อกรองข้อมูลที่มีมูลค่าสูงออก นอกจากนี้ CCI3.0HQ ยังใช้รุ่น 70B ที่จะติดป้ายกำกับตัวอย่างโดยอัตโนมัติ จากนั้นฝึกโมเดลคุณภาพขนาดเล็กเพื่อเพิ่มประสิทธิภาพชุดย่อยคุณภาพสูงให้ตรงกับความต้องการของอุตสาหกรรมและสถานการณ์การใช้งานที่แตกต่างกันได้ดียิ่งขึ้น
ผลกระทบที่น่าทึ่ง และความเข้าใจภาษาจีนดีขึ้น: ในการทดลองเปรียบเทียบซึ่งมีการฝึกโมเดล 500M ตั้งแต่เริ่มต้นบนข้อมูล 100B นั้น CCI3.0 ดีกว่าชุดข้อมูลอื่นๆ ทั้งในการฝึกอบรมคลังข้อมูลภาษาจีนที่แยกจากกัน และการฝึกอบรมคลังข้อมูลแบบผสมภาษาจีนและอังกฤษ ในขณะที่ CCI3 .0HQ เอฟเฟกต์นั้นมีความสำคัญมากยิ่งขึ้น
Zhiyuan Research Institute ระบุว่าจะยังคงร่วมมือกับระบบนิเวศอุตสาหกรรมต่อไปในอนาคต เพื่อส่งเสริมการสร้างร่วมและแบ่งปัน Corpora สร้างชุดข้อมูลจีนขนาดใหญ่ คุณภาพสูง และมีความรู้ความหนาแน่นสูง และทำให้ยิ่งใหญ่ยิ่งขึ้น มีส่วนช่วยในการพัฒนาอุตสาหกรรมปัญญาประดิษฐ์ของจีน
ที่อยู่ดาวน์โหลด CCI3.0
Flopsera:
https://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3
กอดใบหน้า: https://huggingface.co/datasets/BAAI/CCI3-Data
ดาต้าฮับ:
https://data.baai.ac.cn/details/BAAI-CCI3
โดยรวมแล้ว การเปิดตัว CCI3.0 ถือเป็นก้าวใหม่ในการสร้างคลังข้อมูลภาษาจีนของจีน ชุดข้อมูลขนาดใหญ่และมีคุณภาพสูงจะให้การสนับสนุนอย่างมากสำหรับการวิจัยทางวิทยาศาสตร์และการประยุกต์ในด้านปัญญาประดิษฐ์ และความช่วยเหลือ อุตสาหกรรมปัญญาประดิษฐ์ของจีนเจริญรุ่งเรือง ยินดีต้อนรับทุกคนเข้าสู่ลิงค์ด้านบนเพื่อดาวน์โหลดและใช้งาน