أصدر معهد بكين تشى يوان للذكاء الاصطناعي (BAAI) جيلًا جديدًا من مجموعة الإنترنت الصينية CCI3.0 في منتدى بكين الثقافي لعام 2024، وهذا تحديث مهم آخر بعد CCI1.0 وCCI2.0. يتضمن CCI3.0 مجموعة بيانات بسعة 1000 غيغابايت ومجموعة فرعية عالية الجودة بسعة 498 غيغابايت CCI3.0-HQ منذ أن أصبحت مفتوحة المصدر، تم تنزيل مجموعات بيانات سلسلة CCI أكثر من 40000 مرة وهي تخدم البحث والتطوير للنماذج الكبيرة في أكثر من. 500 شركة ومؤسسة توفر دعمًا قويًا للتنمية البيئية لصناعة الذكاء الاصطناعي في الصين. سيشرح محرر Downcodes بالتفصيل ميزات وطرق تنزيل CCI3.0.
في منتدى بكين الثقافي لعام 2024، أعلن معهد بكين تشييوان لأبحاث الذكاء الاصطناعي (BAAI) عن الإصدار الرسمي لجيل جديد من مجموعة الإنترنت الصينية CCI3.0 (شبكة الإنترنت الصينية) لمواصلة تعزيز البناء المشترك للبيانات ومشاركتها. يتضمن CCI3.0 مجموعة بيانات بسعة 1000 جيجابايت ومجموعة فرعية عالية الجودة بسعة 498 جيجابايت CCI3.0-HQ، وهو تحديث مهم آخر بعد أول إصدار مفتوح المصدر CCI1.0 في نوفمبر 2023 وإصدار CCI2.0 في أبريل 2024.
منذ أول مصدر مفتوح، تم تنزيل مجموعات بيانات سلسلة CCI أكثر من 40,000 مرة، مما يخدم البحث والتطوير النموذجي واسع النطاق لأكثر من 500 شركة ومؤسسة، ويدعم بشكل فعال تطوير النظام البيئي لصناعة الذكاء الاصطناعي في الصين.

تشمل ميزات CCI3.0 ما يلي:
نطاق موسع ونطاق واسع من المصادر: يتضمن CCI3.0 أكثر من 268 مليون صفحة ويب، تغطي الأخبار ووسائل التواصل الاجتماعي والمدونات وغيرها من المجالات. بالمقارنة مع CCI2.0، تضاعف حجم بيانات CCI3.0 تقريبًا، وزاد عدد مؤسسات مصدر البيانات إلى أكثر من 20، مما أدى إلى تحسين تغطية البيانات وتمثيلها بشكل كبير.
التعليقات التوضيحية الدقيقة وتمكين التطبيقات: يجري CCI3.0 تصنيفًا دقيقًا ووضع علامات تفصيلية للبيانات الأولية في أكثر من 10 أبعاد، بما في ذلك القواعد النحوية وبناء الجملة ومستوى التعليم وما إلى ذلك، لتصفية البيانات عالية القيمة. بالإضافة إلى ذلك، يعتمد CCI3.0HQ على نموذج 70B الذي يقوم بتسمية العينات تلقائيًا، ثم يقوم بتدريب نماذج الجودة صغيرة الحجم لتحسين المجموعات الفرعية عالية الجودة لتلبية احتياجات الصناعات وسيناريوهات التطبيق المختلفة بشكل أفضل.
تأثير ملحوظ، فهم أفضل للغة الصينية: في تجربة مقارنة تم فيها تدريب نموذج 500M من الصفر على بيانات 100B، كان CCI3.0 أفضل من مجموعات البيانات الأخرى في كل من التدريب المنفصل للمدونات الصينية والتدريب المختلط باللغتين الصينية والإنجليزية، في حين أن CCI3 .0HQ's التأثير أكثر أهمية.
صرح معهد Zhiyuan للأبحاث بأنه سيواصل التعاون مع النظام البيئي للصناعة في المستقبل لتعزيز البناء المشترك وتقاسم المجموعات، وبناء مجموعات بيانات صينية واسعة النطاق وعالية الجودة وعالية الكثافة المعرفية، وتحقيق المزيد المساهمة في تطوير صناعة الذكاء الاصطناعي في الصين.
عنوان التنزيل CCI3.0
فلوبسيرا:
https://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3
معانقة: https://huggingface.co/datasets/BAAI/CCI3-Data
مركز البيانات:
https://data.baai.ac.cn/details/BAAI-CCI3
بشكل عام، يمثل إصدار CCI3.0 خطوة جديدة في بناء مجموعة البيانات الصينية عالية الجودة واسعة النطاق والتي ستوفر دعمًا قويًا للبحث العلمي والتطبيق في مجال الذكاء الاصطناعي ازدهار صناعة الذكاء الاصطناعي في الصين. الجميع مدعوون لزيارة الرابط أعلاه للتنزيل والاستخدام.