تم الإعلان عن مجتمع Liwu الأقدم والأكثر غموضًا (لا شيء) على الإنترنت الصيني في عام 2023.1.1:
تحت إشراف موبو غوانزي الحكيم والقوي ، فهو مصمم على تلبية اللعب الكامل لقوة المجتمع (كل شيء جيد) ويساعد المجتمع مفتوح المصدر على تحديث أكبر مجموعة من مجموعة الإنترنت الصينية لفترة طويلة
لا يشمل مجموعة MNBVC الثقافة السائدة فحسب ، بل تتضمن أيضًا بيانات من مختلف الثقافات المتخصصة وحتى الثقافات المريخية. تتضمن مجموعة بيانات MNBVC الأخبار ، والتراكيب ، والروايات ، والكتب ، والأوراق ، والخطوط ، والوظائف ، والويكي ، والقصائد القديمة ، وكلمات الأغاني ، ومقدمات المنتج ، والنكات ، والقصص المحرجة ، وسجلات الدردشة وغيرها من أشكال البيانات الصينية النقية. يتم جمع جميع البيانات من الإنترنت.
يبلغ إجمالي حجم البيانات الحالي 42915 جيجابايت ، والهدف هو الوصول إلى بيانات 40T من chatgpt3.5 ، مع تقدم حالي قدره 107.2 ٪.
كلمة المرور للحزمة المضغوطة هي 253874
تشمل المجموعة الصينية في الحزمة المضغوطة تنسيقات TXT و JSON و JSONL و Parquet (مخصصة متعددة الوسائط) ، وسيتم توحيدها في النهاية في تنسيقات JSONL و Parquet.
يحتوي Links.txt في الدليل الجذر للحزمة المضغوطة على عنوان URL لكل مصدر بيانات للمجلد الفرعي.
هناك صورة بتنسيق PNG في كل مقلع فرعي ، وهي لقطة شاشة لصفحة الويب من مصدر البيانات.
ستقوم البيانات التي تم جمعها بإزالة سلاسل الأرقام أكبر من أو تساوي 8 أرقام لإزالة الحساسية.
تتم معالجة البيانات الموجودة في الحزمة المضغوطة تقريبًا تقريبًا ، مثل HTML & XML إلى TXT و CSV & TSV إلى JSON ، إلخ.
ليس لدينا القدرة على إجراء عمليات تدقيق حقوق الطبع والنشر على مصادر البيانات. على الرغم من أن مجموعة البيانات هذه تتضمن معلومات مصدر البيانات ، من أجل توفير تحديثات وتنزيلات طويلة الأمد لمجموعة البيانات ، ولتجنب نزاعات حقوق الطبع والنشر ، لا توفر مجموعة البيانات فهرسة وتصنيف البيانات في الحزمة المضغوطة. نطلب أيضًا من الجميع تقييد رغبتهم في المشاركة وعدم مناقشة فهرس الحزمة المضغوطة ومعلومات المحتوى المحددة الموجودة فيه. يرجى إيلاء المزيد من الاهتمام لتطبيق مجموعة البيانات الكبيرة نفسها ، ويرجى استخدام البيانات بطريقة منخفضة.
سيتم وضع البيانات المصنفة التي تم الانتهاء منها عن طريق التنظيف في: https://huggingface.co/Datasets/Liwu/MNBVC
أفاد قادة الفريق في كل فريق أن هناك الكثير من العمل على تنظيف البيانات ويتم تنفيذ التكنولوجيا ببطء قليلاً. آمل أن يأتي الطلاب الذين لديهم الكثير من الوقت للمساعدة ، ومعرفة كيفية استخدام Python ، وسيوجهك شخص ما خطوة بخطوة. الرجاء مساعدة الطلاب أولاً على قراءة الخطوط الحمراء الثلاثة للمشروع.
حتى إذا لم يكن لديك وقت لمساعدة المشروع على تطوير ، يمكنك المشاركة في بناء مجموعة MNBVC من خلال المشاركة في مشروع (Corpus Energy Bomb) وتحميل مستندات Corpus في الإرادة.
للتعامل مع مجموعة صينية واسعة النطاق ، قام الطلاب من فريق مشروع MNBVC بتحسين برنامج Open Source الحالي لتوفير نسخة أكثر كفاءة:
هناك ظواهر تصفية اصطناعية خطيرة في مختلف أجهزة كود المصدر المفتوح الحالي ، مما يجعل من الصعب اللحاق بالدردشة. لتجنب العمالة المتكررة ، قم بتوفير رمز زاحف مستودع الرمز الذي تم التحقق منه على نطاق واسع بواسطة MNBVC.
1. مزامنة جميع الحزم المضغوطة من خلال P2P Micro Force واستلام التحديثات. من المستحسن إيقاف تشغيل تغلغل TCP وإعدادات قوة نقل UDP. إذا لم يتم إيقاف تشغيله ، فقد تكون القوة الصغيرة تمنع جهاز التوجيه (وربما تكون سرعة الإرسال أسرع)
مفتاح الطاقة الدقيقة: B4MVPVJTK3DooaOpvlj3e7t7rww4j2zeaxjrmrsrhsbpdb7oafhuq
رابط Weili المباشر
2. قم بتنزيل عبر Baidu NetDisk: رابط تنزيل Baidu NetDisk لكل حزمة مضغوطة
يرجى الاستشهاد بالربط إذا كنت تستخدم البيانات أو الرمز في هذا الريبو.
@misc{mnbvc,
author = {{MOP-LIWU Community} and {MNBVC Team}},
title = {MNBVC: Massive Never-ending BT Vast Chinese corpus},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/esbatmop/MNBVC}},
}