ชุมชน Liwu ที่เก่าแก่ที่สุดและลึกลับที่สุด (ไม่มีอะไร) บนอินเทอร์เน็ตจีนประกาศอย่างเคร่งขรึมเมื่อปี 2023.1.1:
ภายใต้คำแนะนำของ Maopu Guanzi ที่ชาญฉลาดและทรงพลังเขามุ่งมั่นที่จะให้การเล่นอย่างเต็มที่กับจุดแข็งของชุมชน (ทุกอย่างดี) และช่วยชุมชนโอเพ่นซอร์สอัพเดตคอลเล็กชั่นคลังอินเทอร์เน็ตจีนที่ใหญ่ที่สุดเป็นเวลานาน
คลังข้อมูล MNBVC ไม่เพียง แต่รวมถึงวัฒนธรรมกระแสหลัก แต่ยังรวมถึงข้อมูลจากวัฒนธรรมเฉพาะที่หลากหลายและแม้แต่วัฒนธรรมดาวอังคาร ชุดข้อมูล MNBVC รวมถึงข่าว, การแต่งเพลง, นวนิยาย, หนังสือ, นิตยสาร, เอกสาร, บรรทัด, โพสต์, วิกิ, บทกวีโบราณ, เนื้อเพลง, การแนะนำผลิตภัณฑ์, เรื่องตลก, เรื่องราวที่น่าอับอาย, บันทึกการแชทและรูปแบบอื่น ๆ ของข้อมูลภาษาจีนบริสุทธิ์ ข้อมูลทั้งหมดจะถูกรวบรวมจากอินเทอร์เน็ต
ปริมาณข้อมูลทั้งหมดในปัจจุบันคือ 42915GB และเป้าหมายคือการเข้าถึงข้อมูล 40T ของ CHATGPT3.5 โดยมีความคืบหน้าในปัจจุบัน 107.2%
รหัสผ่านสำหรับแพ็คเกจบีบอัดคือ 253874
คลังภาษาจีนในแพ็คเกจบีบอัดรวมถึงรูปแบบ TXT, JSON, JSONL และ PARQUET (Multimodal Dedicated) และในที่สุดจะได้รับการรวมเข้ากับรูปแบบ JSONL และ Parquet
links.txt ในไดเรกทอรีรูทของแพ็คเกจที่บีบอัดมี URL ของแหล่งข้อมูลย่อยแต่ละโฟลเดอร์
มีรูปภาพในรูปแบบ PNG ในแต่ละโฟลเดอร์ย่อยซึ่งเป็นภาพหน้าจอของหน้าเว็บจากแหล่งข้อมูล
ข้อมูลที่รวบรวมจะลบสตริงตัวเลขมากกว่าหรือเท่ากับ 8 หลักสำหรับการ desensitization
ข้อมูลในแพ็คเกจบีบอัดนั้นจะถูกประมวลผลอย่างคร่าวๆเช่น HTML & XML ถึง TXT, CSV & TSV ถึง JSON ฯลฯ
เราไม่มีความสามารถในการดำเนินการตรวจสอบลิขสิทธิ์ในแหล่งข้อมูล แม้ว่าชุดข้อมูลนี้จะมีข้อมูลแหล่งข้อมูลเพื่อให้การอัปเดตและดาวน์โหลดชุดข้อมูลที่ยาวนานและเพื่อหลีกเลี่ยงข้อพิพาทลิขสิทธิ์ชุดข้อมูลนี้ไม่ได้ให้การจัดทำดัชนีและการจำแนกข้อมูลในแพ็คเกจบีบอัด นอกจากนี้เรายังขอให้ทุกคนยับยั้งความปรารถนาที่จะแบ่งปันและไม่หารือเกี่ยวกับดัชนีของแพ็คเกจบีบอัดและข้อมูลเนื้อหาเฉพาะที่มีอยู่ในนั้น โปรดให้ความสำคัญกับการประยุกต์ใช้ Big Data Corpus เองและโปรดใช้ข้อมูลในลักษณะต่ำที่สำคัญ
ข้อมูลลับที่เสร็จสมบูรณ์โดยการทำความสะอาดจะถูกวางไว้ใน: https://huggingface.co/datasets/liwu/mnbvc
ผู้นำทีมของแต่ละทีมรายงานว่ามีงานมากมายเกี่ยวกับการทำความสะอาดข้อมูลและเทคโนโลยีจะถูกนำไปใช้อย่างช้าๆ ฉันหวังว่านักเรียนที่มีเวลามากจะมาช่วยและรู้วิธีใช้ Python และใครบางคนจะแนะนำคุณทีละขั้นตอน โปรดช่วยนักเรียนก่อนที่จะอ่านสามบรรทัดสีแดงของโครงการ
แม้ว่าคุณจะไม่มีเวลาช่วยพัฒนาโครงการคุณสามารถเข้าร่วมในการก่อสร้างคลังข้อมูล MNBVC โดยการเข้าร่วมโครงการ (Corpus Energy Bomb) และอัปโหลดเอกสารคอร์ปัส
เพื่อจัดการคลังภาษาจีนขนาดใหญ่นักเรียนจากทีมโครงการ MNBVC ได้เพิ่มประสิทธิภาพซอฟต์แวร์โอเพนซอร์สที่มีอยู่เพื่อให้ได้เวอร์ชันที่มีประสิทธิภาพมากขึ้น:
มีปรากฏการณ์การกรองประดิษฐ์ที่ร้ายแรงในคลังข้อมูลโอเพนซอร์สที่มีอยู่หลายแห่งซึ่งทำให้ยากต่อการติดตาม Chatgpt เพื่อหลีกเลี่ยงการใช้แรงงานซ้ำให้จัดเตรียมรหัสตัวรวบรวมข้อมูลรหัสที่เก็บรหัสที่ได้รับการตรวจสอบในขนาดใหญ่โดย MNBVC
1. ซิงโครไนซ์แพ็คเก็ตที่บีบอัดทั้งหมดผ่าน P2P Micro Force และรับการอัปเดต ขอแนะนำให้ปิดการเจาะ TCP และการตั้งค่า Micro Force ของ UDP หากไม่ปิดการใช้งานไมโครแรงอาจปิดกั้นเราเตอร์ (และบางทีความเร็วในการส่งจะเร็วขึ้น)
ปุ่ม Micro-Power: B4MVPVJTK3DOOAOPVLJ3E7TA7RWW4J2ZEAXJRMRSRHSBPDB7OAFHUQ
ลิงค์โดยตรง Weili
2. ดาวน์โหลดผ่าน Baidu Netdisk: ลิงค์ดาวน์โหลด Baidu Netdisk สำหรับแต่ละแพ็คเกจบีบอัด
โปรดอ้างอิง repo หากคุณใช้ข้อมูลหรือรหัสใน repo นี้
@misc{mnbvc,
author = {{MOP-LIWU Community} and {MNBVC Team}},
title = {MNBVC: Massive Never-ending BT Vast Chinese corpus},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/esbatmop/MNBVC}},
}