ดาวน์โหลด MNBVC - ดาวน์โหลดซอร์สโค้ด MNBVC

MNBVC

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

MNBVC (คลังภาษาจีนขนาดใหญ่ที่ไม่มีวันจบสิ้น) คลังภาษาจีนขนาดใหญ่สุดยอด

โปรดอย่ารายงานให้เราทราบเพื่อให้เรามีเวลาอีกนานในการรวบรวมและจัดระเบียบข้อมูล เรากลัวที่จะได้รับการยกย่องและฆ่า หากคุณทำให้เรามีรายละเอียดต่ำคุณได้มีส่วนร่วมอย่างมากกับวงกลมอัลกอริทึมจีน!

ชุมชน Liwu ที่เก่าแก่ที่สุดและลึกลับที่สุด (ไม่มีอะไร) บนอินเทอร์เน็ตจีนประกาศอย่างเคร่งขรึมเมื่อปี 2023.1.1:

ภายใต้คำแนะนำของ Maopu Guanzi ที่ชาญฉลาดและทรงพลังเขามุ่งมั่นที่จะให้การเล่นอย่างเต็มที่กับจุดแข็งของชุมชน (ทุกอย่างดี) และช่วยชุมชนโอเพ่นซอร์สอัพเดตคอลเล็กชั่นคลังอินเทอร์เน็ตจีนที่ใหญ่ที่สุดเป็นเวลานาน

คลังข้อมูล MNBVC ไม่เพียง แต่รวมถึงวัฒนธรรมกระแสหลัก แต่ยังรวมถึงข้อมูลจากวัฒนธรรมเฉพาะที่หลากหลายและแม้แต่วัฒนธรรมดาวอังคาร ชุดข้อมูล MNBVC รวมถึงข่าว, การแต่งเพลง, นวนิยาย, หนังสือ, นิตยสาร, เอกสาร, บรรทัด, โพสต์, วิกิ, บทกวีโบราณ, เนื้อเพลง, การแนะนำผลิตภัณฑ์, เรื่องตลก, เรื่องราวที่น่าอับอาย, บันทึกการแชทและรูปแบบอื่น ๆ ของข้อมูลภาษาจีนบริสุทธิ์ ข้อมูลทั้งหมดจะถูกรวบรวมจากอินเทอร์เน็ต

กำหนดการ

ปริมาณข้อมูลทั้งหมดในปัจจุบันคือ 42915GB และเป้าหมายคือการเข้าถึงข้อมูล 40T ของ CHATGPT3.5 โดยมีความคืบหน้าในปัจจุบัน 107.2%

คำอธิบายข้อมูล

รหัสผ่านสำหรับแพ็คเกจบีบอัดคือ 253874

คลังภาษาจีนในแพ็คเกจบีบอัดรวมถึงรูปแบบ TXT, JSON, JSONL และ PARQUET (Multimodal Dedicated) และในที่สุดจะได้รับการรวมเข้ากับรูปแบบ JSONL และ Parquet

links.txt ในไดเรกทอรีรูทของแพ็คเกจที่บีบอัดมี URL ของแหล่งข้อมูลย่อยแต่ละโฟลเดอร์

มีรูปภาพในรูปแบบ PNG ในแต่ละโฟลเดอร์ย่อยซึ่งเป็นภาพหน้าจอของหน้าเว็บจากแหล่งข้อมูล

ข้อมูลที่รวบรวมจะลบสตริงตัวเลขมากกว่าหรือเท่ากับ 8 หลักสำหรับการ desensitization

ข้อมูลในแพ็คเกจบีบอัดนั้นจะถูกประมวลผลอย่างคร่าวๆเช่น HTML & XML ถึง TXT, CSV & TSV ถึง JSON ฯลฯ

การจัดทำดัชนีและการจำแนกประเภท

เราไม่มีความสามารถในการดำเนินการตรวจสอบลิขสิทธิ์ในแหล่งข้อมูล แม้ว่าชุดข้อมูลนี้จะมีข้อมูลแหล่งข้อมูลเพื่อให้การอัปเดตและดาวน์โหลดชุดข้อมูลที่ยาวนานและเพื่อหลีกเลี่ยงข้อพิพาทลิขสิทธิ์ชุดข้อมูลนี้ไม่ได้ให้การจัดทำดัชนีและการจำแนกข้อมูลในแพ็คเกจบีบอัด นอกจากนี้เรายังขอให้ทุกคนยับยั้งความปรารถนาที่จะแบ่งปันและไม่หารือเกี่ยวกับดัชนีของแพ็คเกจบีบอัดและข้อมูลเนื้อหาเฉพาะที่มีอยู่ในนั้น โปรดให้ความสำคัญกับการประยุกต์ใช้ Big Data Corpus เองและโปรดใช้ข้อมูลในลักษณะต่ำที่สำคัญ

กอด

ข้อมูลลับที่เสร็จสมบูรณ์โดยการทำความสะอาดจะถูกวางไว้ใน: https://huggingface.co/datasets/liwu/mnbvc

คนหนึ่งเดินเร็วทุกคนเดินไปไกล (เขย่าคนเพื่อเร่งความเร็วในการส่งอีเมล [email protected])

ผู้นำทีมของแต่ละทีมรายงานว่ามีงานมากมายเกี่ยวกับการทำความสะอาดข้อมูลและเทคโนโลยีจะถูกนำไปใช้อย่างช้าๆ ฉันหวังว่านักเรียนที่มีเวลามากจะมาช่วยและรู้วิธีใช้ Python และใครบางคนจะแนะนำคุณทีละขั้นตอน โปรดช่วยนักเรียนก่อนที่จะอ่านสามบรรทัดสีแดงของโครงการ

ทีม Transcoding OCR (บังคับโดย GPT4 ให้กลายเป็นกลุ่มคลังข้อมูลหลายรูปแบบที่มีภาพข้อความและเพิ่มการรวบรวม) ปัจจุบันมี 5 คนหายไป 5 คนหายไป 5 คน (จำเป็นต้องมีพื้นหลังในอัลกอริทึม CV และ NLP ฉันต้องการใช้ NLP
คำถามและคำตอบกลุ่มองค์กรปัจจุบันมี 3 คนหายไป 4 คนหายไป (ปัจจุบันทั้งหมดเป็นงานที่ทำงานหนักเพื่อเขียนรหัส Python เพื่อจัดเรียงรายการถาม - ตอบและตรวจสอบเนื้อมนุษย์ฉันต้องการใช้โมเดลอัลกอริทึมในการจัดตำแหน่งอัตโนมัติในภายหลัง)
ทีมปรับปรุงคอร์ปัสปัจจุบันมี 3 คนหายไป 2 คนหายไป (ฉันต้องการใช้ NLP เพื่อทำคลังคำที่ขาดหายไปและดำเนินการทดสอบคุณภาพข้อความ ฯลฯ )
Code Corpus Group และ Parallel Corpus Group ยังคงหายไปสองสามงาน (หัวหน้าทีมจะตัดสินใจว่าจะทำอย่างไรในภายหลัง)
กลุ่มวิจัยวรรณกรรมโบราณที่จะสร้าง (ศึกษาการแปลงรหัสพงศาวดารท้องถิ่นและหนังสือโบราณอื่น ๆ ด้วยคลังข้อมูลและความยากลำบากมากมาย)
กลุ่มทดสอบที่จะสร้าง (โปรดเข้าร่วมเพื่อนร่วมชั้นทดสอบเพื่อช่วยเราปรับปรุงคุณภาพของข้อมูลฉันหวังว่านักเรียนในกลุ่มนี้สามารถศึกษาโดยใช้ LLM เพื่อสร้างกรณีทดสอบและรหัสทดสอบโดยตรง)

แม้ว่าคุณจะไม่มีเวลาช่วยพัฒนาโครงการคุณสามารถเข้าร่วมในการก่อสร้างคลังข้อมูล MNBVC โดยการเข้าร่วมโครงการ (Corpus Energy Bomb) และอัปโหลดเอกสารคอร์ปัส

เครื่องมือทำความสะอาดคลังข้อมูลขนาดใหญ่ของจีน

เพื่อจัดการคลังภาษาจีนขนาดใหญ่นักเรียนจากทีมโครงการ MNBVC ได้เพิ่มประสิทธิภาพซอฟต์แวร์โอเพนซอร์สที่มีอยู่เพื่อให้ได้เวอร์ชันที่มีประสิทธิภาพมากขึ้น:

เครื่องมือตรวจจับการเข้ารหัสจีนที่เร็วขึ้นและแม่นยำ: charset_mnbvc
แปลง txt เป็น jsonl เป็นแบทช์และเลือกไฟล์ที่มีการทำซ้ำย่อหน้าสูง: deduplication_mnbvc
สุ่มตัวอย่างจำนวนไฟล์ตามคำหลักจากไดเรกทอรีหลายชั้นและรักษาโครงสร้างไดเรกทอรี: scan_copy_files_mnbvc
เครื่องมือตรวจสอบรูปแบบที่รวมรูปแบบ MNBVC Corpus: datacheck_mnbvc

เครื่องมือรวบรวมข้อมูลรหัสที่เก็บข้อมูล

มีปรากฏการณ์การกรองประดิษฐ์ที่ร้ายแรงในคลังข้อมูลโอเพนซอร์สที่มีอยู่หลายแห่งซึ่งทำให้ยากต่อการติดตาม Chatgpt เพื่อหลีกเลี่ยงการใช้แรงงานซ้ำให้จัดเตรียมรหัสตัวรวบรวมข้อมูลรหัสที่เก็บรหัสที่ได้รับการตรวจสอบในขนาดใหญ่โดย MNBVC

ข้อมูลการรวบรวมข้อมูลข้อมูลเมตา: publicrepos_mnbvc
รวบรวมข้อมูลเวอร์ชันล่าสุดของที่เก็บรหัส GitHub: GITHUB_DOWNLOADER_MNBVC
การรวบรวมข้อมูลที่เก็บรหัส Notabug: notabug_download_mnbvc
รวบรวมข้อมูลรหัส BitBucket: BitBucket_crawl_mnbvc
แปลงรหัสเป็น Corpus: githubcode_extractor_mnbvc
บันทึกการรวบรวมข้อมูล: get_github_commit_mnbvc

เครื่องมือการประมวลผลหลายรูปแบบ

เครื่องมือแยกข้อมูล META PDF: PDF_META_DATA_MNBVC
เครื่องมือการแยกวิเคราะห์ PDF เครื่องมือ: MMDP_MNBVC
รุ่นแรกของเครื่องมือ PDF ถึง TXT: PDF2TXT_MNBVC
เครื่องมือแยกวิเคราะห์เอกสาร arxiv: arxiv_mllm_mnbvc

รหัสทำความสะอาดต่างๆ

รหัสทำความสะอาด wikihow: wikihowqaextractor-mnbvc
กระทรวงการต่างประเทศจีนได้พูดถึงรหัสการทำความสะอาด: QA_WITH_REPORTERS_FROM_THE_MINISTRY_OF_FOREIGN_AFFAIR_MNBVC
รหัสการทำความสะอาดสำหรับปัญหาทางคณิตศาสตร์ต่าง ๆ : math_mnbvc
รหัสทำความสะอาด stackexchange: stackexchange_mnbvc
การทำความสะอาดรหัสสำหรับคลังขนาน: parallel_corpus_mnbvc
การทำความสะอาดรหัสของกระดาษทดสอบ: สอบถาม-ธนาคาร-เดซิเนต-ZH_MNBVC
การทำความสะอาดรหัสของเครือข่ายเอกสารการตัดสิน: MNBVC-Judgment
การทำความสะอาดรหัสสำหรับการฆ่าสคริปต์: MNBVC-PDF-Extract
รหัสทำความสะอาด doclaynet: doclaynetplus_mnbvc

อุปกรณ์อื่น ๆ

Crawler ของ Chinarxiv: chinaxivcrawler_mnbvc
แยกไฟล์จาก warc: warc_extractor_mnbvc
psyarxiv, chemrxiv, biorxiv, medrxiv crawler: xxarxiv_mnbvc

ข้อมูลการดาวน์โหลดของคอร์ปัส (แต่ละแพ็คเกจที่บีบอัดจะได้รับการอัปเดตด้วยความคืบหน้าการทำความสะอาด):

1. ซิงโครไนซ์แพ็คเก็ตที่บีบอัดทั้งหมดผ่าน P2P Micro Force และรับการอัปเดต ขอแนะนำให้ปิดการเจาะ TCP และการตั้งค่า Micro Force ของ UDP หากไม่ปิดการใช้งานไมโครแรงอาจปิดกั้นเราเตอร์ (และบางทีความเร็วในการส่งจะเร็วขึ้น)

ปุ่ม Micro-Power: B4MVPVJTK3DOOAOPVLJ3E7TA7RWW4J2ZEAXJRMRSRHSBPDB7OAFHUQ
ลิงค์โดยตรง Weili

2. ดาวน์โหลดผ่าน Baidu Netdisk: ลิงค์ดาวน์โหลด Baidu Netdisk สำหรับแต่ละแพ็คเกจบีบอัด

การอ้างอิง

โปรดอ้างอิง repo หากคุณใช้ข้อมูลหรือรหัสใน repo นี้

 @misc{mnbvc,
  author = {{MOP-LIWU Community} and {MNBVC Team}},
  title = {MNBVC: Massive Never-ending BT Vast Chinese corpus},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/esbatmop/MNBVC}},
}

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-04-15
ขนาด 490.26KB
มาจาก Github

แอปที่เกี่ยวข้อง

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด