Komunitas Liwu tertua dan paling misterius (tidak ada) di internet Cina dengan sungguh -sungguh diumumkan pada 2023.1.1:
Di bawah bimbingan Maopu Guanzi yang bijak dan kuat, ia bertekad untuk memberikan permainan penuh pada kekuatan komunitas (semuanya baik) dan membantu komunitas open source memperbarui koleksi korpus internet Cina terbesar untuk waktu yang lama
Corpus MNBVC tidak hanya mencakup budaya arus utama, tetapi juga data dari berbagai budaya niche dan bahkan budaya Mars. Kumpulan data MNBVC mencakup berita, komposisi, novel, buku, majalah, makalah, baris, posting, wiki, puisi kuno, lirik, pengantar produk, lelucon, cerita memalukan, catatan obrolan dan bentuk lain dari data Cina murni data Cina. Semua data dikumpulkan dari internet.
Volume data total saat ini adalah 42915GB, dan tujuannya adalah untuk mencapai data 40T chatgpt3.5, dengan kemajuan saat ini 107,2%.
Kata sandi untuk paket terkompresi adalah 253874
Corpus Cina dalam paket terkompresi termasuk format TXT, JSON, JSONL dan PARQUET (Multimodal Dedicated), dan pada akhirnya akan disatukan ke dalam format JSONL dan Parket.
Links.txt di direktori root dari paket terkompresi memiliki URL dari setiap sumber data subfolder.
Ada gambar dalam format PNG di setiap subfolder, yang merupakan tangkapan layar dari halaman web dari sumber data.
Data yang dikumpulkan akan menghapus string digit yang lebih besar dari atau sama dengan 8 digit untuk desensitisasi.
Data dalam paket terkompresi hanya diproses secara kasar, seperti HTML & XML ke TXT, CSV & TSV ke JSON, dll.
Kami tidak memiliki kemampuan untuk melakukan audit hak cipta pada sumber data. Meskipun kumpulan data ini mencakup informasi sumber data, untuk memberikan pembaruan dan unduhan data yang tahan lama, dan untuk menghindari perselisihan hak cipta, kumpulan data ini tidak memberikan pengindeksan dan klasifikasi data dalam paket terkompresi. Kami juga meminta semua orang untuk menahan keinginan mereka untuk berbagi dan tidak membahas indeks paket terkompresi dan informasi konten spesifik yang terkandung di dalamnya. Harap lebih memperhatikan penerapan korpus data besar itu sendiri, dan silakan gunakan data dengan cara rendah.
Data rahasia yang diselesaikan dengan pembersihan akan ditempatkan di: https://huggingface.co/datasets/liwu/mnbvc
Para pemimpin tim dari masing -masing tim melaporkan bahwa ada banyak pekerjaan pembersihan data dan teknologinya sedikit diimplementasikan secara perlahan. Saya berharap bahwa siswa dengan banyak waktu akan datang untuk membantu, dan hanya tahu cara menggunakan Python, dan seseorang akan membimbing Anda langkah demi langkah. Tolong bantu siswa pertama kali membaca tiga garis merah proyek.
Bahkan jika Anda tidak punya waktu untuk membantu proyek berkembang, Anda dapat berpartisipasi dalam pembangunan MNBVC Corpus dengan berpartisipasi dalam proyek (Corpus Energy Bomb) dan mengunggah dokumen corpus sesuka hati.
Untuk menangani korpus Cina skala besar, siswa dari tim proyek MNBVC mengoptimalkan perangkat lunak open source yang ada untuk memberikan versi yang lebih efisien:
Ada fenomena penyaringan buatan yang serius dalam berbagai korpus kode sumber terbuka yang ada, yang membuatnya lebih sulit untuk mengejar ketinggalan dengan chatgpt. Untuk menghindari tenaga kerja berulang, berikan kode crawler repositori kode yang telah diverifikasi dalam skala besar oleh MNBVC.
1. Menyinkronkan semua paket terkompresi melalui gaya mikro P2P dan menerima pembaruan. Disarankan untuk mematikan penetrasi TCP dan pengaturan gaya mikro transmisi UDP. Jika tidak dimatikan, gaya mikro dapat memblokir router (dan mungkin kecepatan transmisi lebih cepat)
Kunci Mikro-Power: B4MVPVJTK3DOOAOPVLJ3E7TA7RWW4J2ZAAXJRMRSRHSBPDB7OAFHUQ
Tautan langsung Weili
2. Unduh via Baidu Netdisk: tautan unduhan Baidu Netdisk untuk setiap paket terkompresi
Harap kutip repo jika Anda menggunakan data atau kode dalam repo ini.
@misc{mnbvc,
author = {{MOP-LIWU Community} and {MNBVC Team}},
title = {MNBVC: Massive Never-ending BT Vast Chinese corpus},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/esbatmop/MNBVC}},
}