MNBVC下載MNBVC源代碼下載

MNBVC

其他源碼

1.0.0

下載

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大規模中文語料集

請媒體朋友們不要報導我們，讓我們有更長久的時間可以收集整理數據。我們最怕捧殺了，您讓我們保持低調，就是對中文算法圈做了大的貢獻！

中文互聯網上最古老最神秘(沒有之一)的MOP里屋社區於2023.1.1莊重宣布:

在英明神武的貓撲管子帶領下，決心發揮社區所長(哪都長)，幫助開源社區長期更新一份最大的中文互聯網語料集

MNBVC語料集不但包括主流文化，也包括各個小眾文化甚至火星文的數據。 MNBVC數據集包括新聞、作文、小說、書籍、雜誌、論文、台詞、帖子、wiki、古詩、歌詞、商品介紹、笑話、糗事、聊天記錄等一切形式的純文本中文數據。數據均來源於互聯網收集。

進度

目前總數據量42915GB，目標是達到chatGPT3.5的40T數據，目前進度107.2%。

數據說明

壓縮包密碼為253874

壓縮包內中文語料包括txt、json、jsonl和parquet（多模態專用）格式，最終會統一到jsonl和parquet格式。

壓縮包根目錄的links.txt裡有每個子文件夾數據來源的url

每個子文件夾內有一張png格式的圖片，是數據來源的網頁截圖

收錄的數據將去掉大於等於8位的數字串進行脫敏

壓縮包內數據只做了粗加工,例如html&xml轉txt、csv&tsv轉json等

索引和分類

我們沒有能力對數據來源進行版權審核。雖然本數據集包括了數據來源信息，但為了長而持久的提供數據集的更新和下載，為了盡量避免版權爭議，本數據集不提供壓縮包內數據的索引和分類。並懇請大家克制住自己的分享欲，不要討論壓縮包的索引及所包含具體內容的信息。請大家更多的關注大數據量語料本身的應用，拜託大家低調的使用數據。

huggingface

清洗完成的分類數據將陸續放到：https://huggingface.co/datasets/liwu/MNBVC

一人行快，眾人行遠（搖人加速發送郵件[email protected]）

各個小組長反映，數據清洗的苦力代碼工作比較多，技術落地有點慢，希望有大量時間的同學來幫忙，會用python就行，有人手把手指導。請來幫忙的同學先閱讀項目的三條紅線。

OCR轉碼小組（被GPT4逼成了包含文字-圖片的多模態語料組，增加編制），目前5人，缺5人（需有CV、NLP算法背景，想用nlp輔助ocr轉碼，有業內此領域頂尖大佬帶隊指導）
問答語料小組，目前3人，缺4人（目前全是寫python代碼對齊問答項並人肉檢查的苦力活，後面想利用算法模型做自動對齊）
語料增強小組，目前3人，缺2人（想利用nlp補全缺字的語料，並進行文本質量檢測等）
代碼語料小組和平行語料小組還缺幾個打雜（後面由組長來決定到底幹嘛）
待建古文研究小組（研究地方誌等古籍的轉碼，語料很多，難度很大）
待建測試組（請測試同學加入，幫助我們提升數據質量，希望本組同學可以研究用llm直接生成測試用例和測試代碼）

即使沒空幫助項目做開發，也可以通過參加(語料元氣彈) 項目，隨手上傳語料文檔，來參與MNBVC語料集的建設。

中文大語料清洗工具

為處理大規模的中文語料，MNBVC項目組的同學在現有開源軟件基礎上做了優化，提供了更高效的版本:

更快速且準確的中文編碼檢測工具：charset_mnbvc
將txt批量轉成jsonl並挑出段落重複度高的文件：deduplication_mnbvc
從多層目錄中按關鍵詞采樣一定數量的文件並保留目錄結構：scan_copy_files_mnbvc
將MNBVC語料格式統一的格式檢查工具：DataCheck_MNBVC

代碼倉庫爬蟲工具

現有各個開源代碼語料集都有很嚴重的人為過濾現象，這讓追趕chatGPT變得更為困難。為避免重複勞動，提供經過MNBVC大規模驗證後的代碼倉庫爬蟲代碼。

爬取github代碼倉庫meta信息：publicRepos_mnbvc
爬取github代碼倉庫最新版本代碼：github_downloader_mnbvc
爬取notabug代碼倉庫：notabug_download_mnbvc
爬取bitbucket代碼倉庫：bitbucket_crawl_mnbvc
將代碼轉為語料：githubcode_extractor_mnbvc
爬取commit記錄：get_github_commit_mnbvc

多模態處理工具

PDF元信息抽取工具：pdf_meta_data_mnbvc
PDF解析規則工具：mmdp_mnbvc
第一版的pdf轉txt工具：pdf2txt_mnbvc
Arxiv文檔解析工具：Arxiv_mllm_mnbvc

各種清洗代碼

wikihow清洗代碼：WikiHowQAExtractor-mnbvc
中國外交部發言清洗代碼：QA_with_reporters_from_the_Ministry_of_Foreign_Affair_mnbvc
各類數學題清洗代碼：Math_mnbvc
stackexchange的清洗代碼：stackexchange_mnbvc
平行語料的清洗代碼：parallel_corpus_mnbvc
試卷的清洗代碼：Exam-Question-Bank-Dataset-zh_mnbvc
裁判文書網的清洗代碼：MNBVC-judgment
劇本殺的清洗代碼：MNBVC-pdf-extract
DocLayNet的清洗代碼：DocLayNetPlus_mnbvc

其他小工具

chinarxiv的爬蟲：chinaxivCrawler_mnbvc
從warc中提取文件：warc_extractor_mnbvc
psyarxiv、chemrxiv、biorxiv、medrxiv的爬蟲：xxarxiv_mnbvc

語料集下載信息(每個壓縮包都會隨著清洗進度更新):

1.通過p2p微力同步全部壓縮包並接收更新建議關閉tcp穿透、關閉udp傳輸的微力設置。如不關閉，微力有可能堵塞路由器（同時也許傳輸速度更快）

微力密鑰: B4MVPVJTK3DOOAOPVLJ3E7TA7RWW4J2ZEAXJRMRSRHSBPDB7OAFHUQ
微力直達鏈接

2.通過百度網盤下載：每個壓縮包的百度網盤下載鏈接

Citation

Please cite the repo if you use the data or code in this repo.

 @misc{mnbvc,
  author = {{MOP-LIWU Community} and {MNBVC Team}},
  title = {MNBVC: Massive Never-ending BT Vast Chinese corpus},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/esbatmop/MNBVC}},
}

展開

附加信息

版本 1.0.0
類型其他源碼
更新時間 2025-04-15
大小 490.26KB
來自於 Github

相關應用

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部