中文互聯網上最古老最神秘(沒有之一)的MOP里屋社區於2023.1.1莊重宣布:
在英明神武的貓撲管子帶領下,決心發揮社區所長(哪都長),幫助開源社區長期更新一份最大的中文互聯網語料集
MNBVC語料集不但包括主流文化,也包括各個小眾文化甚至火星文的數據。 MNBVC數據集包括新聞、作文、小說、書籍、雜誌、論文、台詞、帖子、wiki、古詩、歌詞、商品介紹、笑話、糗事、聊天記錄等一切形式的純文本中文數據。數據均來源於互聯網收集。
目前總數據量42915GB,目標是達到chatGPT3.5的40T數據,目前進度107.2%。
壓縮包密碼為253874
壓縮包內中文語料包括txt、json、jsonl和parquet(多模態專用)格式,最終會統一到jsonl和parquet格式。
壓縮包根目錄的links.txt裡有每個子文件夾數據來源的url
每個子文件夾內有一張png格式的圖片,是數據來源的網頁截圖
收錄的數據將去掉大於等於8位的數字串進行脫敏
壓縮包內數據只做了粗加工,例如html&xml轉txt、csv&tsv轉json等
我們沒有能力對數據來源進行版權審核。雖然本數據集包括了數據來源信息,但為了長而持久的提供數據集的更新和下載,為了盡量避免版權爭議,本數據集不提供壓縮包內數據的索引和分類。並懇請大家克制住自己的分享欲,不要討論壓縮包的索引及所包含具體內容的信息。請大家更多的關注大數據量語料本身的應用,拜託大家低調的使用數據。
清洗完成的分類數據將陸續放到:https://huggingface.co/datasets/liwu/MNBVC
各個小組長反映,數據清洗的苦力代碼工作比較多,技術落地有點慢,希望有大量時間的同學來幫忙,會用python就行,有人手把手指導。請來幫忙的同學先閱讀項目的三條紅線。
即使沒空幫助項目做開發,也可以通過參加(語料元氣彈) 項目,隨手上傳語料文檔,來參與MNBVC語料集的建設。
為處理大規模的中文語料,MNBVC項目組的同學在現有開源軟件基礎上做了優化,提供了更高效的版本:
現有各個開源代碼語料集都有很嚴重的人為過濾現象,這讓追趕chatGPT變得更為困難。為避免重複勞動,提供經過MNBVC大規模驗證後的代碼倉庫爬蟲代碼。
1.通過p2p微力同步全部壓縮包並接收更新建議關閉tcp穿透、關閉udp傳輸的微力設置。如不關閉,微力有可能堵塞路由器(同時也許傳輸速度更快)
微力密鑰: B4MVPVJTK3DOOAOPVLJ3E7TA7RWW4J2ZEAXJRMRSRHSBPDB7OAFHUQ
微力直達鏈接
2.通過百度網盤下載:每個壓縮包的百度網盤下載鏈接
Please cite the repo if you use the data or code in this repo.
@misc{mnbvc,
author = {{MOP-LIWU Community} and {MNBVC Team}},
title = {MNBVC: Massive Never-ending BT Vast Chinese corpus},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/esbatmop/MNBVC}},
}