2023.1.1に厳soleに発表された中国のインターネットで最も古く、最も神秘的な(何もない)モップLiwuコミュニティ:
賢明で強力なMaopu Guanziの指導の下、彼はコミュニティの強みに完全なプレーをすることを決意しています(すべてが良いです)。
MNBVCコーパスには、主流の文化だけでなく、さまざまなニッチ文化や火星文化からのデータも含まれています。 MNBVCデータセットには、ニュース、作曲、小説、本、雑誌、論文、行、投稿、ウィキ、古代の詩、歌詞、製品の紹介、ジョーク、恥ずかしいストーリー、チャットレコード、その他の純粋なテキストの中国語データが含まれます。すべてのデータはインターネットから収集されます。
現在の総データボリュームは42915GBで、目標はCHATGPT3.5の40Tデータに到達することであり、現在の進捗状況は107.2%です。
圧縮パッケージのパスワードは253874です
圧縮パッケージの中国のコーパスには、TXT、JSON、JSONL、およびParquet(マルチモーダル専用)形式が含まれており、最終的にはJSONLおよびParquet形式に統一されます。
圧縮パッケージのルートディレクトリのlinks.txtには、各サブフォルダーデータソースのURLがあります。
各サブフォルダーにはPNG形式の画像があります。これは、データソースのWebページのスクリーンショットです。
収集されたデータは、脱感作のために8桁以上の桁の文字列を削除します。
圧縮パッケージのデータは、HTML&XMLからTXT、CSV&TSVからJSONなど、大まかに処理されます。
データソースで著作権監査を実施する機能はありません。このデータセットには、データセットの長期にわたる更新とダウンロードを提供し、著作権紛争を回避するためにデータソース情報が含まれていますが、このデータセットは圧縮パッケージのデータのインデックス作成と分類を提供しません。また、圧縮されたパッケージのインデックスとその中に含まれる特定のコンテンツ情報について議論しないように、共有したいという欲求を抑制するように全員に依頼します。ビッグデータコーパス自体の適用にもっと注意してください。控えめな方法でデータを使用してください。
クリーニングによって完了した分類データは、https://huggingface.co/datasets/liwu/mnbvcに配置されます。
各チームのチームリーダーは、データクリーニングには多くの作業があり、テクノロジーが少しゆっくりと実装されていると報告しました。多くの時間の学生が助けに来て、Pythonの使用方法を知っていることを願っています。生徒が最初にプロジェクトの3つの赤い線を読むのを手伝ってください。
プロジェクトの開発を支援する時間がない場合でも、(コーパスエネルギー爆弾)プロジェクトに参加し、Corpusドキュメントを自由にアップロードすることにより、MNBVCコーパスの建設に参加できます。
大規模な中国のコーパスを処理するために、MNBVCプロジェクトチームの学生は、既存のオープンソースソフトウェアを最適化して、より効率的なバージョンを提供しました。
さまざまな既存のオープンソースコードコーパスには深刻な人工フィルタリング現象があり、ChatGptに追いつくのがより困難になります。繰り返しの労働を避けるために、MNBVCによって大規模に検証されたコードリポジトリクローラーコードを提供します。
1. P2Pマイクロフォースを介してすべての圧縮パケットを同期し、更新を受信します。 TCP浸透とUDP伝送マイクロ力の設定をオフにすることをお勧めします。オフにしない場合、マイクロフォースはルーターをブロックする可能性があります(そして、おそらく伝送速度が高速です)
マイクロパワーキー:B4MVPVJTK3DOOAOPVLJ3E7TA7RWW4J2ZEAXJRMRSRHSBPDB7OAFHUQ
Weili Direct Link
2。バイドゥnetdisk経由でダウンロード:各圧縮パッケージのバイドゥnetdiskダウンロードリンクリンク
このレポでデータまたはコードを使用する場合は、レポを引用してください。
@misc{mnbvc,
author = {{MOP-LIWU Community} and {MNBVC Team}},
title = {MNBVC: Massive Never-ending BT Vast Chinese corpus},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/esbatmop/MNBVC}},
}