MNBVCダウンロードMNBVCソースコードのダウンロード

MNBVC

その他のソースコード

1.0.0

ダウンロード

MNBVC（巨大な終わりのないBT広大な中国のコーパス）超大規模な中国のコーパス

データを収集して整理するのに時間がかかるように、私たちに報告しないでください。私たちは賞賛され殺されることを最も恐れています。あなたが私たちを目立たないなら、あなたは中国のアルゴリズムサークルに大きな貢献をしました！

2023.1.1に厳soleに発表された中国のインターネットで最も古く、最も神秘的な（何もない）モップLiwuコミュニティ：

賢明で強力なMaopu Guanziの指導の下、彼はコミュニティの強みに完全なプレーをすることを決意しています（すべてが良いです）。

MNBVCコーパスには、主流の文化だけでなく、さまざまなニッチ文化や火星文化からのデータも含まれています。 MNBVCデータセットには、ニュース、作曲、小説、本、雑誌、論文、行、投稿、ウィキ、古代の詩、歌詞、製品の紹介、ジョーク、恥ずかしいストーリー、チャットレコード、その他の純粋なテキストの中国語データが含まれます。すべてのデータはインターネットから収集されます。

スケジュール

現在の総データボリュームは42915GBで、目標はCHATGPT3.5の40Tデータに到達することであり、現在の進捗状況は107.2％です。

データの説明

圧縮パッケージのパスワードは253874です

圧縮パッケージの中国のコーパスには、TXT、JSON、JSONL、およびParquet（マルチモーダル専用）形式が含まれており、最終的にはJSONLおよびParquet形式に統一されます。

圧縮パッケージのルートディレクトリのlinks.txtには、各サブフォルダーデータソースのURLがあります。

各サブフォルダーにはPNG形式の画像があります。これは、データソースのWebページのスクリーンショットです。

収集されたデータは、脱感作のために8桁以上の桁の文字列を削除します。

圧縮パッケージのデータは、HTML＆XMLからTXT、CSV＆TSVからJSONなど、大まかに処理されます。

インデックス作成と分類

データソースで著作権監査を実施する機能はありません。このデータセットには、データセットの長期にわたる更新とダウンロードを提供し、著作権紛争を回避するためにデータソース情報が含まれていますが、このデータセットは圧縮パッケージのデータのインデックス作成と分類を提供しません。また、圧縮されたパッケージのインデックスとその中に含まれる特定のコンテンツ情報について議論しないように、共有したいという欲求を抑制するように全員に依頼します。ビッグデータコーパス自体の適用にもっと注意してください。控えめな方法でデータを使用してください。

ハギングフェイス

クリーニングによって完了した分類データは、https：//huggingface.co/datasets/liwu/mnbvcに配置されます。

1人が速く歩き、誰もが遠くに歩いています（電子メールを送信するために人を揺さぶる[email protected]）

各チームのチームリーダーは、データクリーニングには多くの作業があり、テクノロジーが少しゆっくりと実装されていると報告しました。多くの時間の学生が助けに来て、Pythonの使用方法を知っていることを願っています。生徒が最初にプロジェクトの3つの赤い線を読むのを手伝ってください。

OCRトランスコーディングチーム（GPT4によってテキスト絵画を含むマルチモーダルコーパスグループになり、コンピレーションが追加されたことを強制されています）、現在5人が行方不明になっています。5人が行方不明です（履歴書とNLPアルゴリズムの背景が必要です。
質問と回答のコーポレートグループ、現在3人が行方不明になり、4人が行方不明になっています（現在、すべてがQ＆Aアイテムを調整して人間の肉をチェックするためにPythonコードを書くのが勤勉です。アルゴリズムモデルを使用して自動アライメントを後で実行したいです）
現在3人が行方不明になっており、2人が行方不明になっています（NLPを使用して、不足している単語のコーパスを完成させ、テキスト品質のテストなどを実施したい）
コードコーパスグループとパラレルコーパスグループにはまだいくつかの雑用がありません（チームリーダーは後で何をすべきかを決定します）
建設される古代文学研究グループ（地元のクロニクルや他の古代の本のトランスコーディングを研究し、多くのコーパスと大きな困難を抱えています）
構築するテストグループ（テストクラスメートに参加してデータの品質を向上させるのに役立ちます。このグループの学生がLLMを使用して勉強してテストケースとテストコードを直接生成できることを願っています）

プロジェクトの開発を支援する時間がない場合でも、（コーパスエネルギー爆弾）プロジェクトに参加し、Corpusドキュメントを自由にアップロードすることにより、MNBVCコーパスの建設に参加できます。

中国の大型コーパスクリーニングツール

大規模な中国のコーパスを処理するために、MNBVCプロジェクトチームの学生は、既存のオープンソースソフトウェアを最適化して、より効率的なバージョンを提供しました。

高速かつ正確な中国のエンコード検出ツール：charset_mnbvc
TXTをバッチでJSONLに変換し、段落の繰り返しでファイルを選択します：deduplication_mnbvc
マルチレイヤーディレクトリからキーワードで一定数のファイルをサンプリングし、ディレクトリ構造を保存します：scan_copy_files_mnbvc
MNBVCコーパス形式を統合するフォーマットチェックツール：datacheck_mnbvc

コードリポジトリクローラーツール

さまざまな既存のオープンソースコードコーパスには深刻な人工フィルタリング現象があり、ChatGptに追いつくのがより困難になります。繰り返しの労働を避けるために、MNBVCによって大規模に検証されたコードリポジトリクローラーコードを提供します。

クロールGithubコードリポジトリメタ情報：publicRepos_mnbvc
githubコードリポジトリの最新バージョン：github_downloader_mnbvc
クロールnotabugコードリポジトリ：notabug_download_mnbvc
クロールビットバケットコードリポジトリ：bitbbucket_crawl_mnbvc
コードをコーパスに変換：githubcode_extractor_mnbvc
クロールコミットレコード：get_github_commit_mnbvc

マルチモーダル処理ツール

PDFメタ情報抽出ツール：PDF_META_DATA_MNBVC
PDF解析ルールツール：MMDP_MNBVC
PDFからTXTツールの最初のバージョン：PDF2TXT_MNBVC
ARXIVドキュメント解析ツール：ARXIV_MLLM_MNBVC

さまざまなクリーニングコード

wikihowクリーニングコード：wikihowqaextractor-mnbvc
中国外務省はクレンジングコードを話しました：QA_WITH_REPORTERS_FROM_THE_MINISTRY_OF_FOERIGN_AFFAIR_MNBVC
さまざまな数学の問題のクリーニングコード：math_mnbvc
stackexchangeクリーニングコード：stackexchange_mnbvc
パラレルコーパスのクリーニングコード：parallel_corpus_mnbvc
テストペーパーのクリーニングコード：Exam-Question-Bank-Dataset-Zh_Mnbvc
判断文書ネットワークのクリーニングコード：MNBVC-Judgment
スクリプトの殺害のためのクリーニングコード：MNBVC-PDF-Extrad
doclaynetクリーニングコード：doclaynetplus_mnbvc

他のガジェット

Chinarxivのクローラー：Chinaxivcrawler_mnbvc
warc：warc_extractor_mnbvcからファイルを抽出します
psyArxiv、chemrxiv、biorxiv、medrxiv crawler：xxarxiv_mnbvc

Corpusのダウンロード情報（各圧縮パッケージは、クリーニングの進行状況で更新されます）：

1. P2Pマイクロフォースを介してすべての圧縮パケットを同期し、更新を受信します。 TCP浸透とUDP伝送マイクロ力の設定をオフにすることをお勧めします。オフにしない場合、マイクロフォースはルーターをブロックする可能性があります（そして、おそらく伝送速度が高速です）

マイクロパワーキー：B4MVPVJTK3DOOAOPVLJ3E7TA7RWW4J2ZEAXJRMRSRHSBPDB7OAFHUQ
Weili Direct Link

2。バイドゥnetdisk経由でダウンロード：各圧縮パッケージのバイドゥnetdiskダウンロードリンクリンク

引用

このレポでデータまたはコードを使用する場合は、レポを引用してください。

 @misc{mnbvc,
  author = {{MOP-LIWU Community} and {MNBVC Team}},
  title = {MNBVC: Massive Never-ending BT Vast Chinese corpus},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/esbatmop/MNBVC}},
}

拡大する

追加情報