MNBVC -Download - MNBVC -Quellcode herunterladen

MNBVC

Anderer Quellcode

1.0.0

Herunterladen

MNBVC (massive, nie endende BT Weit chinesische Korpus) Super groß an

Bitte melden Sie uns nicht an uns, damit wir eine längere Zeit haben können, um Daten zu sammeln und zu organisieren. Wir haben am meisten Angst, gelobt und getötet zu werden. Wenn Sie uns niedrig halten, haben Sie großartige Beiträge zum chinesischen Algorithmuskreis geleistet!

Die älteste und mysteriöseste (nichts) Mop Liwu -Community im chinesischen Internet wurde am 2023.1.1 feierlich angekündigt:

Unter der Anleitung des weisen und mächtigen Maopu -Guanzi ist er entschlossen, den Stärken der Community (alles gut) volles Spiel zu geben und der Open -Source -Community die größte Sammlung chinesischer Internetkorpus für lange Zeit zu aktualisieren

Das MNBVC -Korpus umfasst nicht nur die Mainstream -Kultur, sondern auch Daten aus verschiedenen Nischenkulturen und sogar Marskulturen. Der MNBVC -Datensatz enthält Nachrichten, Kompositionen, Romane, Bücher, Zeitschriften, Papiere, Linien, Beiträge, Wikis, alte Gedichte, Texte, Produkteinführungen, Witze, peinliche Geschichten, Chat -Aufzeichnungen und andere Formen der chinesischen Texte. Alle Daten werden aus dem Internet gesammelt.

Zeitplan

Das aktuelle Gesamtdatenvolumen beträgt 42915 GB, und das Ziel ist es, 40T -Daten von ChatGPT3,5 mit einem aktuellen Fortschritt von 107,2%zu erreichen.

Datenbeschreibung

Das Passwort für das komprimierte Paket beträgt 253874

Das chinesische Korpus im komprimierten Paket umfasst TXT-, JSON-, JSONL- und Parquet -Formate (multimodal dedizierte) und wird schließlich in JSONL- und Parquet -Formate einheitlich.

Die Links.txt im Root -Verzeichnis des komprimierten Pakets hat die URL der einzelnen Datenquelle für Unterordner.

In jedem Unterordner befindet sich ein Bild im PNG -Format, bei dem es sich um einen Screenshot der Webseite aus der Datenquelle handelt.

Die gesammelten Daten entfernen die Ziffernstränge größer oder gleich 8 Ziffern zur Desensibilisierung.

Die Daten im komprimierten Paket werden nur grob verarbeitet, wie z. B. HTML & XML zu TXT, CSV & TSV an JSON usw.

Indizierung und Klassifizierung

Wir können keine Urheberrechtsaudits für Datenquellen durchführen. Obwohl dieser Datensatz Datenquelleninformationen enthält, um dauerhafte Updates und Downloads des Datensatzes bereitzustellen und um Urheberrechtsstreitigkeiten zu vermeiden, bietet dieser Datensatz keine Indizierung und Klassifizierung von Daten im komprimierten Paket. Wir bitten alle auch, seinen Wunsch, den Index des komprimierten Pakets und die darin enthaltenen spezifischen Inhaltsinformationen zu teilen und nicht zu diskutieren. Bitte beachten Sie mehr auf die Anwendung des Big Data Corpus selbst und verwenden Sie Daten auf geringe Kee.

Umarmung

Die durch Reinigung erfüllten klassifizierten Daten werden in: https://huggingface.co/datasets/liwu/mnbvc platziert

Eine Person geht schnell, jeder geht weit weg (schütteln Sie die Leute, um eine E -Mail -E -Mail [email protected] zu senden).

Die Teamleiter jedes Teams berichteten, dass es viel Arbeit an der Datenreinigung gibt und die Technologie etwas langsam implementiert ist. Ich hoffe, dass Schüler mit viel Zeit kommen, um zu helfen, und nur wissen, wie man Python benutzt, und jemand wird Sie Schritt für Schritt führen. Bitte helfen Sie den Schülern, zuerst die drei roten Linien des Projekts zu lesen.

OCR Transcoding-Team (gezwungen von GPT4, eine multimodale Korpusgruppe zu werden, die Textzahlen enthält, und die Zusammenstellung wurde hinzugefügt), derzeit fehlen 5 Personen, 5 Personen fehlen (müssen einen Hintergrund in CV- und NLP-Algorithmen haben. Ich möchte NLP verwenden, um OCR-Transkodien zu unterstützen.
Frage und Antwort -Unternehmensgruppe, derzeit fehlen 3 Personen, 4 Personen fehlen (derzeit sind alle fleißig, Python -Code zu schreiben, um Q & A -Elemente auszurichten und das menschliche Fleisch zu überprüfen. Ich möchte das Algorithmusmodell verwenden, um später automatische Ausrichtung durchzuführen)
Corpus Enhancement Team, derzeit fehlen 3 Personen, 2 Personen fehlen (ich möchte NLP verwenden, um den Korpus fehlender Wörter zu vervollständigen und Textqualitätstests usw. durchzuführen).
In der Code Corpus Group und der Parallel Corpus Group fehlen noch einige Aufgaben (dem Teamleiter entscheidet sich, was später zu tun ist)
Die Forschungsgruppe der alten Literatur zu bauen (Untersuchung der Transkodierung lokaler Chroniken und anderer alter Bücher, mit vielen Korpus und großen Schwierigkeiten)
Zu erstellende Testgruppe (Bitte schließen Sie sich den Testklassenkameraden an, um uns zu helfen, die Datenqualität zu verbessern. Ich hoffe, dass die Schüler in dieser Gruppe LLM verwenden können, um direkte Testfälle und Testcodes zu generieren).

Auch wenn Sie keine Zeit haben, das Projekt zu entwickeln, können Sie am Bau des MNBVC Corpus teilnehmen, indem Sie an dem Projekt (Corpus Energy Bomb) teilnehmen und Corpus -Dokumente nach Belieben hochladen.

Chinesische große Korpusreinigungswerkzeuge

Um das groß angelegte chinesische Korpus zu bewältigen, optimierten Studenten des MNBVC-Projektteams die vorhandene Open-Source-Software, um eine effizientere Version bereitzustellen:

Schnelleres und genaues chinesisches Codierungs -Erkennungswerkzeug: charset_mnbvc
Konvertieren Sie TXT in Stapel in JSONL und wählen Sie Dateien mit hoher Absatzwiederholung aus: Deduplication_MNBVC
Probieren Sie eine bestimmte Anzahl von Dateien nach Schlüsselwort aus einem mehrschichtigen Verzeichnis und erhalten Sie die Verzeichnisstruktur: scan_copy_files_mnbvc
Formatkontrollwerkzeug, das das MNBVC -Corpus -Format vereint: DataTheck_MNBVC

Code -Repository -Crawler -Tool

In verschiedenen vorhandenen Open -Source -Code -Korpussen gibt es ernsthafte künstliche Filterphänomene, was es schwieriger macht, ChatGPT zu treffen. Um wiederholte Arbeitskräfte zu vermeiden, geben Sie Code -Repository -Crawler -Code an, der von MNBVC in großem Maßstab überprüft wurde.

Crawl Github Code Repository Meta -Informationen: PublicRepos_Mnbvc
Kriechen Sie die neueste Version des GitHub -Code -Repositorys: GitHub_downloader_Mnbvc
CRABS Notabug Code Repository: Notabug_download_MNBVC
CRABL Bitbucket Code Repository: bitbucket_crawl_mnbvc
Konvertieren Sie den Code in Corpus: githubcode_extractor_mnbvc
CRABS -Commit -Datensatz: get_github_commit_mnbvc

Multimodale Verarbeitungswerkzeuge

PDF -Meta -Informationen Extraktion Tool: pdf_meta_data_mnbvc
PDF Parsing Rules Tool: MMDP_MNBVC
Die erste Version des PDF -to -TXT -Tools: PDF2TXT_MNBVC
ARXIV -Dokument -Parsen -Tool: ARXIV_MLLM_MNBVC

Verschiedene Reinigungscodes

WikiHow-Reinigungscode: WikiHowqaextractor-MNBVC
Chinesisches Außenministerium gesprochener Reinigungscode: qa_with_reporters_from_the_ministry_of_foreign_affair_mnbvc
Reinigungscodes für verschiedene mathematische Probleme: math_mnbvc
Stackexchange Reinigungscode: STACKEXCHANGE_MNBVC
Reinigungscode für Parallel Corpus: parallel_corpus_mnbvc
Reinigungscode des Testpapier
Reinigungscode des Urteilsdokumentnetzwerks: MNBVC-Urteilsvermögen
Reinigungscode für das Töten von Skripts: MNBVC-PDF-Extract
Doclaynet -Reinigungscode: DoclayNetplus_Mnbvc

Andere Geräte

Chinarxivs Crawler: Chinaxivcrawler_Mnbvc
Datei aus WARC extrahieren: WARC_EXTRACOR_MNBVC
Psyarxiv, chemrxiv, biorxiv, medrxiv crawler: xxarxiv_mnbvc

Corpus -Download -Informationen (jedes komprimierte Paket wird mit Reinigungsfortschritt aktualisiert):

1. Synchronisieren Sie alle komprimierten Pakete durch P2P -Mikrokraft und empfangen Sie Aktualisierungen. Es wird empfohlen, die TCP -Penetration und die UDP -Übertragungsmikrokrafteinstellungen auszuschalten. Wenn nicht ausgeschaltet, kann die Mikrokraft den Router blockieren (und möglicherweise ist die Übertragungsgeschwindigkeit schneller).

MICRO-Power-Schlüssel: B4MVPVJTK3DOOAOPVLJ3E7TA7RWW4J2ZEAXJRMRSRHSBPDB7OAFHUQ
Weili direkter Link

2. Download über Baidu NetDisk: Baidu NetDisk -Download -Link für jedes komprimierte Paket herunterladen

Zitat

Bitte zitieren Sie das Repo, wenn Sie die Daten oder den Code in diesem Repo verwenden.

 @misc{mnbvc,
  author = {{MOP-LIWU Community} and {MNBVC Team}},
  title = {MNBVC: Massive Never-ending BT Vast Chinese corpus},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/esbatmop/MNBVC}},
}

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-15
Größe 490.26KB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

MNBVC

MNBVC (massive, nie endende BT Weit chinesische Korpus) Super groß an

Bitte melden Sie uns nicht an uns, damit wir eine längere Zeit haben können, um Daten zu sammeln und zu organisieren. Wir haben am meisten Angst, gelobt und getötet zu werden. Wenn Sie uns niedrig halten, haben Sie großartige Beiträge zum chinesischen Algorithmuskreis geleistet!

Zeitplan

Datenbeschreibung

Indizierung und Klassifizierung

Umarmung

Eine Person geht schnell, jeder geht weit weg (schütteln Sie die Leute, um eine E -Mail -E -Mail [email protected] zu senden).

Chinesische große Korpusreinigungswerkzeuge

Code -Repository -Crawler -Tool

Multimodale Verarbeitungswerkzeuge

Verschiedene Reinigungscodes

Andere Geräte

Corpus -Download -Informationen (jedes komprimierte Paket wird mit Reinigungsfortschritt aktualisiert):

Zitat

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express