Die älteste und mysteriöseste (nichts) Mop Liwu -Community im chinesischen Internet wurde am 2023.1.1 feierlich angekündigt:
Unter der Anleitung des weisen und mächtigen Maopu -Guanzi ist er entschlossen, den Stärken der Community (alles gut) volles Spiel zu geben und der Open -Source -Community die größte Sammlung chinesischer Internetkorpus für lange Zeit zu aktualisieren
Das MNBVC -Korpus umfasst nicht nur die Mainstream -Kultur, sondern auch Daten aus verschiedenen Nischenkulturen und sogar Marskulturen. Der MNBVC -Datensatz enthält Nachrichten, Kompositionen, Romane, Bücher, Zeitschriften, Papiere, Linien, Beiträge, Wikis, alte Gedichte, Texte, Produkteinführungen, Witze, peinliche Geschichten, Chat -Aufzeichnungen und andere Formen der chinesischen Texte. Alle Daten werden aus dem Internet gesammelt.
Das aktuelle Gesamtdatenvolumen beträgt 42915 GB, und das Ziel ist es, 40T -Daten von ChatGPT3,5 mit einem aktuellen Fortschritt von 107,2%zu erreichen.
Das Passwort für das komprimierte Paket beträgt 253874
Das chinesische Korpus im komprimierten Paket umfasst TXT-, JSON-, JSONL- und Parquet -Formate (multimodal dedizierte) und wird schließlich in JSONL- und Parquet -Formate einheitlich.
Die Links.txt im Root -Verzeichnis des komprimierten Pakets hat die URL der einzelnen Datenquelle für Unterordner.
In jedem Unterordner befindet sich ein Bild im PNG -Format, bei dem es sich um einen Screenshot der Webseite aus der Datenquelle handelt.
Die gesammelten Daten entfernen die Ziffernstränge größer oder gleich 8 Ziffern zur Desensibilisierung.
Die Daten im komprimierten Paket werden nur grob verarbeitet, wie z. B. HTML & XML zu TXT, CSV & TSV an JSON usw.
Wir können keine Urheberrechtsaudits für Datenquellen durchführen. Obwohl dieser Datensatz Datenquelleninformationen enthält, um dauerhafte Updates und Downloads des Datensatzes bereitzustellen und um Urheberrechtsstreitigkeiten zu vermeiden, bietet dieser Datensatz keine Indizierung und Klassifizierung von Daten im komprimierten Paket. Wir bitten alle auch, seinen Wunsch, den Index des komprimierten Pakets und die darin enthaltenen spezifischen Inhaltsinformationen zu teilen und nicht zu diskutieren. Bitte beachten Sie mehr auf die Anwendung des Big Data Corpus selbst und verwenden Sie Daten auf geringe Kee.
Die durch Reinigung erfüllten klassifizierten Daten werden in: https://huggingface.co/datasets/liwu/mnbvc platziert
Die Teamleiter jedes Teams berichteten, dass es viel Arbeit an der Datenreinigung gibt und die Technologie etwas langsam implementiert ist. Ich hoffe, dass Schüler mit viel Zeit kommen, um zu helfen, und nur wissen, wie man Python benutzt, und jemand wird Sie Schritt für Schritt führen. Bitte helfen Sie den Schülern, zuerst die drei roten Linien des Projekts zu lesen.
Auch wenn Sie keine Zeit haben, das Projekt zu entwickeln, können Sie am Bau des MNBVC Corpus teilnehmen, indem Sie an dem Projekt (Corpus Energy Bomb) teilnehmen und Corpus -Dokumente nach Belieben hochladen.
Um das groß angelegte chinesische Korpus zu bewältigen, optimierten Studenten des MNBVC-Projektteams die vorhandene Open-Source-Software, um eine effizientere Version bereitzustellen:
In verschiedenen vorhandenen Open -Source -Code -Korpussen gibt es ernsthafte künstliche Filterphänomene, was es schwieriger macht, ChatGPT zu treffen. Um wiederholte Arbeitskräfte zu vermeiden, geben Sie Code -Repository -Crawler -Code an, der von MNBVC in großem Maßstab überprüft wurde.
1. Synchronisieren Sie alle komprimierten Pakete durch P2P -Mikrokraft und empfangen Sie Aktualisierungen. Es wird empfohlen, die TCP -Penetration und die UDP -Übertragungsmikrokrafteinstellungen auszuschalten. Wenn nicht ausgeschaltet, kann die Mikrokraft den Router blockieren (und möglicherweise ist die Übertragungsgeschwindigkeit schneller).
MICRO-Power-Schlüssel: B4MVPVJTK3DOOAOPVLJ3E7TA7RWW4J2ZEAXJRMRSRHSBPDB7OAFHUQ
Weili direkter Link
2. Download über Baidu NetDisk: Baidu NetDisk -Download -Link für jedes komprimierte Paket herunterladen
Bitte zitieren Sie das Repo, wenn Sie die Daten oder den Code in diesem Repo verwenden.
@misc{mnbvc,
author = {{MOP-LIWU Community} and {MNBVC Team}},
title = {MNBVC: Massive Never-ending BT Vast Chinese corpus},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/esbatmop/MNBVC}},
}