La communauté la plus ancienne et la plus mystérieuse (rien) Mop Liwu sur l'Internet chinois annoncé solennellement le 2023.1.1:
Sous la direction du sage et puissant Maopu Guanzi, il est déterminé à donner un jeu complet aux forces de la communauté (tout est bon) et à aider la communauté open source à mettre à jour la plus grande collection de corpus Internet chinois pendant longtemps
Le corpus MNBVC comprend non seulement la culture traditionnelle, mais aussi les données de diverses cultures de niche et même des cultures martiennes. L'ensemble de données MNBVC comprend des nouvelles, des compositions, des romans, des livres, des magazines, des papiers, des lignes, des publications, des wikis, des poèmes anciens, des paroles, des introductions de produits, des blagues, des histoires embarrassantes, des dossiers de chat et d'autres formes de données chinoises en texte pur. Toutes les données sont collectées sur Internet.
Le volume total actuel des données est de 42915 Go, et l'objectif est d'atteindre 40T de données de ChatGPT3.5, avec une progression actuelle de 107,2%.
Le mot de passe du package compressé est 253874
Le corpus chinois dans le package compressé comprend des formats TXT, JSON, JSONL et Parquet (dédiés multimodaux), et sera finalement unifié en formats JSONL et Parquet.
Le links.txt dans le répertoire racine du package compressé a l'URL de chaque source de données de sous-dossier.
Il y a une image au format PNG dans chaque sous-dossier, qui est une capture d'écran de la page Web à partir de la source de données.
Les données collectées élimineront les chaînes de chiffres supérieures ou égales à 8 chiffres pour la désensibilisation.
Les données du package compressé sont uniquement traitées, telles que HTML & XML à TXT, CSV & TSV à JSON, etc.
Nous n'avons pas la capacité de procéder à des audits du droit d'auteur sur les sources de données. Bien que cet ensemble de données comprenne des informations sur la source de données, afin de fournir des mises à jour et des téléchargements durables de l'ensemble de données, et pour éviter les litiges, cet ensemble de données ne fournit pas d'indexation et de classification des données dans le package compressé. Nous demandons également à chacun de restreindre son désir de partager et de ne pas discuter de l'indice du package compressé et des informations de contenu spécifiques qui y sont contenues. Veuillez accorder plus d'attention à l'application du Big Data Corpus lui-même et veuillez utiliser des données de manière discrète.
Les données classifiées terminées par nettoyage seront placées dans: https://huggingface.co/datasets/liwu/mnbvc
Les chefs d'équipe de chaque équipe ont indiqué qu'il y avait beaucoup de travail sur le nettoyage des données et que la technologie est mise en œuvre un peu lentement. J'espère que les étudiants avec beaucoup de temps viendront aider et savoir comment utiliser Python, et quelqu'un vous guidera pas à pas. Veuillez aider les étudiants à lire d'abord les trois lignes rouges du projet.
Même si vous n'avez pas le temps d'aider le projet à se développer, vous pouvez participer à la construction du corpus MNBVC en participant au projet (Corpus Energy Bomb) et en téléchargeant à volonté des documents de corpus.
Pour gérer le corpus chinois à grande échelle, des étudiants de l'équipe de projet MNBVC ont optimisé le logiciel open source existant pour fournir une version plus efficace:
Il existe de sérieux phénomènes de filtrage artificiel dans divers corpus de code open source existants, ce qui rend plus difficile de rattraper le chatppt. Pour éviter la main-d'œuvre répétée, fournissez un code de robot de référentiel de code qui a été vérifié à grande échelle par MNBVC.
1. Synchronisez tous les paquets compressés via P2P Micro Force et recevez des mises à jour. Il est recommandé de désactiver la pénétration TCP et les paramètres de micro-force de transmission UDP. S'il n'est pas désactivé, la micro-force peut bloquer le routeur (et peut-être que la vitesse de transmission est plus rapide)
Clé Micro-Power: B4MVPVJTK3DOOAOPVLJ3E7TA7RWW4J2ZEAXJRMRSRHSBPDB7OAFhuq
Lien direct weili
2. Télécharger via Baidu NetDisk: Baidu NetDisk Télécharger le lien pour chaque package compressé
Veuillez citer le dépôt si vous utilisez les données ou le code dans ce dépôt.
@misc{mnbvc,
author = {{MOP-LIWU Community} and {MNBVC Team}},
title = {MNBVC: Massive Never-ending BT Vast Chinese corpus},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/esbatmop/MNBVC}},
}