Téléchargement MNBVC - Téléchargement du code source MNBVC

MNBVC

Autre code source

1.0.0

Télécharger

MNBVC (Corpus chinois BT massif sans fin) Corpus chinois super à grande échelle

Veuillez ne pas nous faire rapport, afin que nous puissions avoir plus de temps pour collecter et organiser des données. Nous avons le plus peur d'être loués et tués. Si vous nous gardez un profil bas, vous avez apporté de grandes contributions au cercle de l'algorithme chinois!

La communauté la plus ancienne et la plus mystérieuse (rien) Mop Liwu sur l'Internet chinois annoncé solennellement le 2023.1.1:

Sous la direction du sage et puissant Maopu Guanzi, il est déterminé à donner un jeu complet aux forces de la communauté (tout est bon) et à aider la communauté open source à mettre à jour la plus grande collection de corpus Internet chinois pendant longtemps

Le corpus MNBVC comprend non seulement la culture traditionnelle, mais aussi les données de diverses cultures de niche et même des cultures martiennes. L'ensemble de données MNBVC comprend des nouvelles, des compositions, des romans, des livres, des magazines, des papiers, des lignes, des publications, des wikis, des poèmes anciens, des paroles, des introductions de produits, des blagues, des histoires embarrassantes, des dossiers de chat et d'autres formes de données chinoises en texte pur. Toutes les données sont collectées sur Internet.

calendrier

Le volume total actuel des données est de 42915 Go, et l'objectif est d'atteindre 40T de données de ChatGPT3.5, avec une progression actuelle de 107,2%.

Description des données

Le mot de passe du package compressé est 253874

Le corpus chinois dans le package compressé comprend des formats TXT, JSON, JSONL et Parquet (dédiés multimodaux), et sera finalement unifié en formats JSONL et Parquet.

Le links.txt dans le répertoire racine du package compressé a l'URL de chaque source de données de sous-dossier.

Il y a une image au format PNG dans chaque sous-dossier, qui est une capture d'écran de la page Web à partir de la source de données.

Les données collectées élimineront les chaînes de chiffres supérieures ou égales à 8 chiffres pour la désensibilisation.

Les données du package compressé sont uniquement traitées, telles que HTML & XML à TXT, CSV & TSV à JSON, etc.

Indexation et classification

Nous n'avons pas la capacité de procéder à des audits du droit d'auteur sur les sources de données. Bien que cet ensemble de données comprenne des informations sur la source de données, afin de fournir des mises à jour et des téléchargements durables de l'ensemble de données, et pour éviter les litiges, cet ensemble de données ne fournit pas d'indexation et de classification des données dans le package compressé. Nous demandons également à chacun de restreindre son désir de partager et de ne pas discuter de l'indice du package compressé et des informations de contenu spécifiques qui y sont contenues. Veuillez accorder plus d'attention à l'application du Big Data Corpus lui-même et veuillez utiliser des données de manière discrète.

étreinte

Les données classifiées terminées par nettoyage seront placées dans: https://huggingface.co/datasets/liwu/mnbvc

Une personne marche rapidement, tout le monde marche loin (secouer les gens pour accélérer l'envoi de courriels [email protected])

Les chefs d'équipe de chaque équipe ont indiqué qu'il y avait beaucoup de travail sur le nettoyage des données et que la technologie est mise en œuvre un peu lentement. J'espère que les étudiants avec beaucoup de temps viendront aider et savoir comment utiliser Python, et quelqu'un vous guidera pas à pas. Veuillez aider les étudiants à lire d'abord les trois lignes rouges du projet.

Équipe de transcodage OCR (forcé par GPT4 à devenir un groupe de corpus multimodal contenant des images de texte, et la compilation a été ajoutée), actuellement 5 personnes sont manquées, 5 personnes sont manquées (besoin d'avoir une formation en algorithmes CV et NLP.
Question et réponse Group d'entreprise, actuellement 3 personnes sont portées disparues, 4 personnes sont portées disparues (actuellement, tous sont travailleurs pour écrire du code Python pour aligner les articles de questions-réponses et vérifier la chair humaine. Je veux utiliser le modèle d'algorithme pour faire l'alignement automatique plus tard)
Équipe d'amélioration du corpus, actuellement 3 personnes manquent, 2 personnes sont portées disparues (je veux utiliser la PNL pour compléter le corpus des mots manquants et effectuer des tests de qualité de texte, etc.)
Le Code Corpus Group et le Parallel Corpus Group manquent encore quelques tâches (le chef d'équipe décidera quoi faire plus tard)
Group de recherche de la littérature antique à construire (étudiant le transcodage des chroniques locales et d'autres livres anciens, avec de nombreux corpus et beaucoup de difficulté)
Groupe de test à construire (veuillez rejoindre les camarades de test pour nous aider à améliorer la qualité des données. J'espère que les étudiants de ce groupe pourront étudier à l'aide de LLM pour générer directement des cas de test et des codes de test)

Même si vous n'avez pas le temps d'aider le projet à se développer, vous pouvez participer à la construction du corpus MNBVC en participant au projet (Corpus Energy Bomb) et en téléchargeant à volonté des documents de corpus.

Outils de nettoyage chinois de gros corpus

Pour gérer le corpus chinois à grande échelle, des étudiants de l'équipe de projet MNBVC ont optimisé le logiciel open source existant pour fournir une version plus efficace:

Outil de détection de codage chinois plus rapide et précis: Charset_mnbvc
Convertir TXT en JSONL en lots et choisir des fichiers avec une répétition de paragraphe élevé: Deduplication_Mnbvc
Exemple un certain nombre de fichiers par mot-clé à partir d'un répertoire multicouche et préserver la structure du répertoire: scan_copy_files_mnbvc
Outil de vérification du format qui unifie le format MNBVC Corpus: datacheck_mnbvc

Outil de robot de référentiel de code

Il existe de sérieux phénomènes de filtrage artificiel dans divers corpus de code open source existants, ce qui rend plus difficile de rattraper le chatppt. Pour éviter la main-d'œuvre répétée, fournissez un code de robot de référentiel de code qui a été vérifié à grande échelle par MNBVC.

Crawl Github Code Repository Meta Information: PublicRepos_Mnbvc
Crawl la dernière version du référentiel de code github: github_downloader_mnbvc
Crawl Notabug Code Repository: notabug_download_mnbvc
Crawl Bitbucket Code Repository: Bitbucket_Crawl_Mnbvc
Convertir le code en corpus: githubcode_extractor_mnbvc
Crawl Enregistrement de la validation: get_github_commit_mnbvc

Outils de traitement multimodal

PDF Meta Information Extraction Tool: PDF_META_DATA_MNBVC
Outil de règles d'analyse PDF: MMDP_MNBVC
La première version de l'outil PDF à TXT: PDF2TXT_MNBVC
Outil d'analyse du document Arxiv: arxiv_mllm_mnbvc

Divers codes de nettoyage

Code de nettoyage de WikiHow: WikiHowqaExtractor-Mnbvc
Ministère chinois des affaires étrangères Code de nettoyage de la parole: QA_WITH_REPORTERS_FROM_THE_MINICTY_OF_FOREIgn_affair_mnbvc
Codes de nettoyage pour divers problèmes mathématiques: math_mnbvc
Code de nettoyage de StacKExchange: stackexchange_mnbvc
Code de nettoyage pour le corpus parallèle: parallel_corpus_mnbvc
Code de nettoyage du document de test: examen-question-banc-dataset-zh_mnbvc
Code de nettoyage du réseau de documents de jugement: MNBVC-Judgment
Code de nettoyage pour la mise à mort des scripts: mnbvc-pdf-Extract
Doclaynet Cleaning Code: DocLaynetPlus_Mnbvc

Autres gadgets

Crawler de Chinarxiv: Chinaxivcrawler_mnbvc
Extraire le fichier de WARC: WARC_EXTRATOR_MNBVC
PsyarXiv, ChemrXiv, Biorxiv, Medrxiv Crawler: xxarxiv_mnbvc

Informations sur le téléchargement du corpus (chaque package compressé sera mis à jour avec le nettoyage des progrès):

1. Synchronisez tous les paquets compressés via P2P Micro Force et recevez des mises à jour. Il est recommandé de désactiver la pénétration TCP et les paramètres de micro-force de transmission UDP. S'il n'est pas désactivé, la micro-force peut bloquer le routeur (et peut-être que la vitesse de transmission est plus rapide)

Clé Micro-Power: B4MVPVJTK3DOOAOPVLJ3E7TA7RWW4J2ZEAXJRMRSRHSBPDB7OAFhuq
Lien direct weili

2. Télécharger via Baidu NetDisk: Baidu NetDisk Télécharger le lien pour chaque package compressé

Citation

Veuillez citer le dépôt si vous utilisez les données ou le code dans ce dépôt.

 @misc{mnbvc,
  author = {{MOP-LIWU Community} and {MNBVC Team}},
  title = {MNBVC: Massive Never-ending BT Vast Chinese corpus},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/esbatmop/MNBVC}},
}

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-04-15
taille 490.26KB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout