La comunidad de liwu de trapeador más antigua y misteriosa (nada) en Internet chino anunció solemnemente el 2023.1.1:
Bajo la guía del sabio y poderoso Maopu Guanzi, está decidido a dar un juego completo a las fortalezas de la comunidad (todo es bueno) y ayudar a la comunidad de código abierto a actualizar la colección más grande de corpus de Internet chino durante mucho tiempo.
El Corpus MNBVC incluye no solo la cultura convencional, sino también datos de varias culturas de nicho e incluso culturas marcianas. El conjunto de datos MNBVC incluye noticias, composiciones, novelas, libros, revistas, documentos, líneas, publicaciones, wikis, poemas antiguos, letras, introducciones de productos, bromas, historias vergonzosas, registros de chat y otras formas de datos chinos de texto puro. Todos los datos se recopilan de Internet.
El volumen total de datos actual es de 42915 GB, y el objetivo es alcanzar los datos 40T de ChatGPT3.5, con un progreso actual del 107.2%.
La contraseña para el paquete comprimido es 253874
El corpus chino en el paquete comprimido incluye formatos TXT, JSON, JSONL y Parquet (multimodal dedicado), y eventualmente se unificarán en formatos JSONL y Parquet.
El enlace.txt en el directorio raíz del paquete comprimido tiene la URL de cada fuente de datos de subcarpeta.
Hay una imagen en formato PNG en cada subcarpeta, que es una captura de pantalla de la página web desde la fuente de datos.
Los datos recopilados eliminarán las cadenas de dígitos mayores o iguales a 8 dígitos para la desensibilización.
Los datos en el paquete comprimido solo se procesan aproximadamente, como HTML y XML a TXT, CSV y TSV a JSON, etc.
No tenemos la capacidad de realizar auditorías de derechos de autor en fuentes de datos. Aunque este conjunto de datos incluye información de fuente de datos, para proporcionar actualizaciones y descargas de larga duración del conjunto de datos, y para evitar disputas de derechos de autor, este conjunto de datos no proporciona indexación y clasificación de datos en el paquete comprimido. También pedimos a todos que restrinjan su deseo de compartir y no discutir el índice del paquete comprimido y la información de contenido específica contenida en él. Preste más atención a la aplicación del Big Data Corpus en sí, y utilice los datos de manera discreta.
Los datos clasificados completados por limpieza se colocarán en: https://huggingface.co/datasets/liwu/mnbvc
Los líderes del equipo de cada equipo informaron que hay mucho trabajo en la limpieza de datos y la tecnología se implementa un poco lentamente. Espero que los estudiantes con mucho tiempo vengan a ayudar, y solo sepan cómo usar Python, y alguien lo guiará paso a paso. Ayude a los estudiantes a leer primero las tres líneas rojas del proyecto.
Incluso si no tiene tiempo para ayudar al proyecto a desarrollarse, puede participar en la construcción del Corpus MNBVC participando en el proyecto (Corpus Energy Bomb) y la carga de documentos corpus a voluntad.
Para manejar el corpus chino a gran escala, los estudiantes del equipo del proyecto MNBVC optimizaron el software de código abierto existente para proporcionar una versión más eficiente:
Existen fenómenos de filtrado artificial serios en varios corpuses existentes del código de código abierto, lo que hace que sea más difícil ponerse al día con ChatGPT. Para evitar la mano de obra repetida, proporcione código de rastreador de repositorio de código que MNBVC ha verificado a gran escala.
1. Sincronice todos los paquetes comprimidos a través de P2P Micro Force y reciba actualizaciones. Se recomienda desactivar la penetración de TCP y la configuración de microforción de transmisión UDP. Si no se apaga, la microforción puede bloquear el enrutador (y tal vez la velocidad de transmisión es más rápida)
Clave de micro-potencia: B4MVPVJTK3DOOAOPVLJ3E7TA7RWW4J2ZEAXJRMRSRHSBPDB7OAFHUQ
Weili Direct Link
2. Descargar a través de Baidu NetDisk: Baidu NetDisk Descargar enlace para cada paquete comprimido
Cite el repositorio si usa los datos o el código en este repositorio.
@misc{mnbvc,
author = {{MOP-LIWU Community} and {MNBVC Team}},
title = {MNBVC: Massive Never-ending BT Vast Chinese corpus},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/esbatmop/MNBVC}},
}