Descargar MNBVC - Descargar el código fuente MNBVC

MNBVC

Otro código fuente

1.0.0

Descargar

MNBVC (Corpus chino súper a gran escala masivo interminable de BT vast)

No nos informe, para que podamos tener más tiempo para recopilar y organizar datos. Tenemos más miedo de ser alabados y asesinados. Si nos mantiene un perfil bajo, ¡ha hecho grandes contribuciones al círculo de algoritmo chino!

La comunidad de liwu de trapeador más antigua y misteriosa (nada) en Internet chino anunció solemnemente el 2023.1.1:

Bajo la guía del sabio y poderoso Maopu Guanzi, está decidido a dar un juego completo a las fortalezas de la comunidad (todo es bueno) y ayudar a la comunidad de código abierto a actualizar la colección más grande de corpus de Internet chino durante mucho tiempo.

El Corpus MNBVC incluye no solo la cultura convencional, sino también datos de varias culturas de nicho e incluso culturas marcianas. El conjunto de datos MNBVC incluye noticias, composiciones, novelas, libros, revistas, documentos, líneas, publicaciones, wikis, poemas antiguos, letras, introducciones de productos, bromas, historias vergonzosas, registros de chat y otras formas de datos chinos de texto puro. Todos los datos se recopilan de Internet.

cronograma

El volumen total de datos actual es de 42915 GB, y el objetivo es alcanzar los datos 40T de ChatGPT3.5, con un progreso actual del 107.2%.

Descripción de los datos

La contraseña para el paquete comprimido es 253874

El corpus chino en el paquete comprimido incluye formatos TXT, JSON, JSONL y Parquet (multimodal dedicado), y eventualmente se unificarán en formatos JSONL y Parquet.

El enlace.txt en el directorio raíz del paquete comprimido tiene la URL de cada fuente de datos de subcarpeta.

Hay una imagen en formato PNG en cada subcarpeta, que es una captura de pantalla de la página web desde la fuente de datos.

Los datos recopilados eliminarán las cadenas de dígitos mayores o iguales a 8 dígitos para la desensibilización.

Los datos en el paquete comprimido solo se procesan aproximadamente, como HTML y XML a TXT, CSV y TSV a JSON, etc.

Indexación y clasificación

No tenemos la capacidad de realizar auditorías de derechos de autor en fuentes de datos. Aunque este conjunto de datos incluye información de fuente de datos, para proporcionar actualizaciones y descargas de larga duración del conjunto de datos, y para evitar disputas de derechos de autor, este conjunto de datos no proporciona indexación y clasificación de datos en el paquete comprimido. También pedimos a todos que restrinjan su deseo de compartir y no discutir el índice del paquete comprimido y la información de contenido específica contenida en él. Preste más atención a la aplicación del Big Data Corpus en sí, y utilice los datos de manera discreta.

cara de abrazo

Los datos clasificados completados por limpieza se colocarán en: https://huggingface.co/datasets/liwu/mnbvc

Una persona camina rápido, todos caminan lejos (sacude a las personas para acelerar el envío de correo electrónico [email protected])

Los líderes del equipo de cada equipo informaron que hay mucho trabajo en la limpieza de datos y la tecnología se implementa un poco lentamente. Espero que los estudiantes con mucho tiempo vengan a ayudar, y solo sepan cómo usar Python, y alguien lo guiará paso a paso. Ayude a los estudiantes a leer primero las tres líneas rojas del proyecto.

El equipo de transcodificación de OCR (forzado por GPT4 para convertirse en un grupo de corpus multimodal que contiene imágenes de texto, y se agregó la compilación), actualmente faltan 5 personas, 5 personas faltan (necesito tener antecedentes en los algoritmos CV y PNL. Quiero usar NLP para ayudar a la transcodificación de OCR, y tengo los líderes de equipo líderes en este campo en el campo para dirigir el equipo y la guía en el equipo y la guía).
PREGUNTA Y RESPUESTA GRUPO Corporativo, actualmente faltan 3 personas, no faltan 4 personas (actualmente, todas son trabajadores para escribir el código de Python para alinear los artículos de preguntas y respuestas y verificar la carne humana. Quiero usar el modelo de algoritmo para hacer una alineación automática más adelante)
Equipo de mejora del corpus, actualmente faltan 3 personas, faltan 2 personas (quiero usar PNL para completar el corpus de palabras faltantes y realizar pruebas de calidad de texto, etc.)
Al Code Corpus Group y el Parallel Corpus Group todavía les faltan algunas tareas (el líder del equipo decidirá qué hacer más adelante)
Grupo de investigación de literatura antigua que se construirá (estudiando la transcodificación de las crónicas locales y otros libros antiguos, con muchos corpus y gran dificultad)
Grupo de prueba que se construirá (únase a los compañeros de clase de prueba para ayudarnos a mejorar la calidad de los datos. Espero que los estudiantes de este grupo puedan estudiar utilizando LLM para generar directamente casos de prueba y códigos de prueba)

Incluso si no tiene tiempo para ayudar al proyecto a desarrollarse, puede participar en la construcción del Corpus MNBVC participando en el proyecto (Corpus Energy Bomb) y la carga de documentos corpus a voluntad.

Herramientas chinas de limpieza del cuerpo grande

Para manejar el corpus chino a gran escala, los estudiantes del equipo del proyecto MNBVC optimizaron el software de código abierto existente para proporcionar una versión más eficiente:

Herramienta de detección de codificación china más rápida y precisa: charset_mnbvc
Convierta txt en jsonl en lotes y elija archivos con alta repetición del párrafo: deduplication_mnbvc
Muestra un cierto número de archivos por palabra clave de un directorio de múltiples capas y preserva la estructura del directorio: scan_copy_files_mnbvc
Herramienta de verificación de formato que unifica el formato MNBVC Corpus: DACHECK_MNBVC

Herramienta de rastreador de repositorio de código

Existen fenómenos de filtrado artificial serios en varios corpuses existentes del código de código abierto, lo que hace que sea más difícil ponerse al día con ChatGPT. Para evitar la mano de obra repetida, proporcione código de rastreador de repositorio de código que MNBVC ha verificado a gran escala.

Crawl Github Code Repositorio Meta Información: publicRepos_MNBVC
Rastrear la última versión del repositorio de código GitHub: github_downloader_mnbvc
Repositorio de código Notabug Crawl: Notabug_download_mnbvc
Repositorio de código BitBucket Crawl: bitbucket_crawl_mnbvc
Convertir el código a corpus: githubcode_extractor_mnbvc
Registro de confirmación de Crawl: get_github_commit_mnbvc

Herramientas de procesamiento multimodal

Herramienta de extracción de información meta PDF: PDF_Meta_Data_MnBVC
Herramienta de reglas de análisis PDF: MMDP_MNBVC
La primera versión de la herramienta PDF a TXT: PDF2TXT_MNBVC
Herramienta de análisis de documentos ARXIV: ARXIV_MLLM_MNBVC

Varios códigos de limpieza

Código de limpieza de wikihow: wikihowqaextractor-mnbvc
Código de limpieza del Ministerio de Asuntos Exteriores de China: Qa_with_rePORTERS_FROM_The_Ministry_OF_Foreign_Affair_MNBVC
Códigos de limpieza para varios problemas matemáticos: MATH_MNBVC
Código de limpieza de stackexchange: stackexchange_mnbvc
Código de limpieza para el corpus paralelo: paralelo_corpus_mnbvc
Código de limpieza del documento de prueba: examen-question-bank-dataset-zh_mnbvc
Código de limpieza de la red de documentos de juicio: Judgmento MNBVC
Código de limpieza para la muerte de script: Mnbvc-PDF-Exact
Código de limpieza de DCLAYNET: DCLAYNETPLUS_MNBVC

Otros gadgets

Crawler de Chinarxiv: chinaxivcrawler_mnbvc
Extraer archivo de WARC: WARC_EXTROTOR_MNBVC
Psyarxiv, Chemrxiv, Biorxiv, Medrxiv Crawler: xxarxiv_mnbvc

Información de descarga del corpus (cada paquete comprimido se actualizará con el progreso de la limpieza):

1. Sincronice todos los paquetes comprimidos a través de P2P Micro Force y reciba actualizaciones. Se recomienda desactivar la penetración de TCP y la configuración de microforción de transmisión UDP. Si no se apaga, la microforción puede bloquear el enrutador (y tal vez la velocidad de transmisión es más rápida)

Clave de micro-potencia: B4MVPVJTK3DOOAOPVLJ3E7TA7RWW4J2ZEAXJRMRSRHSBPDB7OAFHUQ
Weili Direct Link

2. Descargar a través de Baidu NetDisk: Baidu NetDisk Descargar enlace para cada paquete comprimido

Citación

Cite el repositorio si usa los datos o el código en este repositorio.

 @misc{mnbvc,
  author = {{MOP-LIWU Community} and {MNBVC Team}},
  title = {MNBVC: Massive Never-ending BT Vast Chinese corpus},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/esbatmop/MNBVC}},
}

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-04-15
tamaño 490.26KB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo