A comunidade Liwu mais antiga e misteriosa (nada) da Internet chinesa anunciou solenemente em 2023.1.1:
Sob a orientação do sábio e poderoso Maopu Guanzi, ele está determinado a dar um jogo completo aos pontos fortes da comunidade (tudo é bom) e ajudar a comunidade de código aberto a atualizar a maior coleção de corpus da Internet chinesa por um longo tempo
O corpus MNBVC inclui não apenas a cultura convencional, mas também dados de várias culturas de nicho e até culturas marcianas. O conjunto de dados do MNBVC inclui notícias, composições, romances, livros, revistas, papéis, linhas, postagens, wikis, poemas antigos, letras, apresentações de produtos, piadas, histórias embaraçosas, registros de bate -papo e outras formas de dados chineses de texto puro. Todos os dados são coletados na Internet.
O volume total de dados atual é de 42915 GB, e o objetivo é atingir dados de 40T do ChatGPT3.5, com um progresso atual de 107,2%.
A senha do pacote compactado é 253874
O corpus chinês no pacote comprimido inclui formatos TXT, JSON, JSONL e Parquet (dedicados multimodais) e acabará sendo unificado nos formatos JSONL e Parquet.
O links.txt no diretório raiz do pacote compactado possui o URL de cada fonte de dados da subpasta.
Há uma imagem no formato PNG em cada subpasta, que é uma captura de tela da página da web da fonte de dados.
Os dados coletados removerão seqüências de dígitos maiores ou iguais a 8 dígitos para dessensibilização.
Os dados no pacote compactado são processados apenas aproximadamente, como HTML & XML para TXT, CSV & TSV para JSON, etc.
Não temos a capacidade de realizar auditorias de direitos autorais em fontes de dados. Embora esse conjunto de dados inclua informações de fonte de dados, para fornecer atualizações e downloads de longa duração do conjunto de dados e para evitar disputas de direitos autorais, esse conjunto de dados não fornece indexação e classificação de dados no pacote compactado. Também pedimos a todos que restrinjam seu desejo de compartilhar e não discutir o índice do pacote comprimido e as informações específicas do conteúdo contidas nele. Por favor, preste mais atenção à aplicação do próprio corpus de big data e use dados de maneira discreta.
Os dados classificados concluídos pela limpeza serão colocados em: https://huggingface.co/datasets/liwu/mnbvc
Os líderes da equipe de cada equipe relataram que há muito trabalho na limpeza de dados e a tecnologia é implementada um pouco lentamente. Espero que os alunos com muito tempo cheguem para ajudar e apenas saibam usar o Python, e alguém o guiará passo a passo. Ajude os alunos a ler primeiro as três linhas vermelhas do projeto.
Mesmo que você não tenha tempo para ajudar o projeto a se desenvolver, poderá participar da construção do corpus MNBVC participando do projeto (Corpus Energy Bomb) e enviando documentos de corpus à vontade.
Para lidar com o corpus chinês em larga escala, os estudantes da equipe do projeto MNBVC otimizaram o software de código aberto existente para fornecer uma versão mais eficiente:
Existem fenômenos de filtragem artificial sérios em vários corpus de código de código aberto existentes, o que dificulta o acompanhamento do ChatGPT. Para evitar mão -de -obra repetida, forneça código de rastreador de repositório de código que foi verificado em larga escala pelo MNBVC.
1. Sincronize todos os pacotes compactados através da Micro Force P2P e receba atualizações. Recomenda -se desativar as configurações de penetração do TCP e Micro Force de transmissão UDP. Se não estiver desligado, a micro força pode bloquear o roteador (e talvez a velocidade de transmissão seja mais rápida)
Chave de micro-potência: B4MVPVJTK3DOOAOPVLJ3E7TA7RWW4J2ZEAXJRMRSRHSBPDB7OAFHUQ
Link direto weili
2. Download via Baidu NetDisk: Baidu NetDisk Download Link para cada pacote compactado
Cite o repositório se você usar os dados ou código neste repositório.
@misc{mnbvc,
author = {{MOP-LIWU Community} and {MNBVC Team}},
title = {MNBVC: Massive Never-ending BT Vast Chinese corpus},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/esbatmop/MNBVC}},
}