Ao limpar a parte chinesa do rastreamento comum, finalmente obtivemos 100 GB de corpus pré-treinado chinês de alta qualidade. Os modelos produzidos pelo experimento são mostrados em: modelos pré-treinados chineses de alta qualidade, modelos grandes, ultra-pequenos e pré-treinados.
Para mais detalhes, consulte nosso relatório técnico https://arxiv.org/pdf/2003.01355

As estatísticas do vocabulário chinês original do Google e do pequeno vocabulário que publicamos são os seguintes:
| Tipo de token | DICA | |
|---|---|---|
| Chinês simplificado | 11378 | 5689 |
| Chinês tradicional | 3264 | ✗ |
| Inglês | 3529 | 1320 |
| japonês | 573 | ✗ |
| coreano | 84 | ✗ |
| Emoji | 56 | ✗ |
| Números | 1179 | 140 |
| Tokens especiais | 106 | 106 |
| Outros tokens | 959 | 766 |
| Total | 21128 | 8021 |
Comparação de efeitos na Bert-Base usando pequenos conjuntos de dados:
| Modelo | Vocab | Dados | Passos | AFQMC | Tnews ' | Iflytek ' | Cmnli | Avg |
|---|---|---|---|---|---|---|---|---|
| Bert-base | Wiki (1 GB) | 125K | 69,93% | 54,77% | 57,54% | 75,64% | 64,47% | |
| Bert-base | C5 (1 GB) | 125K | 69,63% | 55,72% | 58,87% | 75,75% | 64,99% | |
| Bert-base | DICA | C5 (1 GB) | 125K | 69,00% | 55,04% | 59,07% | 75,84% | 64,74% |
| Bert-base mm | C5 (1 GB) | 125K | 69,57% | 55,17% | 59,69% | 75,86% | 65,07% | |
| Bert-base | C5 (1 GB) | 375k | 69,85% | 55,97% | 59,62% | 76,41% | 65,46% | |
| Bert-base | DICA | C5 (1 GB) | 375k | 69,93% | 56,38% | 59,35% | 76,58% | 65,56% |
| Bert-base | C5 (3 GB) | 375k | 70,22% | 56,41% | 59,58% | 76,70% | 65,73% | |
| Bert-base | DICA | C5 (3 GB) | 375k | 69,49% | 55,97% | 60,12% | 77,66% | 65,81% |
Para obter resultados e análises mais experimentais, consulte: CluePreteredenModels
Método de aplicação: o objetivo e o objetivo de usar pesquisas corpus, planos, instituições de pesquisa e introduções de candidatos serão enviadas ao endereço de email e prometidas a não fornecê -lo a terceiros.
E -mail: [email protected], o título é: cluecorpus2020 200g corpus
Ele pode ser usado para modelagem de idiomas, tarefas pré-treinamento ou generativas, etc. O volume de dados excede 14G, quase 4.000 arquivos TXT bem definidos e 5 bilhões de palavras. A parte principal vem do projeto NLP_CHINESE_CORPUS
O corpus atual é processado em [formato de pré-treinamento] e contém várias pastas; Cada pasta possui muitos arquivos pequenos não mais que 4m de tamanho, e o formato de arquivo atende ao formato de pré-treinamento: uma linha por frase, separada por linhas em branco entre os documentos.
Contém o seguinte sub-corpus (14G corpus no total):
1. NEWS CORPUS NEWS2016ZH_CORPUS: 8G Corpus, dividido em duas partes superior e inferior, com um total de 2.000 arquivos pequenos. Senha: mzlk
2. WebText2019zh_corpus: corpus 3G, contendo texto 3G e um total de mais de 900 arquivos pequenos. Senha: qvlq
3. Wikipedia-corpus wiki2019zh_corpus: cerca de 1,1g de texto, contendo cerca de 300 arquivos pequenos. Senha: xv7e
4. Dados de comentar - Corpus Comentários2019ZH_CORPUS: Texto em torno de 2.3g, um total de 784 arquivos pequenos, incluindo 547 comentários e 227 comentários da Amazon, mesclará vários dados de comentários de ChinesenlpCorpus, limpo, converter formatos e divididos em arquivos pequenos. Senha: GC3M
Você pode enviar um problema e ingressar no grupo de discussão (QQ: 836811304)
Ou envie um e -mail para [email protected]
Pesquisas suportadas com TPUs em nuvem da Cloud de pesquisa TensorFlow do Google (TFRC)
@article{CLUECorpus2020,
title={CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model},
author={Liang Xu and Xuanwei Zhang and Qianqian Dong},
journal={ArXiv},
year={2020},
volume={abs/2003.01355}
}
A pista é uma organização de código aberto dedicado ao processamento de linguagem natural chinês. Se você acha que nosso trabalho é útil para o seu estudo ou negócio, espera obter seu patrocínio para que possamos fornecer a você um trabalho de código aberto mais útil no futuro. Vamos fazer o possível para o desenvolvimento e progresso do processamento de linguagem natural chinês ~
Observe a organização e o nome do doador, muito obrigado!
| Alipay | |
|---|---|
![]() | ![]() |