Common Crawl의 중국어 부분을 청소함으로써 마침내 100GB의 고품질 고품질 중국의 미리 훈련 된 코퍼스를 얻었습니다. 실험에 의해 생성 된 모델은 다음과 같습니다. 고품질 중국 사전 훈련 된 모델, 대규모, 초소형 및 유사성 미리 훈련 된 모델.
자세한 내용은 기술 보고서 https://arxiv.org/pdf/2003.01355를 참조하십시오.

Google의 오리지널 중국 어휘와 우리가 게시 한 작은 어휘의 통계는 다음과 같습니다.
| 토큰 유형 | 단서 | |
|---|---|---|
| 단순화 된 중국어 | 11378 | 5689 |
| 전통적인 중국어 | 3264 | ✗ |
| 영어 | 3529 | 1320 |
| 일본어 | 573 | ✗ |
| 한국인 | 84 | ✗ |
| 이모티콘 | 56 | ✗ |
| 숫자 | 1179 | 140 |
| 특별한 토큰 | 106 | 106 |
| 다른 토큰 | 959 | 766 |
| 총 | 21128 | 8021 |
작은 데이터 세트를 사용하여 Bert-Base에 미치는 영향 비교 :
| 모델 | 어휘 | 데이터 | 단계 | AFQMC | tnews ' | iflytek ' | cmnli | avg |
|---|---|---|---|---|---|---|---|---|
| 버트베이스 | 위키 (1GB) | 125k | 69.93% | 54.77% | 57.54% | 75.64% | 64.47% | |
| 버트베이스 | C5 (1GB) | 125k | 69.63% | 55.72% | 58.87% | 75.75% | 64.99% | |
| 버트베이스 | 단서 | C5 (1GB) | 125k | 69.00% | 55.04% | 59.07% | 75.84% | 64.74% |
| 베르트-베이스 mm | C5 (1GB) | 125k | 69.57% | 55.17% | 59.69% | 75.86% | 65.07% | |
| 버트베이스 | C5 (1GB) | 375K | 69.85% | 55.97% | 59.62% | 76.41% | 65.46% | |
| 버트베이스 | 단서 | C5 (1GB) | 375K | 69.93% | 56.38% | 59.35% | 76.58% | 65.56% |
| 버트베이스 | C5 (3GB) | 375K | 70.22% | 56.41% | 59.58% | 76.70% | 65.73% | |
| 버트베이스 | 단서 | C5 (3GB) | 375K | 69.49% | 55.97% | 60.12% | 77.66% | 65.81% |
더 많은 실험 결과 및 분석은 다음을 참조하십시오 : cluepreatedmodels
응용 프로그램 방법 : 코퍼스 연구, 계획, 연구 기관 및 신청자 소개 사용의 목적과 목적은 이메일 주소로 전송되며 제 3 자에게 제공하지 않기로 약속합니다.
이메일 : [email protected], 제목은 : cluecorpus2020 200g 코퍼스입니다
언어 모델링, 사전 훈련 또는 생성 작업 등에 사용할 수 있습니다. 데이터 볼륨은 14G, 거의 4,000 개의 잘 정의 된 TXT 파일 및 50 억 단어를 초과합니다. 주요 부분은 NLP_CHINESE_CORPUS 프로젝트에서 비롯됩니다
현재 코퍼스는 [사전 훈련 형식]으로 처리되며 여러 폴더를 포함합니다. 각 폴더의 크기는 4m 이하의 작은 파일이 많으며 파일 형식은 사전 훈련 형식을 충족합니다. 문장 당 한 줄은 문서 간의 빈 줄로 분리됩니다.
다음과 같은 하위 코퍼스 (총 14g 코퍼스)를 포함합니다.
1. News Corpus News2016ZH_CORPUS : 8G 코퍼스는 총 2,000 개의 작은 파일로 두 개의 상단 및 하단으로 나뉩니다. 비밀번호 : MZLK
2. Community Interaction-Corpus WebText2019ZH_CORPUS : 3G 텍스트를 포함하는 3G 코퍼스 및 총 900 개 이상의 작은 파일. 비밀번호 : QVLQ
3. Wikipedia-Corpus wiki2019zh_corpus : 약 300 개의 작은 파일을 포함하는 약 1.1g 텍스트. 비밀번호 : XV7E
4. 의견 데이터 -Corpus Comment22019ZH_CORPUS : 약 2.3G의 텍스트, 547 개의 댓글 및 227 개의 Amazon 주석을 포함하여 총 784 개의 작은 파일, ChinesEnlpCorpus의 여러 댓글 데이터를 병합하고, 정리하고, 형식을 변환하고, 작은 파일로 분할하십시오. 비밀번호 : GC3M
문제를 제출하고 토론 그룹에 가입 할 수 있습니다 (QQ : 836811304).
또는 [email protected]으로 이메일을 보내십시오
Google의 Tensorflow Research Cloud (TFRC)의 Cloud TPU로 지원되는 연구
@article{CLUECorpus2020,
title={CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model},
author={Liang Xu and Xuanwei Zhang and Qianqian Dong},
journal={ArXiv},
year={2020},
volume={abs/2003.01355}
}
단서는 중국 자연 언어 처리에 전념하는 오픈 소스 조직입니다. 우리의 작업이 귀하의 연구 나 비즈니스에 도움이된다고 생각되면, 앞으로보다 유용한 오픈 소스 작업을 제공 할 수 있도록 후원을 받기를 바랍니다. 중국 자연 언어 처리의 발전과 진보에 최선을 다하겠습니다 ~
기증자 조직과 이름에 주목하십시오. 대단히 감사합니다!
| Alipay | |
|---|---|
![]() | ![]() |