Учитывая китайскую часть общего ползания, мы наконец получили 100 ГБ высококачественного предварительно обученного корпуса Китая. Модели, произведенные экспериментом, показаны в: высококачественные предварительно обученные китайские модели, крупные, сверхмальями и сходства, предварительно обученные моделям.
Для получения дополнительной информации, пожалуйста, обратитесь к нашему техническому отчету https://arxiv.org/pdf/2003.01355

Статистика оригинального китайского словаря Google и небольшого словаря, которую мы опубликовали следующие:
| Тип токена | ЗАЦЕПКА | |
|---|---|---|
| Упрощенные китайцы | 11378 | 5689 |
| Традиционный китайский | 3264 | ✗ |
| Английский | 3529 | 1320 |
| Японский | 573 | ✗ |
| корейский | 84 | ✗ |
| Эмодзи | 56 | ✗ |
| Числа | 1179 | 140 |
| Особые токены | 106 | 106 |
| Другие жетоны | 959 | 766 |
| Общий | 21128 | 8021 |
Сравнение влияния на BERT-базу с использованием небольших наборов данных:
| Модель | Слока | Данные | Шаги | AFQMC | Tnews ' | Iflytek ' | Cmnli | Ав |
|---|---|---|---|---|---|---|---|---|
| Берт-баз | Вики (1 ГБ) | 125K | 69,93% | 54,77% | 57,54% | 75,64% | 64,47% | |
| Берт-баз | C5 (1 ГБ) | 125K | 69,63% | 55,72% | 58,87% | 75,75% | 64,99% | |
| Берт-баз | ЗАЦЕПКА | C5 (1 ГБ) | 125K | 69,00% | 55,04% | 59,07% | 75,84% | 64,74% |
| BERT-баз MM | C5 (1 ГБ) | 125K | 69,57% | 55,17% | 59,69% | 75,86% | 65,07% | |
| Берт-баз | C5 (1 ГБ) | 375K | 69,85% | 55,97% | 59,62% | 76,41% | 65,46% | |
| Берт-баз | ЗАЦЕПКА | C5 (1 ГБ) | 375K | 69,93% | 56,38% | 59,35% | 76,58% | 65,56% |
| Берт-баз | C5 (3 ГБ) | 375K | 70,22% | 56,41% | 59,58% | 76,70% | 65,73% | |
| Берт-баз | ЗАЦЕПКА | C5 (3 ГБ) | 375K | 69,49% | 55,97% | 60,12% | 77,66% | 65,81% |
Для получения дополнительных экспериментальных результатов и анализа, пожалуйста, см.
Метод применения: цель и цель использования исследований, планов, исследовательских учреждений и введения заявителей будут отправлены на адрес электронной почты и пообещали не предоставлять его третьим сторонам.
Электронная почта: [email protected], название: cluecorpus2020 200g corpus
Его можно использовать для языкового моделирования, предварительного обучения или генеративных задач и т. Д. Объем данных превышает 14G, почти 4000 четко определенных файлов TXT и 5 миллиардов слов. Основная часть происходит от проекта NLP_CHINESE_CORPUS
Текущий корпус обрабатывается в [формате до тренировки] и содержит несколько папок; Каждая папка имеет много небольших файлов размера не более 4 м, а формат файла соответствует формату предварительного обучения: одна строка на предложение, разделенное пустыми линиями между документами.
Содержит следующий субклам (всего 14G Corpus):
1. News Corpus News2016ZH_CORPUS: 8G CORPUS, разделенное на две верхние и нижние части, в общей сложности 2000 небольших файлов. Пароль: MZLK
2. Сообщество взаимодействие-корпус WebText2019ZH_CORPUS: 3G Corpus, содержащий текст 3G, и в общей сложности более 900 небольших файлов. Пароль: QVLQ
3. Wikipedia-Corpus wiki2019zh_corpus: около 1,1 г текста, содержащий около 300 небольших файлов. Пароль: xv7e
4. Комментарий Данные - Корпус Комментарии2019ZH_CORPUS: Текст около 2,3 г, в общей сложности 784 небольших файла, включая 547 комментариев и 227 комментариев Amazon, объедините данные с несколькими комментариями из ChinesenlpCorpus, Clean, Convert Formats и разделены на небольшие файлы. Пароль: GC3M
Вы можете подать вопрос и присоединиться к дискуссионной группе (QQ: 836811304)
Или отправьте электронное письмо на [email protected]
Исследования, поддерживаемые облачными TPU из Google Tensorflow Research Cloud (TFRC)
@article{CLUECorpus2020,
title={CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model},
author={Liang Xu and Xuanwei Zhang and Qianqian Dong},
journal={ArXiv},
year={2020},
volume={abs/2003.01355}
}
Подсказка - это организация с открытым исходным кодом, посвященную китайской обработке естественного языка. Если вы думаете, что наша работа полезна для вашего обучения или бизнеса, вы надеетесь получить свое спонсорство, чтобы мы могли предоставить вам более полезную работу с открытым исходным кодом в будущем. Давайте сделаем все возможное для развития и прогресса китайской обработки естественного языка ~
Обратите внимание на организацию и имя донора, большое спасибо!
| Алипай | |
|---|---|
![]() | ![]() |