Китайское описание | Английский

В области обработки естественного языка предварительно обученные языковые модели (предварительно обученные языковые модели) стали очень важной основной технологией. Чтобы дополнительно продвигать исследование и разработки китайской обработки информации, мы выпустили китайскую предварительно обученную модель Bert-WWM на основе технологии маскировки целых слов, а также моделей, тесно связанных с этой технологией: Bert-WWM-EXT, Roberta-WWM-EXT, Roberta-WWM-Ext-Large, RBT3, RBTL3 и т. Д.
Этот проект основан на официальном Google Bert: https://github.com/google-research/bert
Китайский Лерт | Китайский английский pert | Китайский Макберт | Китайская электро | Китайский Xlnet | Китайский берт | Инструмент для дистилляции знаний TextBrewer | Модельный режущий инструмент текст
См. Больше ресурсов, выпущенных IFL из Технологического института Харбина (HFL): https://github.com/ymcui/hfl-anthology
2023/3/28 Китайская большая модель Llama & Alpaca, которая может быть быстро развернута и опыта на ПК, просмотр: https://github.com/ymcui/chinese-llama-alpaca
2023/3/9 Мы предлагаем мультимодальную предварительно обученную модель VLE в графике и тексте, просмотр: https://github.com/iflytek/vle
2022/11/15 Мы предлагаем китайскую небольшую предварительно обученную модель Minirbt. Просмотр: https://github.com/iflytek/minirbt
2022/10/29 Мы предлагаем предварительно обученную модель LERT, которая интегрирует лингвистическую информацию. Просмотр: https://github.com/ymcui/lert
2022/3/30 Мы открываем новую предварительно обученную модель pert. Просмотр: https://github.com/ymcui/pert
2021/10/24 Совместная лаборатория Iflytek выпустила предварительно обученную модель CINO для языков этнических меньшинств. Просмотр: https://github.com/ymcui/chinese-minority-plm
2021/7/21 «Обработка естественного языка: методы, основанные на моделях предварительных тренировок», написанные многими учеными из Харбинского технологического института Scir, и все могут его приобрести.
2021/1/27 Все модели поддерживают Tensorflow 2, пожалуйста, позвоните или загрузите его через библиотеку Transformers. https://huggingface.co/hfl
2020/9/15 Наша статья «Пересмотр предварительно обученных моделей для китайской обработки естественного языка» была нанята в качестве длинной статьи по выводам EMNLP.
2020/8/27 IFL Совместная лаборатория возглавила список в клей, общий естественный язык Понимание оценки, проверьте список клей, новости.
2020/3/23 Модель, выпущенная в этом каталоге, была подключена к Paddlepaddlehub для просмотра быстрой загрузки
2020/3/11, чтобы лучше понять потребности, вам предложено заполнить анкету, чтобы предоставить вам лучшие ресурсы.
2020.02.26 Iflytek
2020/1/20 Я желаю вам удачи в году крысы. На этот раз RBT3 и RBTL3 (3-слойный Roberta-WWM-EXT-BASE/BAGIN) были высвобождены для просмотра модели количества небольших параметров.
2019/12/19 Модель, опубликованная в этом каталоге
2019/10/14 Выпустите модель Roberta-WWM-EXT-Large, просмотреть китайскую модель скачать
2019/9/10 выпустить модель Roberta-WWM-EXT и просмотреть китайскую модель скачать
2019/7/30 предоставляет китайскую модель BERT-wwm-ext обученная более широкому общему корпусу (5,4B Word Count), просмотр загрузки китайской модели
Начальная версия 2019/620, модель может быть загружена через Google, и также был загружен внутренний облачный диск. Проверьте загрузку китайской модели
| глава | описывать |
|---|---|
| Введение | Введение в основные принципы Bert-WWM |
| Китайская модель скачать | Предоставляет адрес загрузки Bert-WWM |
| Быстрая загрузка | Как использовать трансформаторы и паддлхуб быстро загружать модели |
| Сравнение модели | Обеспечивает сравнение параметров модели в этом каталоге |
| Китайский базовый эффект системы | Перечислите некоторые эффекты базовых систем Китая |
| Модель количества небольших параметров | Перечислите эффекты модели количества малого параметра (3-слойный трансформатор) |
| Рекомендации для использования | Несколько предложений по использованию китайских предварительно обученных моделей предоставляются |
| Скачать английскую модель | Официальный адрес загрузки английского языка Google Bert-WWM |
| Часто задаваемые вопросы | Часто задаваемые вопросы и ответы |
| Цитировать | Технические отчеты в этом каталоге |
Маскирование всего слова (WWM) , временно переведенное как全词Mask или整词Mask , является обновленной версией BERT, выпущенной Google 31 мая 2019 года, которая в основном меняет стратегию генерации образцов обучения на оригинальной стадии предварительного обучения. Проще говоря, исходный метод сегментации слов на основе слов разделит полное слово на несколько подчинок. При создании тренировочных образцов эти разделенные подчинки будут случайным образом замаскированы. В全词Mask , если подвеска слова полного слова замаскирована, другие части того же слова замаскированы, то есть全词Mask .
Следует отметить, что маска здесь относится к обобщенной маске (замененной [маской]; поддерживать исходный словарь; случайным образом заменен другим словом) и не ограничивается случаем, когда слово заменяется на теге [MASK] . Для получения более подробных описаний и примеров, пожалуйста, обратитесь к: #4
Точно так же, поскольку Google официально выпустил BERT-base, Chinese , китайцы делятся на персонажей как гранулярность и не учитывает причастие китайского (CWS) в традиционном НЛП. Мы применили метод полной маски слов на китайском языке, использовал китайскую Википедию (включая упрощенную и традиционную китайскую) для обучения, и использовал LTP Института технологий Харбин в качестве инструмента сегментации слов, то есть все китайские иероглифы, которые составляют одно и то же слово , отображаются.
В следующем тексту показаны образцы генерации全词Mask . Примечание. Для простого понимания только случай замены тега [Маски] рассматривается в следующих примерах.
| иллюстрировать | Образец |
|---|---|
| Оригинальный текст | Используйте языковые модели, чтобы предсказать вероятность следующего слова. |
| Слово причастие текст | Используйте языковые модели, чтобы предсказать вероятность следующего слова. |
| Оригинальный ввод маски | Используйте тип языка [Маска], чтобы проверить про [маску] следующего слова Pro [Mask] ## Lity. |
| Полный ввод маски слов | Используйте язык [Маска] [Маска], чтобы [маска] [Маска] Следующее слово [Маска] [Маска]. |
Этот каталог в основном содержит базовые модели, поэтому мы не помечаем base слова в аббревиатуре модели. Для моделей других размеров отмечены соответствующие теги (например, большие).
BERT-large模型: 24-слойная, 1024 скрыта, 16 голов, параметры 330 мBERT-base模型: 12-слойная, 768 скрытая, 12 голов, 110 м. ПараметрыПримечание. Версия с открытым исходным кодом не содержит вес задач MLM; Если вам нужно выполнять задачи MLM, используйте дополнительные данные для вторичного предварительного тренировки (как и другие задачи вниз по течению).
| Модель аббревиатура | Материалы | Google скачать | Baidu NetDisk скачать |
|---|---|---|---|
RBT6, Chinese | Данные EXT [1] | - | Tensorflow (пароль hniy) |
RBT4, Chinese | Данные EXT [1] | - | Tensorflow (пароль SJPT) |
RBTL3, Chinese | Данные EXT [1] | Tensorflow Пирог | Tensorflow (пароль S6CU) |
RBT3, Chinese | Данные EXT [1] | Tensorflow Пирог | TensorFlow (пароль 5A57) |
RoBERTa-wwm-ext-large, Chinese | Данные EXT [1] | Tensorflow Пирог | Tensorflow (пароль dqqe) |
RoBERTa-wwm-ext, Chinese | Данные EXT [1] | Tensorflow Пирог | Tensorflow (пароль vybq) |
BERT-wwm-ext, Chinese | Данные EXT [1] | Tensorflow Пирог | Tensorflow (пароль wgnt) |
BERT-wwm, Chinese | Китайская вики | Tensorflow Пирог | Tensorflow (пароль QFH8) |
BERT-base, Chinese Google | Китайская вики | Google Cloud | - |
BERT-base, Multilingual Cased Google | Многоязычная вики | Google Cloud | - |
BERT-base, Multilingual Uncased Google | Многоязычная вики | Google Cloud | - |
[1] Данные EXT включают в себя: китайскую Википедию, другие энциклопедии, новости, вопросы и ответы и другие данные, с общим количеством слов, достигнутых 5,4 б.
Если вам нужна версия Pytorch,
1) Пожалуйста, преобразуйте его через сценарий конверсии, предоставленный трансформаторами.
2) или непосредственно скачать Pytorch через официальный веб -сайт Huggingface: https://huggingface.co/hfl
Метод загрузки: нажмите на любую модель, которую вы хотите загрузить → Выберите вкладку «Файлы и версии» → Загрузите соответствующий файл модели.
Рекомендуется использовать точки загрузки Baidu NetDisk в материковом Китае, и зарубежным пользователям рекомендуется использовать точки загрузки Google. Размер файла базовой модели составляет около 400 м . Взятие версии BERT-wwm, Chinese TensorFlow в качестве примера, после загрузки, распахните файл ZIP, чтобы получить:
chinese_wwm_L-12_H-768_A-12.zip
|- bert_model.ckpt # 模型权重
|- bert_model.meta # 模型meta信息
|- bert_model.index # 模型index信息
|- bert_config.json # 模型参数
|- vocab.txt # 词表
Среди них bert_config.json и vocab.txt точно такие же, как и оригинальная BERT-base, Chinese . Версия Pytorch содержит файлы pytorch_model.bin , bert_config.json и vocab.txt .
Полагаясь на библиотеку «Трансформеров», приведенные выше модели можно легко вызвать.
tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")
Примечание. Все модели в этом каталоге загружаются с использованием Berttokenizer и Bertmodel. Не используйте Robertatokenizer/Robertamodel!
Соответствующий список MODEL_NAME заключается в следующем:
| Название модели | Model_name |
|---|---|
| Роберта-WWM-Ext-Large | HFL/китайская-роберта-WWM-EXT-Large |
| Роберта-Вум-Экс | HFL/Китайский роберта-WWM-Ext |
| Bert-WWM-Ext | HFL/Китай-Берт-WWM-EXT |
| Берт-УВМ | HFL/CINKIN-BERT-WWM |
| RBT3 | HFL/RBT3 |
| RBTL3 | HFL/RBTL3 |
Полагаясь на PaddleHub, вы можете загрузить и установить модель только одной строкой кода, и более десяти строк кода могут выполнять такие задачи, как классификация текста, аннотация последовательности, понимание прочитанного и т. Д.
import paddlehub as hub
module = hub.Module(name=MODULE_NAME)
Соответствующий список MODULE_NAME заключается в следующем:
| Название модели | Module_name |
|---|---|
| Роберта-WWM-Ext-Large | Китайский роберта-WWM-Ext-Large |
| Роберта-Вум-Экс | Китайский роберта-WWM-Ext |
| Bert-WWM-Ext | Китайско-берт-WWM-Ext |
| Берт-УВМ | Китайско-берт-WWM |
| RBT3 | RBT3 |
| RBTL3 | RBTL3 |
Ниже приводится краткое изложение некоторых деталей модели, о которых все больше обеспокоены.
| - | Берт Google | Берт-УВМ | Bert-WWM-Ext | Роберта-Вум-Экс | Роберта-WWM-Ext-Large |
|---|---|---|---|---|---|
| Маскировка | Словесная | WWM [1] | WWM | WWM | WWM |
| Тип | база | база | база | база | Большой |
| Источник данных | Вики | Вики | Wiki+Ext [2] | Вики+доб | Вики+доб |
| Тренировочные жетоны # | 0,4b | 0,4b | 5,4B | 5,4B | 5,4B |
| Устройство | TPU POD V2 | TPU V3 | TPU V3 | TPU V3 | TPU POD V3-32 [3] |
| Учебные шаги | ? | 100K MAX128 +100K MAX512 | 1m max128 +400K MAX512 | 1m max512 | 2M MAX512 |
| Размер партии | ? | 2,560 / 384 | 2,560 / 384 | 384 | 512 |
| Оптимизатор | Адамв | ЯГНЕНОК | ЯГНЕНОК | Адамв | Адамв |
| Словарный запас | 21,128 | ~ Берт [4] | ~ Берт | ~ Берт | ~ Берт |
| Контрольная точка init | Случайный инициатор | ~ Берт | ~ Берт | ~ Берт | Случайный инициатор |
[1] WWM = маскирование целого слова
[2] ext = расширенные данные
[3] TPU POD V3-32 (512G HBM) эквивалентен 4 TPU V3 (128G HBM)
[4]~BERTозначает, что наследуют атрибуты оригинального китайского берта Google
Чтобы сравнить базовые эффекты, мы проверили его на следующих китайских наборах, включая задачи句子级и篇章级. Для BERT-wwm-ext , RoBERTa-wwm-ext и RoBERTa-wwm-ext-large мы не корректировали оптимальную скорость обучения , но непосредственно использовали оптимальный уровень обучения BERT-wwm .
Лучший уровень обучения:
| Модель | БЕРТ | ЭРНИ | БЕРТ-ВВМ* |
|---|---|---|---|
| CMRC 2018 | 3e-5 | 8e-5 | 3e-5 |
| DRCD | 3e-5 | 8e-5 | 3e-5 |
| CJRC | 4e-5 | 8e-5 | 4e-5 |
| Xnli | 3e-5 | 5e-5 | 3e-5 |
| Chnsenticorp | 2E-5 | 5e-5 | 2E-5 |
| LCQMC | 2E-5 | 3e-5 | 2E-5 |
| BQ Corpus | 3e-5 | 5e-5 | 3e-5 |
| Thucnews | 2E-5 | 5e-5 | 2E-5 |
*Представляет все модели серии WWM (Bert-WWM, Bert-WWM-Ext, Roberta-WWM-Ext, Roberta-WWM-Ext-Large)
Только некоторые результаты перечислены ниже. Пожалуйста, смотрите наш технический отчет для получения полных результатов.
Примечание. Чтобы обеспечить надежность результатов, для той же модели мы работаем 10 раз (различные случайные семена), чтобы сообщить о максимальных и средних значениях производительности модели (средние значения в скобках). Если ничего неожиданного не происходит, результат вашей работы должен быть в этом диапазоне.
В индикаторе оценки среднее значение представлено в скобках, а максимальное значение представлено вне скобок.
Набор данных CMRC 2018 - это китайские данные о понимании прочитанного машины, опубликованные Объединенной лабораторией Технологического института Харбина. Согласно данному вопросу, система должна извлечь фрагменты из главы в качестве ответа, в той же форме, что и команда. Индикаторы оценки: EM / F1
| Модель | Разработка набора | Тестовый набор | Вызов набор |
|---|---|---|---|
| БЕРТ | 65,5 (64,4) / 84,5 (84,0) | 70,0 (68,7) / 87,0 (86,3) | 18.6 (17,0) / 43,3 (41,3) |
| ЭРНИ | 65,4 (64,3) / 84,7 (84,2) | 69,4 (68,2) / 86,6 (86,1) | 19,6 (17,0) / 44,3 (42,8) |
| Берт-УВМ | 66,3 (65,0) / 85,6 (84,7) | 70,5 (69,1) / 87,4 (86,7) | 21,0 (19,3) / 47,0 (43,9) |
| Bert-WWM-Ext | 67,1 (65,6) / 85,7 (85,0) | 71,4 (70,0) / 87,7 (87,0) | 24.0 (20,0) / 47,3 (44,6) |
| Роберта-Вум-Экс | 67,4 (66,5) / 87,2 (86,5) | 72,6 (71,4) / 89,4 (88,8) | 26,2 (24,6) / 51,0 (49,1) |
| Роберта-WWM-Ext-Large | 68,5 (67,6) / 88,4 (87,9) | 74,2 (72,4) / 90,6 (90,0) | 31,5 (30,1) / 60,1 (57,5) |
Набор данных DRCD был выпущен Delta Research Institute, Тайвань, Китай. Его форма такая же, как команда, и является извлеченным набором данных по пониманию прочитанного, основанного на традиционном китайском языке. Поскольку традиционные китайские иероглифы удаляются из Эрни, не рекомендуется использовать Эрни (или преобразовать его в упрощенный китайский, а затем обрабатывать его) на традиционных китайских данных. Индикаторы оценки: EM / F1
| Модель | Разработка набора | Тестовый набор |
|---|---|---|
| БЕРТ | 83,1 (82,7) / 89,9 (89,6) | 82,2 (81,6) / 89,2 (88,8) |
| ЭРНИ | 73,2 (73,0) / 83,9 (83,8) | 71,9 (71,4) / 82,5 (82,3) |
| Берт-УВМ | 84,3 (83,4) / 90,5 (90,2) | 82,8 (81,8) / 89,7 (89,0) |
| Bert-WWM-Ext | 85,0 (84,5) / 91,2 (90,9) | 83,6 (83,0) / 90,4 (89,9) |
| Роберта-Вум-Экс | 86,6 (85,9) / 92,5 (92,2) | 85,6 (85,2) / 92,0 (91,7) |
| Роберта-WWM-Ext-Large | 89,6 (89,1) / 94,8 (94,4) | 89,6 (88,9) / 94,5 (94,1) |
Набор данных CJRC - это китайские данные о понимании прочитанного машины для судебной области, выпущенной Объединенной лабораторией Ифлитека. Следует отметить, что данные, используемые в эксперименте, не являются окончательными данными, опубликованными чиновником, и результаты предназначены только для справки. Индикаторы оценки: EM / F1
| Модель | Разработка набора | Тестовый набор |
|---|---|---|
| БЕРТ | 54,6 (54,0) / 75,4 (74,5) | 55,1 (54,1) / 75,2 (74,3) |
| ЭРНИ | 54,3 (53,9) / 75,3 (74,6) | 55,0 (53,9) / 75,0 (73,9) |
| Берт-УВМ | 54,7 (54,0) / 75,2 (74,8) | 55,1 (54,1) / 75,4 (74,4) |
| Bert-WWM-Ext | 55,6 (54,8) / 76,0 (75,3) | 55,6 (54,9) / 75,8 (75,0) |
| Роберта-Вум-Экс | 58,7 (57,6) / 79,1 (78,3) | 59,0 (57,8) / 79,0 (78,0) |
| Роберта-WWM-Ext-Large | 62,1 (61,1) / 82,4 (81,6) | 62,4 (61,4) / 82,2 (81,0) |
В задаче по выводу естественного языка мы принимаем данные XNLI , которые требуют, чтобы текст был разделен на три категории: entailment , neutral и contradictory . Индикатор оценки: точность
| Модель | Разработка набора | Тестовый набор |
|---|---|---|
| БЕРТ | 77,8 (77,4) | 77,8 (77,5) |
| ЭРНИ | 79,7 (79,4) | 78,6 (78,2) |
| Берт-УВМ | 79,0 (78,4) | 78,2 (78,0) |
| Bert-WWM-Ext | 79,4 (78,6) | 78,7 (78,3) |
| Роберта-Вум-Экс | 80,0 (79,2) | 78,8 (78,3) |
| Роберта-WWM-Ext-Large | 82,1 (81,3) | 81.2 (80,6) |
В задаче анализа настроений набор данных бинарной классификации эмоций Chnsenticorp. Индикатор оценки: точность
| Модель | Разработка набора | Тестовый набор |
|---|---|---|
| БЕРТ | 94,7 (94,3) | 95,0 (94,7) |
| ЭРНИ | 95,4 (94,8) | 95,4 (95,3) |
| Берт-УВМ | 95,1 (94,5) | 95,4 (95,0) |
| Bert-WWM-Ext | 95,4 (94,6) | 95,3 (94,7) |
| Роберта-Вум-Экс | 95,0 (94,6) | 95,6 (94,8) |
| Роберта-WWM-Ext-Large | 95,8 (94,9) | 95,8 (94,9) |
Следующие два набора данных должны классифицировать пару предложений, чтобы определить, одинакова ли семантика двух предложений (задача бинарной классификации).
LCQMC был выпущен Центром интеллектуальных компьютерных исследований Харбинского технологического института Технологической аспирантуры Шэньчжэнь. Индикатор оценки: точность
| Модель | Разработка набора | Тестовый набор |
|---|---|---|
| БЕРТ | 89,4 (88,4) | 86,9 (86,4) |
| ЭРНИ | 89,8 (89,6) | 87,2 (87,0) |
| Берт-УВМ | 89,4 (89,2) | 87,0 (86,8) |
| Bert-WWM-Ext | 89,6 (89,2) | 87,1 (86,6) |
| Роберта-Вум-Экс | 89,0 (88,7) | 86,4 (86,1) |
| Роберта-WWM-Ext-Large | 90,4 (90,0) | 87,0 (86,8) |
BQ Corpus выпускается в Центре интеллектуальных компьютерных исследований Харбинского технологического института в Шэньчжэне и является набором данных для банковской области. Индикатор оценки: точность
| Модель | Разработка набора | Тестовый набор |
|---|---|---|
| БЕРТ | 86,0 (85,5) | 84,8 (84,6) |
| ЭРНИ | 86,3 (85,5) | 85,0 (84,6) |
| Берт-УВМ | 86,1 (85,6) | 85,2 (84,9) |
| Bert-WWM-Ext | 86,4 (85,5) | 85,3 (84,8) |
| Роберта-Вум-Экс | 86,0 (85,4) | 85,0 (84,6) |
| Роберта-WWM-Ext-Large | 86,3 (85,7) | 85,8 (84,9) |
Для задач классификации текста на уровне главы мы выбрали Thucnews, новостной набор данных, выпущенный Лабораторией обработки естественного языка Университета Цинхуа. Мы принимаем один из подмножества и должны разделить новости на одну из 10 категорий. Индикатор оценки: точность
| Модель | Разработка набора | Тестовый набор |
|---|---|---|
| БЕРТ | 97,7 (97,4) | 97,8 (97,6) |
| ЭРНИ | 97,6 (97,3) | 97,5 (97,3) |
| Берт-УВМ | 98,0 (97,6) | 97,8 (97,6) |
| Bert-WWM-Ext | 97,7 (97,5) | 97,7 (97,5) |
| Роберта-Вум-Экс | 98,3 (97,9) | 97,7 (97,5) |
| Роберта-WWM-Ext-Large | 98,3 (97,7) | 97,8 (97,6) |
Ниже приведены экспериментальные результаты по нескольким задачам NLP, и только сравнение результатов тестового набора приведено в таблице.
| Модель | CMRC 2018 | DRCD | Xnli | CSC | LCQMC | Бк | средний | Параметр Количество |
|---|---|---|---|---|---|---|---|---|
| Роберта-WWM-Ext-Large | 74.2 / 90.6 | 89,6 / 94,5 | 81.2 | 95,8 | 87.0 | 85,8 | 87.335 | 325M |
| Роберта-Вум-Экс | 72,6 / 89,4 | 85,6 / 92,0 | 78.8 | 95,6 | 86.4 | 85,0 | 85,675 | 102 м |
| RBTL3 | 63,3 / 83,4 | 77,2 / 85,6 | 74.0 | 94.2 | 85,1 | 83,6 | 80.800 | 61 м (59,8%) |
| RBT3 | 62,2 / 81,8 | 75,0 / 83,9 | 72,3 | 92,8 | 85,1 | 83,3 | 79,550 | 38 м (37,3%) |
Сравнение относительных эффектов:
| Модель | CMRC 2018 | DRCD | Xnli | CSC | LCQMC | Бк | средний | Среднее классификация |
|---|---|---|---|---|---|---|---|---|
| Роберта-WWM-Ext-Large | 102,2% / 101,3% | 104,7% / 102,7% | 103,0% | 100,2% | 100,7% | 100,9% | 101,9% | 101,2% |
| Роберта-Вум-Экс | 100% / 100% | 100% / 100% | 100% | 100% | 100% | 100% | 100% | 100% |
| RBTL3 | 87,2% / 93,3% | 90,2% / 93,0% | 93,9% | 98,5% | 98,5% | 98,4% | 94,3% | 97,35% |
| RBT3 | 85,7% / 91,5% | 87,6% / 91,2% | 91,8% | 97,1% | 98,5% | 98,0% | 92,9% | 96,35% |
Добро пожаловать в китайскую небольшую предварительно обученную модель Minirbt с лучшими результатами: https://github.com/iflytek/minirbt
BERT или другие модели) и необходимо скорректировать в соответствии с целевой задачей.ERNIE сильно отличается от BERT / BERT-wwm , поэтому обязательно скорректируйте скорость обучения при использовании ERNIE (на основе вышеуказанных экспериментальных результатов, начальная скорость обучения, требуемое ERNIE , относительно высокая).BERT / BERT-wwm использует данные Википедии для обучения, они лучше для моделирования формальных текстов; В то время как ERNIE использует дополнительные сетевые данные, такие как Baidu Tieba и Zhi, которые имеют преимущества в моделировании неформальных текстов (таких как Weibo и т. Д.).BERT и BERT-wwm имеют лучшие результаты.BERT или BERT-wwm . Потому что мы обнаружили, что в списке словарного ERNIE почти нет традиционных китайцев. Чтобы облегчить всем загружать, принесите английскую модель BERT-large (wwm) официально выпущенную Google :
BERT-Large, Uncased (Whole Word Masking) : 24-слойный, 1024 скрытый, 16 голов, параметры 340 м
BERT-Large, Cased (Whole Word Masking) : 24-слойный, 1024 скрытый, 16 голов, параметры 340 м
В: Как использовать эту модель?
A: Как использовать китайский Bert, выпущенный Google, как использовать это. Текст не должен проходить сегментацию слов, а WWM влияет только на процесс предварительного обучения и не влияет на входные задачи.
В: Есть ли предоставленный код предварительного обучения?
A: К сожалению, я не могу предоставить соответствующий код. Вы можете обратиться к #10 и #13 для реализации.
В: Где загрузить определенный набор данных?
A: Пожалуйста, проверьте каталог data . README.md в каталоге задач указывает источник данных. Для защищенного авторским правом контента, пожалуйста, найдите самостоятельно или свяжитесь с исходным автором, чтобы получить данные.
В: Будут ли планируют выпустить большую модель? Например, версия Bert-Large-WWM?
A: Если мы получим лучшие результаты от эксперимента, мы рассмотрим возможность выпустить большую версию.
Q: Вы лжете! Не можете воспроизвести результат?
A: В нижнем задании мы приняли самую простую модель. Например, для классификационных задач мы напрямую используем run_classifier.py (предоставлено Google). Если среднее значение не может быть достигнуто, это означает, что в самом эксперименте есть ошибка. Пожалуйста, проверьте это внимательно. Существует много случайных факторов для наивысшего значения, и мы не можем гарантировать, что мы можем достичь наивысшего значения. Другой признанный фактор: уменьшение размера партии значительно снизит экспериментальный эффект. Для получения подробной информации, пожалуйста, обратитесь к соответствующему вопросу каталога BERT и XLNET.
В: Я получу лучшие результаты, чем вы!
A: Поздравляю.
В: Сколько времени нужно, чтобы тренироваться и какое оборудование он тренировался?
A: Обучение было завершено в версии Google TPU V3 (128G HBM). Обучение BERT-WWM занимает около 1,5 дня, в то время как BERT-WWM-EXT занимает несколько недель (больше данных используется для идентификации больше). Следует отметить, что на стадии предварительного обучения мы используем LAMB Optimizer (реализация версии TensorFlow). Этот оптимизатор имеет хорошую поддержку для больших партий. При тонкой настройке вниз по течению задач мы используем по умолчанию Bert по умолчанию AdamWeightDecayOptimizer .
В: Кто такой Эрни?
О: Модель Эрни в этом проекте, в частности, относится к Эрни, предложенному Байду, а не Эрни, опубликованным Университетом Цинхуа на ACL 2019.
Q: Эффект Bert-WWM не очень хорош во всех задачах
О: Цель этого проекта-предоставить исследователям диверсифицированные предварительно обученные модели, свободно выбирать Берта, Эрни или Берт-УВМ. Мы предоставляем только экспериментальные данные, и нам все еще приходится постоянно стараться изо всех сил в наших собственных задачах, чтобы сделать выводы. Еще одна модель, еще один выбор.
В: Почему некоторые наборы данных не пробовали?
A: Честно говоря, я не в настроении найти больше данных; 2) мне не нужно; 3) у меня нет денег;
В: Давайте кратко оценим эти модели
A: Каждый имеет свое внимание и свои сильные стороны. Исследование и разработка китайской обработки естественного языка требует совместных усилий от всех сторон.
Q: Как вы предсказываете следующую предварительную модель?
A: Может быть, это называется Зои. Зоя: встроения с нулевым выстрелом из языковой модели
В: Более подробная информация о модели RoBERTa-wwm-ext ?
О: Мы интегрируем преимущества Роберты и Берт-УВМ, чтобы сделать естественную комбинацию из них. Разница между моделями в этом каталоге заключается в следующем:
1) Используйте стратегию WWM для маскировки на стадии предварительного обучения (но без динамического маскировки)
2) просто отменить потерю предсказания следующего предложения (NSP)
3) Больше не используйте учебный режим MAX_LEN = 128, а затем MAX_LEN = 512, напрямую тренируйте MAX_LEN = 512
4) соответствующим образом продлить учебные этапы
Следует отметить, что эта модель не является оригинальной моделью Роберты, но является лишь моделью BERT, обученной аналогичным методам обучения Роберты, а именно, как Роберта, как Берт. Поэтому при использовании нисходящих задач и конвертации моделей, пожалуйста, обработайте их в Берте, а не в Роберте.
Если ресурсы или технологии в этом проекте полезны для вашей исследовательской работы, пожалуйста, обратитесь к следующей статье в статье.
@journal{cui-etal-2021-pretrain,
title={Pre-Training with Whole Word Masking for Chinese BERT},
author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
journal={IEEE Transactions on Audio, Speech and Language Processing},
year={2021},
url={https://ieeexplore.ieee.org/document/9599397},
doi={10.1109/TASLP.2021.3124365},
}
@inproceedings{cui-etal-2020-revisiting,
title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
author = "Cui, Yiming and
Che, Wanxiang and
Liu, Ting and
Qin, Bing and
Wang, Shijin and
Hu, Guoping",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
pages = "657--668",
}
Первый автор частично финансируется программой Google TPU Research Cloud Program.
Этот проект не является китайской моделью Bert-WWM, официально выпущенной Google. В то же время этот проект не является официальным продуктом Института технологий Харбина или iflytek. Экспериментальные результаты, представленные в техническом отчете, только показывают, что производительность в соответствии с конкретным набором данных и комбинацией гиперпараметрических данных не представляет характер каждой модели. Экспериментальные результаты могут измениться из -за случайных семян и вычислительных устройств. Контент в этом проекте предназначен только для технических исследований и не используется в качестве какой -либо заключительной основы. Пользователи могут использовать эту модель в любое время в рамках лицензии, но мы не несем ответственности за прямые или косвенные потери, вызванные использованием содержания проекта.
Добро пожаловать, чтобы следить за официальным официальным отчетом WeChat об Объединенной лаборатории Iflytek, чтобы узнать о последних технических тенденциях.

Если у вас есть какие -либо вопросы, пожалуйста, отправьте их в выпуске GitHub.