Загрузить Chinese BERT wwm - Загрузка исходного кода Chinese BERT wwm

Chinese BERT wwm

Другой исходный код

1.0.0

Скачать

Версия Китая-Лама-Альпака-2 v1.0 была официально выпущена!

Китайское описание | Английский

В области обработки естественного языка предварительно обученные языковые модели (предварительно обученные языковые модели) стали очень важной основной технологией. Чтобы дополнительно продвигать исследование и разработки китайской обработки информации, мы выпустили китайскую предварительно обученную модель Bert-WWM на основе технологии маскировки целых слов, а также моделей, тесно связанных с этой технологией: Bert-WWM-EXT, Roberta-WWM-EXT, Roberta-WWM-Ext-Large, RBT3, RBTL3 и т. Д.

Предварительная тренировка с целым словом маскируется для китайского берта
Yiming Cui, Wanxiang Cha, Ting Liu, Bing Qin, Ziqing Yang
Опубликовано в транзакциях IEEE/ACM по аудио, речи и языковой обработке (TASLP)

Этот проект основан на официальном Google Bert: https://github.com/google-research/bert

См. Больше ресурсов, выпущенных IFL из Технологического института Харбина (HFL): https://github.com/ymcui/hfl-anthology

новости

2023/3/28 Китайская большая модель Llama & Alpaca, которая может быть быстро развернута и опыта на ПК, просмотр: https://github.com/ymcui/chinese-llama-alpaca

2023/3/9 Мы предлагаем мультимодальную предварительно обученную модель VLE в графике и тексте, просмотр: https://github.com/iflytek/vle

2022/11/15 Мы предлагаем китайскую небольшую предварительно обученную модель Minirbt. Просмотр: https://github.com/iflytek/minirbt

2022/10/29 Мы предлагаем предварительно обученную модель LERT, которая интегрирует лингвистическую информацию. Просмотр: https://github.com/ymcui/lert

2022/3/30 Мы открываем новую предварительно обученную модель pert. Просмотр: https://github.com/ymcui/pert

Исторические новости

2021/12/17 Совместная лаборатория Iflytek запускает модель резания инструментального инструмента Textpruner. Просмотр: https://github.com/airaria/textpruner

2021/10/24 Совместная лаборатория Iflytek выпустила предварительно обученную модель CINO для языков этнических меньшинств. Просмотр: https://github.com/ymcui/chinese-minority-plm

2021/7/21 «Обработка естественного языка: методы, основанные на моделях предварительных тренировок», написанные многими учеными из Харбинского технологического института Scir, и все могут его приобрести.

2021/1/27 Все модели поддерживают Tensorflow 2, пожалуйста, позвоните или загрузите его через библиотеку Transformers. https://huggingface.co/hfl

2020/9/15 Наша статья «Пересмотр предварительно обученных моделей для китайской обработки естественного языка» была нанята в качестве длинной статьи по выводам EMNLP.

2020/8/27 IFL Совместная лаборатория возглавила список в клей, общий естественный язык Понимание оценки, проверьте список клей, новости.

2020/3/23 Модель, выпущенная в этом каталоге, была подключена к Paddlepaddlehub для просмотра быстрой загрузки

2020/3/11, чтобы лучше понять потребности, вам предложено заполнить анкету, чтобы предоставить вам лучшие ресурсы.

2020.02.26 Iflytek

2020/1/20 Я желаю вам удачи в году крысы. На этот раз RBT3 и RBTL3 (3-слойный Roberta-WWM-EXT-BASE/BAGIN) были высвобождены для просмотра модели количества небольших параметров.

2019/12/19 Модель, опубликованная в этом каталоге

2019/10/14 Выпустите модель Roberta-WWM-EXT-Large, просмотреть китайскую модель скачать

2019/9/10 выпустить модель Roberta-WWM-EXT и просмотреть китайскую модель скачать

2019/7/30 предоставляет китайскую модель BERT-wwm-ext обученная более широкому общему корпусу (5,4B Word Count), просмотр загрузки китайской модели

Начальная версия 2019/620, модель может быть загружена через Google, и также был загружен внутренний облачный диск. Проверьте загрузку китайской модели

Руководство по содержанию

глава	описывать
Введение	Введение в основные принципы Bert-WWM
Китайская модель скачать	Предоставляет адрес загрузки Bert-WWM
Быстрая загрузка	Как использовать трансформаторы и паддлхуб быстро загружать модели
Сравнение модели	Обеспечивает сравнение параметров модели в этом каталоге
Китайский базовый эффект системы	Перечислите некоторые эффекты базовых систем Китая
Модель количества небольших параметров	Перечислите эффекты модели количества малого параметра (3-слойный трансформатор)
Рекомендации для использования	Несколько предложений по использованию китайских предварительно обученных моделей предоставляются
Скачать английскую модель	Официальный адрес загрузки английского языка Google Bert-WWM
Часто задаваемые вопросы	Часто задаваемые вопросы и ответы
Цитировать	Технические отчеты в этом каталоге

Введение

Маскирование всего слова (WWM) , временно переведенное как全词Mask или整词Mask , является обновленной версией BERT, выпущенной Google 31 мая 2019 года, которая в основном меняет стратегию генерации образцов обучения на оригинальной стадии предварительного обучения. Проще говоря, исходный метод сегментации слов на основе слов разделит полное слово на несколько подчинок. При создании тренировочных образцов эти разделенные подчинки будут случайным образом замаскированы. В全词Mask , если подвеска слова полного слова замаскирована, другие части того же слова замаскированы, то есть全词Mask .

Следует отметить, что маска здесь относится к обобщенной маске (замененной [маской]; поддерживать исходный словарь; случайным образом заменен другим словом) и не ограничивается случаем, когда слово заменяется на теге [MASK] . Для получения более подробных описаний и примеров, пожалуйста, обратитесь к: #4

Точно так же, поскольку Google официально выпустил BERT-base, Chinese , китайцы делятся на персонажей как гранулярность и не учитывает причастие китайского (CWS) в традиционном НЛП. Мы применили метод полной маски слов на китайском языке, использовал китайскую Википедию (включая упрощенную и традиционную китайскую) для обучения, и использовал LTP Института технологий Харбин в качестве инструмента сегментации слов, то есть все китайские иероглифы, которые составляют одно и то же слово , отображаются.

В следующем тексту показаны образцы генерации全词Mask . Примечание. Для простого понимания только случай замены тега [Маски] рассматривается в следующих примерах.

иллюстрировать	Образец
Оригинальный текст	Используйте языковые модели, чтобы предсказать вероятность следующего слова.
Слово причастие текст	Используйте языковые модели, чтобы предсказать вероятность следующего слова.
Оригинальный ввод маски	Используйте тип языка [Маска], чтобы проверить про [маску] следующего слова Pro [Mask] ## Lity.
Полный ввод маски слов	Используйте язык [Маска] [Маска], чтобы [маска] [Маска] Следующее слово [Маска] [Маска].

Китайская модель скачать

Этот каталог в основном содержит базовые модели, поэтому мы не помечаем base слова в аббревиатуре модели. Для моделей других размеров отмечены соответствующие теги (например, большие).

BERT-large模型: 24-слойная, 1024 скрыта, 16 голов, параметры 330 м
BERT-base模型: 12-слойная, 768 скрытая, 12 голов, 110 м. Параметры

Примечание. Версия с открытым исходным кодом не содержит вес задач MLM; Если вам нужно выполнять задачи MLM, используйте дополнительные данные для вторичного предварительного тренировки (как и другие задачи вниз по течению).

Модель аббревиатура	Материалы	Google скачать	Baidu NetDisk скачать
`RBT6, Chinese`	Данные EXT ^[1]	-	Tensorflow (пароль hniy)
`RBT4, Chinese`	Данные EXT ^[1]	-	Tensorflow (пароль SJPT)
`RBTL3, Chinese`	Данные EXT ^[1]	Tensorflow Пирог	Tensorflow (пароль S6CU)
`RBT3, Chinese`	Данные EXT ^[1]	Tensorflow Пирог	TensorFlow (пароль 5A57)
`RoBERTa-wwm-ext-large, Chinese`	Данные EXT ^[1]	Tensorflow Пирог	Tensorflow (пароль dqqe)
`RoBERTa-wwm-ext, Chinese`	Данные EXT ^[1]	Tensorflow Пирог	Tensorflow (пароль vybq)
`BERT-wwm-ext, Chinese`	Данные EXT ^[1]	Tensorflow Пирог	Tensorflow (пароль wgnt)
`BERT-wwm, Chinese`	Китайская вики	Tensorflow Пирог	Tensorflow (пароль QFH8)
`BERT-base, Chinese` ^Google	Китайская вики	Google Cloud	-
`BERT-base, Multilingual Cased` ^Google	Многоязычная вики	Google Cloud	-
`BERT-base, Multilingual Uncased` ^Google	Многоязычная вики	Google Cloud	-

[1] Данные EXT включают в себя: китайскую Википедию, другие энциклопедии, новости, вопросы и ответы и другие данные, с общим количеством слов, достигнутых 5,4 б.

Версия Pytorch

Если вам нужна версия Pytorch,

1) Пожалуйста, преобразуйте его через сценарий конверсии, предоставленный трансформаторами.

2) или непосредственно скачать Pytorch через официальный веб -сайт Huggingface: https://huggingface.co/hfl

Метод загрузки: нажмите на любую модель, которую вы хотите загрузить → Выберите вкладку «Файлы и версии» → Загрузите соответствующий файл модели.

Инструкции для использования

Рекомендуется использовать точки загрузки Baidu NetDisk в материковом Китае, и зарубежным пользователям рекомендуется использовать точки загрузки Google. Размер файла базовой модели составляет около 400 м . Взятие версии BERT-wwm, Chinese TensorFlow в качестве примера, после загрузки, распахните файл ZIP, чтобы получить:

 chinese_wwm_L-12_H-768_A-12.zip
    |- bert_model.ckpt      # 模型权重
    |- bert_model.meta      # 模型meta信息
    |- bert_model.index     # 模型index信息
    |- bert_config.json     # 模型参数
    |- vocab.txt            # 词表

Среди них bert_config.json и vocab.txt точно такие же, как и оригинальная BERT-base, Chinese . Версия Pytorch содержит файлы pytorch_model.bin , bert_config.json и vocab.txt .

Быстрая загрузка

Использование трансформаторов HuggingFace

Полагаясь на библиотеку «Трансформеров», приведенные выше модели можно легко вызвать.

 tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")

Примечание. Все модели в этом каталоге загружаются с использованием Berttokenizer и Bertmodel. Не используйте Robertatokenizer/Robertamodel!

Соответствующий список MODEL_NAME заключается в следующем:

Название модели	Model_name
Роберта-WWM-Ext-Large	HFL/китайская-роберта-WWM-EXT-Large
Роберта-Вум-Экс	HFL/Китайский роберта-WWM-Ext
Bert-WWM-Ext	HFL/Китай-Берт-WWM-EXT
Берт-УВМ	HFL/CINKIN-BERT-WWM
RBT3	HFL/RBT3
RBTL3	HFL/RBTL3

Используя PaddleHub

Полагаясь на PaddleHub, вы можете загрузить и установить модель только одной строкой кода, и более десяти строк кода могут выполнять такие задачи, как классификация текста, аннотация последовательности, понимание прочитанного и т. Д.

 import paddlehub as hub
module = hub.Module(name=MODULE_NAME)

Соответствующий список MODULE_NAME заключается в следующем:

Название модели	Module_name
Роберта-WWM-Ext-Large	Китайский роберта-WWM-Ext-Large
Роберта-Вум-Экс	Китайский роберта-WWM-Ext
Bert-WWM-Ext	Китайско-берт-WWM-Ext
Берт-УВМ	Китайско-берт-WWM
RBT3	RBT3
RBTL3	RBTL3

Сравнение модели

Ниже приводится краткое изложение некоторых деталей модели, о которых все больше обеспокоены.

-	Берт ^Google	Берт-УВМ	Bert-WWM-Ext	Роберта-Вум-Экс	Роберта-WWM-Ext-Large
Маскировка	Словесная	WWM ^[1]	WWM	WWM	WWM
Тип	база	база	база	база	Большой
Источник данных	Вики	Вики	Wiki+Ext ^[2]	Вики+доб	Вики+доб
Тренировочные жетоны #	0,4b	0,4b	5,4B	5,4B	5,4B
Устройство	TPU POD V2	TPU V3	TPU V3	TPU V3	TPU POD V3-32 ^[3]
Учебные шаги	?	100K ^MAX128 +100K ^MAX512	1m ^max128 +400K ^MAX512	1m ^max512	2M ^MAX512
Размер партии	?	2,560 / 384	2,560 / 384	384	512
Оптимизатор	Адамв	ЯГНЕНОК	ЯГНЕНОК	Адамв	Адамв
Словарный запас	21,128	~ Берт ^[4]	~ Берт	~ Берт	~ Берт
Контрольная точка init	Случайный инициатор	~ Берт	~ Берт	~ Берт	Случайный инициатор

[1] WWM = маскирование целого слова
[2] ext = расширенные данные
[3] TPU POD V3-32 (512G HBM) эквивалентен 4 TPU V3 (128G HBM)
[4] ~BERT означает, что наследуют атрибуты оригинального китайского берта Google

Китайский базовый эффект системы

Чтобы сравнить базовые эффекты, мы проверили его на следующих китайских наборах, включая задачи句子级и篇章级. Для BERT-wwm-ext , RoBERTa-wwm-ext и RoBERTa-wwm-ext-large мы не корректировали оптимальную скорость обучения , но непосредственно использовали оптимальный уровень обучения BERT-wwm .

Лучший уровень обучения:

Модель	БЕРТ	ЭРНИ	БЕРТ-ВВМ*
CMRC 2018	3e-5	8e-5	3e-5
DRCD	3e-5	8e-5	3e-5
CJRC	4e-5	8e-5	4e-5
Xnli	3e-5	5e-5	3e-5
Chnsenticorp	2E-5	5e-5	2E-5
LCQMC	2E-5	3e-5	2E-5
BQ Corpus	3e-5	5e-5	3e-5
Thucnews	2E-5	5e-5	2E-5

*Представляет все модели серии WWM (Bert-WWM, Bert-WWM-Ext, Roberta-WWM-Ext, Roberta-WWM-Ext-Large)

Только некоторые результаты перечислены ниже. Пожалуйста, смотрите наш технический отчет для получения полных результатов.

CMRC 2018 : Понимание прочитанного извлечения фрагментов главы (упрощенный китайский)
DRCD : Понимание прочитанного извлечения фрагментов главы (традиционный китайский)
CJRC : юридическое понимание прочитанного (упрощенное китайское)
Xnli : вывод естественного языка
Chnsenticorp : senti -анализ
LCQMC : сопоставление пары предложений
BQ Corpus : Сопоставление пары предложений
Thucnews : классификация текста на уровне главы

Примечание. Чтобы обеспечить надежность результатов, для той же модели мы работаем 10 раз (различные случайные семена), чтобы сообщить о максимальных и средних значениях производительности модели (средние значения в скобках). Если ничего неожиданного не происходит, результат вашей работы должен быть в этом диапазоне.

В индикаторе оценки среднее значение представлено в скобках, а максимальное значение представлено вне скобок.

Упрощенное китайское понимание прочитанного: CMRC 2018

Набор данных CMRC 2018 - это китайские данные о понимании прочитанного машины, опубликованные Объединенной лабораторией Технологического института Харбина. Согласно данному вопросу, система должна извлечь фрагменты из главы в качестве ответа, в той же форме, что и команда. Индикаторы оценки: EM / F1

Модель	Разработка набора	Тестовый набор	Вызов набор
БЕРТ	65,5 (64,4) / 84,5 (84,0)	70,0 (68,7) / 87,0 (86,3)	18.6 (17,0) / 43,3 (41,3)
ЭРНИ	65,4 (64,3) / 84,7 (84,2)	69,4 (68,2) / 86,6 (86,1)	19,6 (17,0) / 44,3 (42,8)
Берт-УВМ	66,3 (65,0) / 85,6 (84,7)	70,5 (69,1) / 87,4 (86,7)	21,0 (19,3) / 47,0 (43,9)
Bert-WWM-Ext	67,1 (65,6) / 85,7 (85,0)	71,4 (70,0) / 87,7 (87,0)	24.0 (20,0) / 47,3 (44,6)
Роберта-Вум-Экс	67,4 (66,5) / 87,2 (86,5)	72,6 (71,4) / 89,4 (88,8)	26,2 (24,6) / 51,0 (49,1)
Роберта-WWM-Ext-Large	68,5 (67,6) / 88,4 (87,9)	74,2 (72,4) / 90,6 (90,0)	31,5 (30,1) / 60,1 (57,5)

Традиционное китайское понимание прочитанного: DRCD

Набор данных DRCD был выпущен Delta Research Institute, Тайвань, Китай. Его форма такая же, как команда, и является извлеченным набором данных по пониманию прочитанного, основанного на традиционном китайском языке. Поскольку традиционные китайские иероглифы удаляются из Эрни, не рекомендуется использовать Эрни (или преобразовать его в упрощенный китайский, а затем обрабатывать его) на традиционных китайских данных. Индикаторы оценки: EM / F1

Модель	Разработка набора	Тестовый набор
БЕРТ	83,1 (82,7) / 89,9 (89,6)	82,2 (81,6) / 89,2 (88,8)
ЭРНИ	73,2 (73,0) / 83,9 (83,8)	71,9 (71,4) / 82,5 (82,3)
Берт-УВМ	84,3 (83,4) / 90,5 (90,2)	82,8 (81,8) / 89,7 (89,0)
Bert-WWM-Ext	85,0 (84,5) / 91,2 (90,9)	83,6 (83,0) / 90,4 (89,9)
Роберта-Вум-Экс	86,6 (85,9) / 92,5 (92,2)	85,6 (85,2) / 92,0 (91,7)
Роберта-WWM-Ext-Large	89,6 (89,1) / 94,8 (94,4)	89,6 (88,9) / 94,5 (94,1)

Понимание судебного прочитанного: CJRC

Набор данных CJRC - это китайские данные о понимании прочитанного машины для судебной области, выпущенной Объединенной лабораторией Ифлитека. Следует отметить, что данные, используемые в эксперименте, не являются окончательными данными, опубликованными чиновником, и результаты предназначены только для справки. Индикаторы оценки: EM / F1

Модель	Разработка набора	Тестовый набор
БЕРТ	54,6 (54,0) / 75,4 (74,5)	55,1 (54,1) / 75,2 (74,3)
ЭРНИ	54,3 (53,9) / 75,3 (74,6)	55,0 (53,9) / 75,0 (73,9)
Берт-УВМ	54,7 (54,0) / 75,2 (74,8)	55,1 (54,1) / 75,4 (74,4)
Bert-WWM-Ext	55,6 (54,8) / 76,0 (75,3)	55,6 (54,9) / 75,8 (75,0)
Роберта-Вум-Экс	58,7 (57,6) / 79,1 (78,3)	59,0 (57,8) / 79,0 (78,0)
Роберта-WWM-Ext-Large	62,1 (61,1) / 82,4 (81,6)	62,4 (61,4) / 82,2 (81,0)

Вывод естественного языка: xnli

В задаче по выводу естественного языка мы принимаем данные XNLI , которые требуют, чтобы текст был разделен на три категории: entailment , neutral и contradictory . Индикатор оценки: точность

Модель	Разработка набора	Тестовый набор
БЕРТ	77,8 (77,4)	77,8 (77,5)
ЭРНИ	79,7 (79,4)	78,6 (78,2)
Берт-УВМ	79,0 (78,4)	78,2 (78,0)
Bert-WWM-Ext	79,4 (78,6)	78,7 (78,3)
Роберта-Вум-Экс	80,0 (79,2)	78,8 (78,3)
Роберта-WWM-Ext-Large	82,1 (81,3)	81.2 (80,6)

Senticorp

В задаче анализа настроений набор данных бинарной классификации эмоций Chnsenticorp. Индикатор оценки: точность

Модель	Разработка набора	Тестовый набор
БЕРТ	94,7 (94,3)	95,0 (94,7)
ЭРНИ	95,4 (94,8)	95,4 (95,3)
Берт-УВМ	95,1 (94,5)	95,4 (95,0)
Bert-WWM-Ext	95,4 (94,6)	95,3 (94,7)
Роберта-Вум-Экс	95,0 (94,6)	95,6 (94,8)
Роберта-WWM-Ext-Large	95,8 (94,9)	95,8 (94,9)

Классификация пары предложений: LCQMC, BQ Corpus

Следующие два набора данных должны классифицировать пару предложений, чтобы определить, одинакова ли семантика двух предложений (задача бинарной классификации).

LCQMC

LCQMC был выпущен Центром интеллектуальных компьютерных исследований Харбинского технологического института Технологической аспирантуры Шэньчжэнь. Индикатор оценки: точность

Модель	Разработка набора	Тестовый набор
БЕРТ	89,4 (88,4)	86,9 (86,4)
ЭРНИ	89,8 (89,6)	87,2 (87,0)
Берт-УВМ	89,4 (89,2)	87,0 (86,8)
Bert-WWM-Ext	89,6 (89,2)	87,1 (86,6)
Роберта-Вум-Экс	89,0 (88,7)	86,4 (86,1)
Роберта-WWM-Ext-Large	90,4 (90,0)	87,0 (86,8)

BQ Corpus

BQ Corpus выпускается в Центре интеллектуальных компьютерных исследований Харбинского технологического института в Шэньчжэне и является набором данных для банковской области. Индикатор оценки: точность

Модель	Разработка набора	Тестовый набор
БЕРТ	86,0 (85,5)	84,8 (84,6)
ЭРНИ	86,3 (85,5)	85,0 (84,6)
Берт-УВМ	86,1 (85,6)	85,2 (84,9)
Bert-WWM-Ext	86,4 (85,5)	85,3 (84,8)
Роберта-Вум-Экс	86,0 (85,4)	85,0 (84,6)
Роберта-WWM-Ext-Large	86,3 (85,7)	85,8 (84,9)

Текстовая классификация на уровне главы: Thucnews

Для задач классификации текста на уровне главы мы выбрали Thucnews, новостной набор данных, выпущенный Лабораторией обработки естественного языка Университета Цинхуа. Мы принимаем один из подмножества и должны разделить новости на одну из 10 категорий. Индикатор оценки: точность

Модель	Разработка набора	Тестовый набор
БЕРТ	97,7 (97,4)	97,8 (97,6)
ЭРНИ	97,6 (97,3)	97,5 (97,3)
Берт-УВМ	98,0 (97,6)	97,8 (97,6)
Bert-WWM-Ext	97,7 (97,5)	97,7 (97,5)
Роберта-Вум-Экс	98,3 (97,9)	97,7 (97,5)
Роберта-WWM-Ext-Large	98,3 (97,7)	97,8 (97,6)

Модель количества небольших параметров

Ниже приведены экспериментальные результаты по нескольким задачам NLP, и только сравнение результатов тестового набора приведено в таблице.

Модель	CMRC 2018	DRCD	Xnli	CSC	LCQMC	Бк	средний	Параметр Количество
Роберта-WWM-Ext-Large	74.2 / 90.6	89,6 / 94,5	81.2	95,8	87.0	85,8	87.335	325M
Роберта-Вум-Экс	72,6 / 89,4	85,6 / 92,0	78.8	95,6	86.4	85,0	85,675	102 м
RBTL3	63,3 / 83,4	77,2 / 85,6	74.0	94.2	85,1	83,6	80.800	61 м (59,8%)
RBT3	62,2 / 81,8	75,0 / 83,9	72,3	92,8	85,1	83,3	79,550	38 м (37,3%)

Сравнение относительных эффектов:

Модель	CMRC 2018	DRCD	Xnli	CSC	LCQMC	Бк	средний	Среднее классификация
Роберта-WWM-Ext-Large	102,2% / 101,3%	104,7% / 102,7%	103,0%	100,2%	100,7%	100,9%	101,9%	101,2%
Роберта-Вум-Экс	100% / 100%	100% / 100%	100%	100%	100%	100%	100%	100%
RBTL3	87,2% / 93,3%	90,2% / 93,0%	93,9%	98,5%	98,5%	98,4%	94,3%	97,35%
RBT3	85,7% / 91,5%	87,6% / 91,2%	91,8%	97,1%	98,5%	98,0%	92,9%	96,35%

Количество параметров рассчитывается на основе задачи классификации XNLI
Процент параметров в скобках основан на исходной базовой модели (то есть Roberta-WWM-EXT)
RBT3: инициализируется Roberta-WWM-EXT-слоем 3 и продолжал тренироваться на 1 м. Шаги.
RBTL3: инициализированным слоем 3 Roberta-WWM-Ext-Large и продолжал тренироваться на 1 м. Шаги.
Название RBT состоит из трех инициалов слога Роберты, а L представляет большую модель
Непосредственное использование первых трех слоев Roberta-WWM-Ext-Large для инициализации и обучения вниз по течению задач значительно уменьшит эффект. Например, на CMRC 2018 набор тестов может достигать только 42,9/65,3, в то время как RBTL3 может достигать 63,3/83,4

Добро пожаловать в китайскую небольшую предварительно обученную модель Minirbt с лучшими результатами: https://github.com/iflytek/minirbt

Скачать английскую модель

Чтобы облегчить всем загружать, принесите английскую модель BERT-large (wwm) официально выпущенную Google :

BERT-Large, Uncased (Whole Word Masking) : 24-слойный, 1024 скрытый, 16 голов, параметры 340 м
BERT-Large, Cased (Whole Word Masking) : 24-слойный, 1024 скрытый, 16 голов, параметры 340 м

Часто задаваемые вопросы

В: Как использовать эту модель?
A: Как использовать китайский Bert, выпущенный Google, как использовать это. Текст не должен проходить сегментацию слов, а WWM влияет только на процесс предварительного обучения и не влияет на входные задачи.

В: Есть ли предоставленный код предварительного обучения?
A: К сожалению, я не могу предоставить соответствующий код. Вы можете обратиться к #10 и #13 для реализации.

В: Где загрузить определенный набор данных?
A: Пожалуйста, проверьте каталог data . README.md в каталоге задач указывает источник данных. Для защищенного авторским правом контента, пожалуйста, найдите самостоятельно или свяжитесь с исходным автором, чтобы получить данные.

В: Будут ли планируют выпустить большую модель? Например, версия Bert-Large-WWM?
A: Если мы получим лучшие результаты от эксперимента, мы рассмотрим возможность выпустить большую версию.

Q: Вы лжете! Не можете воспроизвести результат?
A: В нижнем задании мы приняли самую простую модель. Например, для классификационных задач мы напрямую используем run_classifier.py (предоставлено Google). Если среднее значение не может быть достигнуто, это означает, что в самом эксперименте есть ошибка. Пожалуйста, проверьте это внимательно. Существует много случайных факторов для наивысшего значения, и мы не можем гарантировать, что мы можем достичь наивысшего значения. Другой признанный фактор: уменьшение размера партии значительно снизит экспериментальный эффект. Для получения подробной информации, пожалуйста, обратитесь к соответствующему вопросу каталога BERT и XLNET.

В: Я получу лучшие результаты, чем вы!
A: Поздравляю.

В: Сколько времени нужно, чтобы тренироваться и какое оборудование он тренировался?
A: Обучение было завершено в версии Google TPU V3 (128G HBM). Обучение BERT-WWM занимает около 1,5 дня, в то время как BERT-WWM-EXT занимает несколько недель (больше данных используется для идентификации больше). Следует отметить, что на стадии предварительного обучения мы используем LAMB Optimizer (реализация версии TensorFlow). Этот оптимизатор имеет хорошую поддержку для больших партий. При тонкой настройке вниз по течению задач мы используем по умолчанию Bert по умолчанию AdamWeightDecayOptimizer .

В: Кто такой Эрни?
О: Модель Эрни в этом проекте, в частности, относится к Эрни, предложенному Байду, а не Эрни, опубликованным Университетом Цинхуа на ACL 2019.

Q: Эффект Bert-WWM не очень хорош во всех задачах
О: Цель этого проекта-предоставить исследователям диверсифицированные предварительно обученные модели, свободно выбирать Берта, Эрни или Берт-УВМ. Мы предоставляем только экспериментальные данные, и нам все еще приходится постоянно стараться изо всех сил в наших собственных задачах, чтобы сделать выводы. Еще одна модель, еще один выбор.

В: Почему некоторые наборы данных не пробовали?
A: Честно говоря, я не в настроении найти больше данных; 2) мне не нужно; 3) у меня нет денег;

В: Давайте кратко оценим эти модели
A: Каждый имеет свое внимание и свои сильные стороны. Исследование и разработка китайской обработки естественного языка требует совместных усилий от всех сторон.

Q: Как вы предсказываете следующую предварительную модель?
A: Может быть, это называется Зои. Зоя: встроения с нулевым выстрелом из языковой модели

В: Более подробная информация о модели RoBERTa-wwm-ext ?
О: Мы интегрируем преимущества Роберты и Берт-УВМ, чтобы сделать естественную комбинацию из них. Разница между моделями в этом каталоге заключается в следующем:
1) Используйте стратегию WWM для маскировки на стадии предварительного обучения (но без динамического маскировки)
2) просто отменить потерю предсказания следующего предложения (NSP)
3) Больше не используйте учебный режим MAX_LEN = 128, а затем MAX_LEN = 512, напрямую тренируйте MAX_LEN = 512
4) соответствующим образом продлить учебные этапы

Следует отметить, что эта модель не является оригинальной моделью Роберты, но является лишь моделью BERT, обученной аналогичным методам обучения Роберты, а именно, как Роберта, как Берт. Поэтому при использовании нисходящих задач и конвертации моделей, пожалуйста, обработайте их в Берте, а не в Роберте.

Цитировать

Если ресурсы или технологии в этом проекте полезны для вашей исследовательской работы, пожалуйста, обратитесь к следующей статье в статье.

Preferred (Journal Explore): https://ieeexplore.ieee.org/document/9599397

 @journal{cui-etal-2021-pretrain,
  title={Pre-Training with Whole Word Masking for Chinese BERT},
  author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
  journal={IEEE Transactions on Audio, Speech and Language Processing},
  year={2021},
  url={https://ieeexplore.ieee.org/document/9599397},
  doi={10.1109/TASLP.2021.3124365},
 }

Или (версия конференции): https://www.aclweb.org/anthology/2020.findings-emrlp.58

 @inproceedings{cui-etal-2020-revisiting,
    title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
    author = "Cui, Yiming  and
      Che, Wanxiang  and
      Liu, Ting  and
      Qin, Bing  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}

Благодарности

Первый автор частично финансируется программой Google TPU Research Cloud Program.

Отказ от ответственности

Этот проект не является китайской моделью Bert-WWM, официально выпущенной Google. В то же время этот проект не является официальным продуктом Института технологий Харбина или iflytek. Экспериментальные результаты, представленные в техническом отчете, только показывают, что производительность в соответствии с конкретным набором данных и комбинацией гиперпараметрических данных не представляет характер каждой модели. Экспериментальные результаты могут измениться из -за случайных семян и вычислительных устройств. Контент в этом проекте предназначен только для технических исследований и не используется в качестве какой -либо заключительной основы. Пользователи могут использовать эту модель в любое время в рамках лицензии, но мы не несем ответственности за прямые или косвенные потери, вызванные использованием содержания проекта.

Подписывайтесь на нас

Добро пожаловать, чтобы следить за официальным официальным отчетом WeChat об Объединенной лаборатории Iflytek, чтобы узнать о последних технических тенденциях.