Упрощенный китайский | Английский

Китайский Макберт | Китайская электро | Китайский Xlnet | Инструмент для дистилляции знаний TextBrewer | Модельный режущий инструмент текст
Больше ресурсов, выпущенных HFL: https://github.com/ymcui/hfl-anthology
2023/3/28 Китайская большая модель Llama & Alpaca, которая может быть быстро развернута и опыта на ПК, просмотр: https://github.com/ymcui/chinese-llama-alpaca
2022/3/30 выпустила новую предварительно обученную модель Pert: https://github.com/ymcui/pert
2021/12/17 выпустил инструмент модели Textpruner: https://github.com/airaria/textpruner
2021/10/24 выпустила первую предварительно обученную модель для языков этнических меньшинств: https://github.com/ymcui/chinese-minority-plm
2021/7/21 Книга «Обработка естественного языка: методы, основанные на предварительно обученных моделях», была официально опубликована.
2020/11/3 предварительно обученный китайский макберт был выпущен, и его метод использования такой же, как и у Берта.
2020/9/15 Документ «Пересмотр предварительно обученных моделей для китайской обработки естественного языка» была нанята в качестве длинной статьи по выводам EMNLP.
| глава | описывать |
|---|---|
| Введение | Краткое введение в Макберт |
| скачать | Скачать Макберт |
| Быстрая загрузка | Как использовать трансформаторы быстро загружать модели |
| Базовый эффект | Влияние на китайские задачи НЛП |
| Часто задаваемые вопросы | Часто задаваемые вопросы |
| Цитировать | Информация о цитировании статьи |
Macbert -это улучшенная версия BERT, внедряющая решающую ошибку, корректированную на ошибку модель языка маски (MLM как коррекция, MAC) задача предварительного обучения, что облегчает проблему «задачи перед тренировкой вниз по течению».
В модели языка маски (MLM) тег [маска] представлен для маскировки, но тег [Маска] не появляется в нижестоящих задачах. В Макберте мы используем аналогичные слова, чтобы заменить тег [Маски] . Аналогичные слова получаются с помощью инструмента инструментария Synonyms Toolkit (Wang and Hu, 2017), а алгоритм рассчитывается на основе Word2VEC (Mikolov et al., 2013). В то же время мы также ввели технологии маскировки целого слова (WWM) и N-грамм. При маскировке n-грамм мы смотрим похожие слова для каждого слова в n-грамме. Когда нет подобных слов для замены, мы будем использовать случайные слова для замены.
Ниже приведен пример обучения.
| пример | |
|---|---|
| Оригинальное предложение | Мы используем языковую модель, чтобы предсказать вероятность следующего слова. |
| MLM | Мы используем язык [M] для [M] ## di ## ct. Pro [M] ## Способность следующего слова. |
| Целое слово маскирование | Мы используем язык [M] для [M] [M] [M] [M] [M] следующего слова. |
| N-грамм Маскировка | Мы используем [M] [M] для [M] [M] [M] [M] [M] [M] [M] Следующее слово. |
| MLM как коррекция | Мы используем текстовую систему для CA ## lc ## ul ul po ## si ## Способность следующего слова. |
Основная структура Макберта точно такая же, как и BERT, позволяя бесшовным переходам без изменения существующего кода.
Для получения более подробной информации, пожалуйста, обратитесь к нашей статье: пересмотр предварительно обученных моделей для обработки естественного языка китайского языка
В основном предоставляет загрузки модели для версии TensorFlow 1.x.
MacBERT-large, Chinese : 24-слойный, 1024 скрытый, 16 голов, параметры 324 мMacBERT-base, Chinese : 12-слойный, 768 скрытый, 12 голов, параметры 102 м.| Модель | Google Drive | Диск Baidu | размер |
|---|---|---|---|
MacBERT-large, Chinese | Tensorflow | Tensorflow (pw: zejf) | 1,2 г |
MacBERT-base, Chinese | Tensorflow | Tensorflow (PW: 61GA) | 383M |
Если вам нужна версия модели Pytorch или TensorFlow2:
Загрузите шаги (вы также можете клонировать весь каталог напрямую, используя GIT):
Модели Macbert могут быть быстро загружены через трансформаторы.
tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")
Примечание. Пожалуйста, используйте Berttokenizer и Bertmodel для загрузки моделей Macbert!
Соответствующая MODEL_NAME выглядит следующим образом:
| Оригинальная модель | Модель имени вызова |
|---|---|
| Макберт-широкий | HFL/Китайский-Мацберт-широкий |
| Макберт-баз | HFL/китайская база |
Вот отображение влияния Макберта на 6 задач вниз по течению (см. Документ для получения дополнительных результатов):
Чтобы обеспечить стабильность результатов, мы даем среднее значение (в скобках) и максимальное значение независимых прогонов 10 раз в то же время.
Набор данных CMRC 2018 - это китайские данные о понимании прочитанного машины, опубликованные Объединенной лабораторией Технологического института Харбина. Согласно данному вопросу, система должна извлечь фрагменты из главы в качестве ответа, в той же форме, что и команда. Индикаторы оценки: EM / F1
| Модель | Разработка | Тест | Испытание | #Парамы |
|---|---|---|---|---|
| Берт-баз | 65,5 (64,4) / 84,5 (84,0) | 70,0 (68,7) / 87,0 (86,3) | 18.6 (17,0) / 43,3 (41,3) | 102 м |
| Берт-УВМ | 66,3 (65,0) / 85,6 (84,7) | 70,5 (69,1) / 87,4 (86,7) | 21,0 (19,3) / 47,0 (43,9) | 102 м |
| Bert-WWM-Ext | 67,1 (65,6) / 85,7 (85,0) | 71,4 (70,0) / 87,7 (87,0) | 24.0 (20,0) / 47,3 (44,6) | 102 м |
| Роберта-Вум-Экс | 67,4 (66,5) / 87,2 (86,5) | 72,6 (71,4) / 89,4 (88,8) | 26,2 (24,6) / 51,0 (49,1) | 102 м |
| Электрабаза | 68,4 (68,0) / 84,8 (84,6) | 73.1 (72,7) / 87,1 (86,9) | 22,6 (21,7) / 45,0 (43,8) | 102 м |
| Макберт-баз | 68,5 (67,3) / 87,9 (87,1) | 73,2 (72,4) / 89,5 (89,2) | 30,2 (26,4) / 54,0 (52,2) | 102 м |
| Электро-широкий | 69,1 (68,2) / 85,2 (84,5) | 73,9 (72,8) / 87,1 (86,6) | 23.0 (21,6) / 44,2 (43,2) | 324 м |
| Роберта-WWM-Ext-Large | 68,5 (67,6) / 88,4 (87,9) | 74,2 (72,4) / 90,6 (90,0) | 31,5 (30,1) / 60,1 (57,5) | 324 м |
| Макберт-широкий | 70,7 (68,6) / 88,9 (88,2) | 74,8 (73,2) / 90,7 (90,1) | 31,9 (29,6) / 60,2 (57,6) | 324 м |
Набор данных DRCD был выпущен Delta Research Institute, Тайвань, Китай. Его форма такая же, как команда, и является извлеченным набором данных по пониманию прочитанного, основанного на традиционном китайском языке. Поскольку традиционные китайские иероглифы удаляются из Эрни, не рекомендуется использовать Эрни (или преобразовать его в упрощенный китайский, а затем обрабатывать его) на традиционных китайских данных. Индикаторы оценки: EM / F1
| Модель | Разработка | Тест | #Парамы |
|---|---|---|---|
| Берт-баз | 83,1 (82,7) / 89,9 (89,6) | 82,2 (81,6) / 89,2 (88,8) | 102 м |
| Берт-УВМ | 84,3 (83,4) / 90,5 (90,2) | 82,8 (81,8) / 89,7 (89,0) | 102 м |
| Bert-WWM-Ext | 85,0 (84,5) / 91,2 (90,9) | 83,6 (83,0) / 90,4 (89,9) | 102 м |
| Роберта-Вум-Экс | 86,6 (85,9) / 92,5 (92,2) | 85,6 (85,2) / 92,0 (91,7) | 102 м |
| Электрабаза | 87,5 (87,0) / 92,5 (92,3) | 86,9 (86,6) / 91,8 (91,7) | 102 м |
| Макберт-баз | 89,4 (89,2) / 94,3 (94,1) | 89,5 (88,7) / 93,8 (93,5) | 102 м |
| Электро-широкий | 88,8 (88,7) / 93,3 (93,2) | 88,8 (88,2) / 93,6 (93,2) | 324 м |
| Роберта-WWM-Ext-Large | 89,6 (89,1) / 94,8 (94,4) | 89,6 (88,9) / 94,5 (94,1) | 324 м |
| Макберт-широкий | 91.2 (90,8) / 95,6 (95,3) | 91,7 (90,9) / 95,6 (95,3) | 324 м |
В задаче по выводу естественного языка мы принимаем данные XNLI , которые требуют, чтобы текст был разделен на три категории: entailment , neutral и contradictory . Индикатор оценки: точность
| Модель | Разработка | Тест | #Парамы |
|---|---|---|---|
| Берт-баз | 77,8 (77,4) | 77,8 (77,5) | 102 м |
| Берт-УВМ | 79,0 (78,4) | 78,2 (78,0) | 102 м |
| Bert-WWM-Ext | 79,4 (78,6) | 78,7 (78,3) | 102 м |
| Роберта-Вум-Экс | 80,0 (79,2) | 78,8 (78,3) | 102 м |
| Электрабаза | 77,9 (77,0) | 78,4 (77,8) | 102 м |
| Макберт-баз | 80,3 (79,7) | 79,3 (78,8) | 102 м |
| Электро-широкий | 81,5 (80,8) | 81.0 (80,9) | 324 м |
| Роберта-WWM-Ext-Large | 82,1 (81,3) | 81.2 (80,6) | 324 м |
| Макберт-широкий | 82,4 (81,8) | 81,3 (80,6) | 324 м |
В задаче анализа настроений набор данных бинарной классификации эмоций Chnsenticorp. Индикатор оценки: точность
| Модель | Разработка | Тест | #Парамы |
|---|---|---|---|
| Берт-баз | 94,7 (94,3) | 95,0 (94,7) | 102 м |
| Берт-УВМ | 95,1 (94,5) | 95,4 (95,0) | 102 м |
| Bert-WWM-Ext | 95,4 (94,6) | 95,3 (94,7) | 102 м |
| Роберта-Вум-Экс | 95,0 (94,6) | 95,6 (94,8) | 102 м |
| Электрабаза | 93,8 (93,0) | 94,5 (93,5) | 102 м |
| Макберт-баз | 95,2 (94,8) | 95,6 (94,9) | 102 м |
| Электро-широкий | 95,2 (94,6) | 95,3 (94,8) | 324 м |
| Роберта-WWM-Ext-Large | 95,8 (94,9) | 95,8 (94,9) | 324 м |
| Макберт-широкий | 95,7 (95,0) | 95,9 (95,1) | 324 м |
LCQMC был выпущен Центром интеллектуальных компьютерных исследований Харбинского технологического института Технологической аспирантуры Шэньчжэнь. Индикатор оценки: точность
| Модель | Разработка | Тест | #Парамы |
|---|---|---|---|
| БЕРТ | 89,4 (88,4) | 86,9 (86,4) | 102 м |
| Берт-УВМ | 89,4 (89,2) | 87,0 (86,8) | 102 м |
| Bert-WWM-Ext | 89,6 (89,2) | 87,1 (86,6) | 102 м |
| Роберта-Вум-Экс | 89,0 (88,7) | 86,4 (86,1) | 102 м |
| Электрабаза | 90,2 (89,8) | 87,6 (87,3) | 102 м |
| Макберт-баз | 89,5 (89,3) | 87,0 (86,5) | 102 м |
| Электро-широкий | 90,7 (90,4) | 87,3 (87,2) | 324 м |
| Роберта-WWM-Ext-Large | 90,4 (90,0) | 87,0 (86,8) | 324 м |
| Макберт-широкий | 90,6 (90,3) | 87,6 (87,1) | 324 м |
BQ Corpus выпускается в Центре интеллектуальных компьютерных исследований Харбинского технологического института в Шэньчжэне и является набором данных для банковской области. Индикатор оценки: точность
| Модель | Разработка | Тест | #Парамы |
|---|---|---|---|
| БЕРТ | 86,0 (85,5) | 84,8 (84,6) | 102 м |
| Берт-УВМ | 86,1 (85,6) | 85,2 (84,9) | 102 м |
| Bert-WWM-Ext | 86,4 (85,5) | 85,3 (84,8) | 102 м |
| Роберта-Вум-Экс | 86,0 (85,4) | 85,0 (84,6) | 102 м |
| Электрабаза | 84,8 (84,7) | 84,5 (84,0) | 102 м |
| Макберт-баз | 86,0 (85,5) | 85,2 (84,9) | 102 м |
| Электро-широкий | 86,7 (86,2) | 85,1 (84,8) | 324 м |
| Роберта-WWM-Ext-Large | 86,3 (85,7) | 85,8 (84,9) | 324 м |
| Макберт-широкий | 86,2 (85,7) | 85,6 (85,0) | 324 м |
Q1: Есть ли английская версия Макберта?
A1: Нет в данный момент.
Q2: Как использовать Макберт?
A2: Как и в использовании BERT, вам нужно просто заменить файл модели и конфигурацию для его использования. Конечно, вы также можете дополнительно обучать другие предварительно проведенные модели, загрузив нашу модель (то есть инициализацию секции трансформаторов).
Q3: Можете ли вы предоставить код обучения Макберта?
A3: План с открытым исходным кодом еще нет.
Q4: Могу ли я открыть предварительно обученный корпус с открытым исходным кодом?
A4: Мы не можем тренировать корпус с открытым исходным кодом, потому что нет права на переиздание соответствующим образом. На GitHub есть некоторые ресурсы с открытым исходным кодом, на которые вы можете уделять больше внимания и использовать больше внимания.
Q5: Есть ли планы обучать Макберта на более крупном корпусе и с открытым исходным кодом?
A5: У нас пока нет планов.
Если ресурсы в этом проекте полезны для вашего исследования, пожалуйста, укажите следующую статью.
@inproceedings{cui-etal-2020-revisiting,
title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
author = "Cui, Yiming and
Che, Wanxiang and
Liu, Ting and
Qin, Bing and
Wang, Shijin and
Hu, Guoping",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
pages = "657--668",
}
или:
@journal{cui-etal-2021-pretrain,
title={Pre-Training with Whole Word Masking for Chinese BERT},
author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
journal={IEEE Transactions on Audio, Speech and Language Processing},
year={2021},
url={https://ieeexplore.ieee.org/document/9599397},
doi={10.1109/TASLP.2021.3124365},
}
Благодаря Google TPU Research Cloud (TFRC) за поддержку вычислительных ресурсов.
Если у вас есть какие -либо вопросы, пожалуйста, отправьте их в выпуске GitHub.