Загрузка MacBERT - Скачать исходный код MacBERT

MacBERT

Другой исходный код

1.0.0

Скачать

Упрощенный китайский | Английский

Этот каталог содержит ** предварительно обученную модель Macbert **, которая вводит задачу, корректированную по ошибке, модель маски (MAC), что облегчает проблему несоответствия «предварительно тренировочных задач». Макберт добился значительных улучшений производительности в различных задачах NLP.

Пересмотр предварительно обученных моделей для китайской обработки естественного языка
Yiming Cui, Wanxiang Cha, Ting Liu, Bing Qin, Shijin Wang, Guoping Hu
Опубликовано в результатах EMNLP 2020

Китайский Макберт | Китайская электро | Китайский Xlnet | Инструмент для дистилляции знаний TextBrewer | Модельный режущий инструмент текст

Больше ресурсов, выпущенных HFL: https://github.com/ymcui/hfl-anthology

Новости

2023/3/28 Китайская большая модель Llama & Alpaca, которая может быть быстро развернута и опыта на ПК, просмотр: https://github.com/ymcui/chinese-llama-alpaca

2022/3/30 выпустила новую предварительно обученную модель Pert: https://github.com/ymcui/pert

2021/12/17 выпустил инструмент модели Textpruner: https://github.com/airaria/textpruner

2021/10/24 выпустила первую предварительно обученную модель для языков этнических меньшинств: https://github.com/ymcui/chinese-minority-plm

2021/7/21 Книга «Обработка естественного языка: методы, основанные на предварительно обученных моделях», была официально опубликована.

2020/11/3 предварительно обученный китайский макберт был выпущен, и его метод использования такой же, как и у Берта.

2020/9/15 Документ «Пересмотр предварительно обученных моделей для китайской обработки естественного языка» была нанята в качестве длинной статьи по выводам EMNLP.

глава	описывать
Введение	Краткое введение в Макберт
скачать	Скачать Макберт
Быстрая загрузка	Как использовать трансформаторы быстро загружать модели
Базовый эффект	Влияние на китайские задачи НЛП
Часто задаваемые вопросы	Часто задаваемые вопросы
Цитировать	Информация о цитировании статьи

Введение

Macbert -это улучшенная версия BERT, внедряющая решающую ошибку, корректированную на ошибку модель языка маски (MLM как коррекция, MAC) задача предварительного обучения, что облегчает проблему «задачи перед тренировкой вниз по течению».

В модели языка маски (MLM) тег [маска] представлен для маскировки, но тег [Маска] не появляется в нижестоящих задачах. В Макберте мы используем аналогичные слова, чтобы заменить тег [Маски] . Аналогичные слова получаются с помощью инструмента инструментария Synonyms Toolkit (Wang and Hu, 2017), а алгоритм рассчитывается на основе Word2VEC (Mikolov et al., 2013). В то же время мы также ввели технологии маскировки целого слова (WWM) и N-грамм. При маскировке n-грамм мы смотрим похожие слова для каждого слова в n-грамме. Когда нет подобных слов для замены, мы будем использовать случайные слова для замены.

Ниже приведен пример обучения.

	пример
Оригинальное предложение	Мы используем языковую модель, чтобы предсказать вероятность следующего слова.
MLM	Мы используем язык [M] для [M] ## di ## ct. Pro [M] ## Способность следующего слова.
Целое слово маскирование	Мы используем язык [M] для [M] [M] [M] [M] [M] следующего слова.
N-грамм Маскировка	Мы используем [M] [M] для [M] [M] [M] [M] [M] [M] [M] Следующее слово.
MLM как коррекция	Мы используем текстовую систему для CA ## lc ## ul ul po ## si ## Способность следующего слова.

Основная структура Макберта точно такая же, как и BERT, позволяя бесшовным переходам без изменения существующего кода.

Для получения более подробной информации, пожалуйста, обратитесь к нашей статье: пересмотр предварительно обученных моделей для обработки естественного языка китайского языка

скачать

В основном предоставляет загрузки модели для версии TensorFlow 1.x.

MacBERT-large, Chinese : 24-слойный, 1024 скрытый, 16 голов, параметры 324 м
MacBERT-base, Chinese : 12-слойный, 768 скрытый, 12 голов, параметры 102 м.

Модель	Google Drive	Диск Baidu	размер
`MacBERT-large, Chinese`	Tensorflow	Tensorflow (pw: zejf)	1,2 г
`MacBERT-base, Chinese`	Tensorflow	Tensorflow (PW: 61GA)	383M

Pytorch/TensorFlow2 версия

Если вам нужна версия модели Pytorch или TensorFlow2:

Используйте трансформаторы для конвертации
Или скачать его с https://huggingface.co/hfl

Загрузите шаги (вы также можете клонировать весь каталог напрямую, используя GIT):

После ввода https://huggingface.co/hfl выберите модель Макберта, такую как Macbert-base: https://huggingface.co/hfl/chinese-macbert-base
Выберите вкладку «Файлы и версии»
Нажмите на бин/JSON и другие файлы, которые вам нужно скачать

Быстрая загрузка

Модели Macbert могут быть быстро загружены через трансформаторы.

 tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")

Примечание. Пожалуйста, используйте Berttokenizer и Bertmodel для загрузки моделей Macbert!

Соответствующая MODEL_NAME выглядит следующим образом:

Оригинальная модель	Модель имени вызова
Макберт-широкий	HFL/Китайский-Мацберт-широкий
Макберт-баз	HFL/китайская база

Базовый эффект

Вот отображение влияния Макберта на 6 задач вниз по течению (см. Документ для получения дополнительных результатов):

CMRC 2018 (Cui et al., 2019) : извлеченное понимание прочитанного (упрощенное китайское)
DRCD (Shao et al., 2018) : извлеченное понимание прочитанного (традиционное китайское)
Xnli (Connoue et al., 2018) : вывод естественного языка
Chnsenticorp : эмоциональная классификация
LCQMC (Liu et al., 2018) : сопоставление пары предложений
BQ Corpus (Chen et al., 2018) : сопоставление пары предложений

Чтобы обеспечить стабильность результатов, мы даем среднее значение (в скобках) и максимальное значение независимых прогонов 10 раз в то же время.

CMRC 2018

Набор данных CMRC 2018 - это китайские данные о понимании прочитанного машины, опубликованные Объединенной лабораторией Технологического института Харбина. Согласно данному вопросу, система должна извлечь фрагменты из главы в качестве ответа, в той же форме, что и команда. Индикаторы оценки: EM / F1

Модель	Разработка	Тест	Испытание	#Парамы
Берт-баз	65,5 (64,4) / 84,5 (84,0)	70,0 (68,7) / 87,0 (86,3)	18.6 (17,0) / 43,3 (41,3)	102 м
Берт-УВМ	66,3 (65,0) / 85,6 (84,7)	70,5 (69,1) / 87,4 (86,7)	21,0 (19,3) / 47,0 (43,9)	102 м
Bert-WWM-Ext	67,1 (65,6) / 85,7 (85,0)	71,4 (70,0) / 87,7 (87,0)	24.0 (20,0) / 47,3 (44,6)	102 м
Роберта-Вум-Экс	67,4 (66,5) / 87,2 (86,5)	72,6 (71,4) / 89,4 (88,8)	26,2 (24,6) / 51,0 (49,1)	102 м
Электрабаза	68,4 (68,0) / 84,8 (84,6)	73.1 (72,7) / 87,1 (86,9)	22,6 (21,7) / 45,0 (43,8)	102 м
Макберт-баз	68,5 (67,3) / 87,9 (87,1)	73,2 (72,4) / 89,5 (89,2)	30,2 (26,4) / 54,0 (52,2)	102 м
Электро-широкий	69,1 (68,2) / 85,2 (84,5)	73,9 (72,8) / 87,1 (86,6)	23.0 (21,6) / 44,2 (43,2)	324 м
Роберта-WWM-Ext-Large	68,5 (67,6) / 88,4 (87,9)	74,2 (72,4) / 90,6 (90,0)	31,5 (30,1) / 60,1 (57,5)	324 м
Макберт-широкий	70,7 (68,6) / 88,9 (88,2)	74,8 (73,2) / 90,7 (90,1)	31,9 (29,6) / 60,2 (57,6)	324 м

DRCD

Набор данных DRCD был выпущен Delta Research Institute, Тайвань, Китай. Его форма такая же, как команда, и является извлеченным набором данных по пониманию прочитанного, основанного на традиционном китайском языке. Поскольку традиционные китайские иероглифы удаляются из Эрни, не рекомендуется использовать Эрни (или преобразовать его в упрощенный китайский, а затем обрабатывать его) на традиционных китайских данных. Индикаторы оценки: EM / F1

Модель	Разработка	Тест	#Парамы
Берт-баз	83,1 (82,7) / 89,9 (89,6)	82,2 (81,6) / 89,2 (88,8)	102 м
Берт-УВМ	84,3 (83,4) / 90,5 (90,2)	82,8 (81,8) / 89,7 (89,0)	102 м
Bert-WWM-Ext	85,0 (84,5) / 91,2 (90,9)	83,6 (83,0) / 90,4 (89,9)	102 м
Роберта-Вум-Экс	86,6 (85,9) / 92,5 (92,2)	85,6 (85,2) / 92,0 (91,7)	102 м
Электрабаза	87,5 (87,0) / 92,5 (92,3)	86,9 (86,6) / 91,8 (91,7)	102 м
Макберт-баз	89,4 (89,2) / 94,3 (94,1)	89,5 (88,7) / 93,8 (93,5)	102 м
Электро-широкий	88,8 (88,7) / 93,3 (93,2)	88,8 (88,2) / 93,6 (93,2)	324 м
Роберта-WWM-Ext-Large	89,6 (89,1) / 94,8 (94,4)	89,6 (88,9) / 94,5 (94,1)	324 м
Макберт-широкий	91.2 (90,8) / 95,6 (95,3)	91,7 (90,9) / 95,6 (95,3)	324 м

Xnli

В задаче по выводу естественного языка мы принимаем данные XNLI , которые требуют, чтобы текст был разделен на три категории: entailment , neutral и contradictory . Индикатор оценки: точность

Модель	Разработка	Тест	#Парамы
Берт-баз	77,8 (77,4)	77,8 (77,5)	102 м
Берт-УВМ	79,0 (78,4)	78,2 (78,0)	102 м
Bert-WWM-Ext	79,4 (78,6)	78,7 (78,3)	102 м
Роберта-Вум-Экс	80,0 (79,2)	78,8 (78,3)	102 м
Электрабаза	77,9 (77,0)	78,4 (77,8)	102 м
Макберт-баз	80,3 (79,7)	79,3 (78,8)	102 м
Электро-широкий	81,5 (80,8)	81.0 (80,9)	324 м
Роберта-WWM-Ext-Large	82,1 (81,3)	81.2 (80,6)	324 м
Макберт-широкий	82,4 (81,8)	81,3 (80,6)	324 м

Chnsenticorp

В задаче анализа настроений набор данных бинарной классификации эмоций Chnsenticorp. Индикатор оценки: точность

Модель	Разработка	Тест	#Парамы
Берт-баз	94,7 (94,3)	95,0 (94,7)	102 м
Берт-УВМ	95,1 (94,5)	95,4 (95,0)	102 м
Bert-WWM-Ext	95,4 (94,6)	95,3 (94,7)	102 м
Роберта-Вум-Экс	95,0 (94,6)	95,6 (94,8)	102 м
Электрабаза	93,8 (93,0)	94,5 (93,5)	102 м
Макберт-баз	95,2 (94,8)	95,6 (94,9)	102 м
Электро-широкий	95,2 (94,6)	95,3 (94,8)	324 м
Роберта-WWM-Ext-Large	95,8 (94,9)	95,8 (94,9)	324 м
Макберт-широкий	95,7 (95,0)	95,9 (95,1)	324 м

LCQMC

LCQMC был выпущен Центром интеллектуальных компьютерных исследований Харбинского технологического института Технологической аспирантуры Шэньчжэнь. Индикатор оценки: точность

Модель	Разработка	Тест	#Парамы
БЕРТ	89,4 (88,4)	86,9 (86,4)	102 м
Берт-УВМ	89,4 (89,2)	87,0 (86,8)	102 м
Bert-WWM-Ext	89,6 (89,2)	87,1 (86,6)	102 м
Роберта-Вум-Экс	89,0 (88,7)	86,4 (86,1)	102 м
Электрабаза	90,2 (89,8)	87,6 (87,3)	102 м
Макберт-баз	89,5 (89,3)	87,0 (86,5)	102 м
Электро-широкий	90,7 (90,4)	87,3 (87,2)	324 м
Роберта-WWM-Ext-Large	90,4 (90,0)	87,0 (86,8)	324 м
Макберт-широкий	90,6 (90,3)	87,6 (87,1)	324 м

BQ Corpus

BQ Corpus выпускается в Центре интеллектуальных компьютерных исследований Харбинского технологического института в Шэньчжэне и является набором данных для банковской области. Индикатор оценки: точность

Модель	Разработка	Тест	#Парамы
БЕРТ	86,0 (85,5)	84,8 (84,6)	102 м
Берт-УВМ	86,1 (85,6)	85,2 (84,9)	102 м
Bert-WWM-Ext	86,4 (85,5)	85,3 (84,8)	102 м
Роберта-Вум-Экс	86,0 (85,4)	85,0 (84,6)	102 м
Электрабаза	84,8 (84,7)	84,5 (84,0)	102 м
Макберт-баз	86,0 (85,5)	85,2 (84,9)	102 м
Электро-широкий	86,7 (86,2)	85,1 (84,8)	324 м
Роберта-WWM-Ext-Large	86,3 (85,7)	85,8 (84,9)	324 м
Макберт-широкий	86,2 (85,7)	85,6 (85,0)	324 м

Часто задаваемые вопросы

Q1: Есть ли английская версия Макберта?

A1: Нет в данный момент.

Q2: Как использовать Макберт?

A2: Как и в использовании BERT, вам нужно просто заменить файл модели и конфигурацию для его использования. Конечно, вы также можете дополнительно обучать другие предварительно проведенные модели, загрузив нашу модель (то есть инициализацию секции трансформаторов).

Q3: Можете ли вы предоставить код обучения Макберта?

A3: План с открытым исходным кодом еще нет.

Q4: Могу ли я открыть предварительно обученный корпус с открытым исходным кодом?

A4: Мы не можем тренировать корпус с открытым исходным кодом, потому что нет права на переиздание соответствующим образом. На GitHub есть некоторые ресурсы с открытым исходным кодом, на которые вы можете уделять больше внимания и использовать больше внимания.

Q5: Есть ли планы обучать Макберта на более крупном корпусе и с открытым исходным кодом?

A5: У нас пока нет планов.

Цитировать

Если ресурсы в этом проекте полезны для вашего исследования, пожалуйста, укажите следующую статью.

 @inproceedings{cui-etal-2020-revisiting,
    title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
    author = "Cui, Yiming  and
      Che, Wanxiang  and
      Liu, Ting  and
      Qin, Bing  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}

или:

 @journal{cui-etal-2021-pretrain,
  title={Pre-Training with Whole Word Masking for Chinese BERT},
  author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
  journal={IEEE Transactions on Audio, Speech and Language Processing},
  year={2021},
  url={https://ieeexplore.ieee.org/document/9599397},
  doi={10.1109/TASLP.2021.3124365},
 }

Благодарности

Благодаря Google TPU Research Cloud (TFRC) за поддержку вычислительных ресурсов.

Обратная связь с вопросами

Если у вас есть какие -либо вопросы, пожалуйста, отправьте их в выпуске GitHub.

Прежде чем отправить вопрос, пожалуйста, проверьте, может ли FAQ решить проблему. Также рекомендуется проверить, может ли предыдущая проблема решить вашу проблему.
Повторные воспроизведения и проблемы, не связанные с этим проектом, будут обработаны [стабильно-бот] (Stail · Github Marketplace), пожалуйста, поймите.
Мы ответим на ваши вопросы как можно больше, но мы не можем гарантировать, что ваши вопросы будут отвечать.
Вежливо задавать вопросы и построить гармоничное дискуссионное сообщество.

Расширять

Дополнительная информация

Версия 1.0.0
Тип Другой исходный код
Время обновления 2025-04-18
размер 134.22KB
От Github

Связанные приложения

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

MacBERT

Новости

Оглавление

Введение

скачать

Pytorch/TensorFlow2 версия

Быстрая загрузка

Базовый эффект

CMRC 2018

DRCD

Xnli

Chnsenticorp

LCQMC

BQ Corpus

Часто задаваемые вопросы

Цитировать

Благодарности

Обратная связь с вопросами

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express