Китайский | Английский
Хотя предварительно обученные языковые модели широко использовались в различных областях НЛП, их высокое время и вычислительные затраты на мощность по-прежнему являются неотложной проблемой. Это требует от нас разработки моделей с лучшими показателями в рамках определенных вычислительных ограничений мощности.
Наша цель не в том, чтобы использовать большие размеры модели, а легкие, но более мощные модели, хотя и более развернутые и промышленные посадки.
Основываясь на таких методах, как лингвистическая интеграция информации и ускорение обучения, мы разработали модель серии Mengzi. Благодаря структуре модели, соответствующей BERT, модель Mengzi может быстро заменить существующие предварительные модели.
Для получения подробных технических отчетов, пожалуйста, см.
Менгзи: На пути к легким, но гениальным предварительно обученным моделям для китайцев
Добавьте две модели архитектуры GPT с открытым исходным кодом:
@huajingyun
@hululuzhu, основанный на Mengzi-T5-базе, китайская модель написания искусственного интеллекта обучена генерировать поэзию и пары. Для модели и конкретного использования, пожалуйста, см.
Некоторые примеры поколения:
上: 不待鸣钟已汗颜,重来试手竟何艰
下: 何堪击鼓频催泪?一别伤心更枉然
上: 北国风光,千里冰封,万里雪飘
下: 南疆气象,五湖浪涌,三江潮来
標題: 作诗:中秋
詩歌: 秋氣侵肌骨,寒光入鬢毛。雲收千里月,風送一帆高。
標題: 作诗:中秋 模仿:苏轼
詩歌: 月從海上生,照我庭下影。不知此何夕,但見天宇靜。
Благодаря модели версии PaddlenLP и документации, предоставленной командой PaddlePaddle @yyyibiao.
Примечание. Модель версии PaddlenLP не является продуктом технологии Lanzhou, и мы не принимаем на себя соответствующую ответственность за ее результаты и результаты.
| Модель | Параметр Количество | Применимые сценарии | Функции | Скачать ссылку |
|---|---|---|---|---|
| Менгзи-берт-баз | 110 м | Задачи по пониманию естественного языка, такие как классификация текста, распознавание сущности, извлечение отношений и понимание прочитанного | Так же, как структура BERT, существующие веса BERT могут быть заменены напрямую. | Huggingface, домашняя загрузка Zip, Paddlenlp |
| Mengzi-Bert-L6-H768 | 60 м | Задачи по пониманию естественного языка, такие как классификация текста, распознавание сущности, извлечение отношений и понимание прочитанного | Полученная дистилляцией Mengzi-Bert-Large | Объятие |
| Mengzi-Bert-Base-Fin | 110 м | Задачи понимания естественного языка в финансовой сфере | Обучение по финансовому корпусу на основе Mengzi-bert-base | Huggingface, домашняя загрузка Zip, Paddlenlp |
| Mengzi-T5-Base | 220 м | Подходит для управляемых задач генерации текста, таких как генерация копирайтинга и поколение новостей | Та же самая структура, что и T5, не включает в себя задачи вниз по течению и необходимо использовать после Finetune для конкретной задачи. В отличие от позиционирования GPT, оно не подходит для продолжения текста | Huggingface, домашняя загрузка Zip, Paddlenlp |
| Mengzi-T5-Base-Mt | 220 м | Обеспечить нулевые и несколько выстрелов | Многозадачная модель, может выполнять различные задачи с помощью приглашения | Объятие |
| Mengzi-oscar-base | 110 м | Подходит для изображений Описание, осмотр изображений и текста и другие задачи | Мультимодальная модель, основанная на Mengzi-Bert-Base. Обучение картинкам и текстовым парам на миллионов | Объятие |
| Mengzi-gpt-neo-баз | 125 м | Задача продолжения текста | Основываясь на обучении рефрена | Объятие |
| Bloom-389m-ZH | 389 м | Задача продолжения текста | Модель Bloom, которая обрезает многоязычные версии на основе китайского корпуса, уменьшает необходимость в видео памяти | Объятие |
| Bloom-800M-ZH | 800 м | Задача продолжения текста | Модель Bloom, которая обрезает многоязычные версии на основе китайского корпуса, уменьшает необходимость в видео памяти | Объятие |
| Bloom-1B4-ZH | 1400 м | Задача продолжения текста | Модель Bloom, которая обрезает многоязычные версии на основе китайского корпуса, уменьшает необходимость в видео памяти | Объятие |
| Блум-2B5-ZH | 2500 м | Задача продолжения текста | Модель Bloom, которая обрезает многоязычные версии на основе китайского корпуса, уменьшает необходимость в видео памяти | Объятие |
| Bloom-6B4-ZH | 6400 м | Задача продолжения текста | Модель Bloom, которая обрезает многоязычные версии на основе китайского корпуса, уменьшает необходимость в видео памяти | Объятие |
| REGPT-125M-200G | 125 м | Задача продолжения текста | Модель, обученная GPT-Neo-125M через https://github.com/langboat/mengzi-retiveval-lm | Объятие |
| Guohua-Diffusion | - | Поколение китайского стиля и текста | Обучение Dreambooth на основе Stablabliffusion v1.5 | Объятие |
# 使用 Huggingface transformers 加载
from transformers import BertTokenizer , BertModel
tokenizer = BertTokenizer . from_pretrained ( "Langboat/mengzi-bert-base" )
model = BertModel . from_pretrained ( "Langboat/mengzi-bert-base" )или
# 使用 PaddleNLP 加载
from paddlenlp . transformers import BertTokenizer , BertModel
tokenizer = BertTokenizer . from_pretrained ( "Langboat/mengzi-bert-base" )
model = BertModel . from_pretrained ( "Langboat/mengzi-bert-base" )Интегрирован в пространства для объятий с Gradio. Смотрите демонстрацию:
# 使用 Huggingface transformers 加载
from transformers import T5Tokenizer , T5ForConditionalGeneration
tokenizer = T5Tokenizer . from_pretrained ( "Langboat/mengzi-t5-base" )
model = T5ForConditionalGeneration . from_pretrained ( "Langboat/mengzi-t5-base" )или
# 使用 PaddleNLP 加载
from paddlenlp . transformers import T5Tokenizer , T5ForConditionalGeneration
tokenizer = T5Tokenizer . from_pretrained ( "Langboat/mengzi-t5-base" )
model = T5ForConditionalGeneration . from_pretrained ( "Langboat/mengzi-t5-base" )Справочные документы
# 使用 Huggingface transformers 加载
pip install transformersили
# 使用 PaddleNLP 加载
pip install paddlenlp| Модель | AFQMC | Tnews | Iflytek | Cmnli | WSC | CSL | CMRC2018 | C3 | Чид |
|---|---|---|---|---|---|---|---|---|---|
| Роберта-Вум-Экс | 74.30 | 57.51 | 60,80 | 80.70 | 67.20 | 80.67 | 77.59 | 67.06 | 83,78 |
| Менгзи-берт-баз | 74,58 | 57,97 | 60.68 | 82.12 | 87.50 | 85,40 | 78.54 | 71.70 | 84.16 |
| Mengzi-Bert-L6-H768 | 74,75 | 56.68 | 60.22 | 81.10 | 84,87 | 85,77 | 78.06 | 65,49 | 80.59 |
Роберта-WWM-Ext Score происходит от базовой линии подсказки
| Задача | Скорость обучения | Глобальный размер партии | Эпохи |
|---|---|---|---|
| AFQMC | 3e-5 | 32 | 10 |
| Tnews | 3e-5 | 128 | 10 |
| Iflytek | 3e-5 | 64 | 10 |
| Cmnli | 3e-5 | 512 | 10 |
| WSC | 8e-6 | 64 | 50 |
| CSL | 5e-5 | 128 | 5 |
| CMRC2018 | 5e-5 | 8 | 5 |
| C3 | 1E-4 | 240 | 3 |
| Чид | 5e-5 | 256 | 5 |

Wangyulong [AT] Langboat [dot] com
Q. Менгзи-берт-база Сохраненный размер модели составляет 196 м. Но размер модели BERT-базе около 389 м? Есть ли какая -то разница в определенной базе, или у него отсутствует ненужный контент при сохранении?
A: Это потому, что Mengzi-Bert-Base обучен FP16.
В. Каков источник данных для финансовых предварительно обученных моделей?
A: Финансовые новости, объявления и исследовательские отчеты, ползающие на веб -страницах.
В. Есть ли модель версии Tensorflow?
A: Вы можете конвертировать его самостоятельно.
В. Может ли код обучения быть открытым?
A: Из -за тесной связи с внутренней инфраструктурой в настоящее время нет плана.
В. Как мы можем добиться того же эффекта, что и генерация текста на официальном сайте Langboat?
A: Наша модель генерации основной текста основана на архитектуре T5. Основной алгоритм генерации текста может относиться к Google T5 Paper: https://arxiv.org/pdf/1910.10683.pdf. Наша модель с открытым исходным кодом Mengzi-T5 такая же, как и предварительно обученная архитектура модели Google T5, которая является общей предварительно обученной моделью и не имеет специальных задач генерации текста. Наша функция генерации маркетинговых копирайтинга заключается в том, чтобы использовать большой объем данных для конкретных задач по нижней части Finetune. Исходя из этого, чтобы достичь контролируемых эффектов генерации, мы создали полный набор конвейеров генерации текста: от очистки данных, извлечения знаний, построения данных обучения до оценки качества генерации. Большинство из них настроены в соответствии с коммерческими сценариями реализации: различные задачи предварительного обучения и Finetune строится в соответствии с различными потребностями бизнеса и различными формами данных. Эта часть включает в себя относительно сложные программные архитектуры и конкретные бизнес -сценарии, и мы еще не провели открытый исходный код.
В. Может ли Mengzi-T5-базе непосредственно?
A: Мы ссылаемся на T5 v1.1 и не включаем нисходящие задачи.
В: Что мне делать, если загружать ошибки с помощью трансформатора Huggingface?
A: Попробуйте добавить force_download=True .
В: Менгзи-T5-база всегда имеет тенденцию генерировать кандидатов на гранулярность слов при ограничении генерации, в то время как MT5-это противоположное, выращивание слов является предпочтительным. Это процесс обучения словом процесса гранулярности?
О: Вместо того, чтобы использовать словарный запас MT5, мы перепровеили токенизатор на основе корпуса, включая больше словарного запаса. Таким образом, после кодирования текстов той же длины количество токенов будет меньше, использование памяти будет меньше, а скорость тренировок будет быстрее.
Контент в этом проекте предназначен только для технических исследований и не используется в качестве какой -либо заключительной основы. Пользователи могут использовать эту модель в любое время в рамках лицензии, но мы не несем ответственности за прямые или косвенные потери, вызванные использованием содержания проекта. Экспериментальные результаты, представленные в техническом отчете, только показывают, что производительность в соответствии с конкретным набором данных и комбинацией гиперпараметрических данных не представляет характер каждой модели. Экспериментальные результаты могут измениться из -за случайных семян и вычислительных устройств.
Во время процесса использования этой модели различными способами (включая, помимо прочего, модификацию, прямое использование и использование через третьи стороны), пользователи не должны прямо или косвенно участвовать в актах, которые нарушают законы и правила юрисдикции, к которой они принадлежат (включая, помимо прочего, модификацию, прямое использование и социальная мораль в любом случае. Пользователи. Пользовательские обязанности. Пользовательский, что мы не должны нести все, что мы не соответствуют, что у нас не соответствуют, что у нас не соответствуют. юридическая или совместная ответственность.
Мы имеем право интерпретировать, изменять и обновлять этот отказ от ответственности.
@misc{zhang2021mengzi,
title={Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese},
author={Zhuosheng Zhang and Hanqing Zhang and Keming Chen and Yuhang Guo and Jingyun Hua and Yulong Wang and Ming Zhou},
year={2021},
eprint={2110.06696},
archivePrefix={arXiv},
primaryClass={cs.CL}
}