Китайское описание | Английский

Этот проект предоставляет предварительно обученную модель XLNET для китайцев, направленную на обогащение ресурсов обработки естественных языков Китая и предоставление диверсифицированного предварительно обученного китайского выбора модели. Мы приветствуем всех экспертов и ученых для загрузки и использования его, а также совместно продвигать и развивать строительство китайских ресурсов.
Этот проект основан на официальном XLnet CMU/Google: https://github.com/zihangdai/xlnet
Китайский Лерт | Китайский английский pert | Китайский Макберт | Китайская электро | Китайский Xlnet | Китайский берт | Инструмент для дистилляции знаний TextBrewer | Модельный режущий инструмент текст
См. Больше ресурсов, выпущенных IFL из Технологического института Харбина (HFL): https://github.com/ymcui/hfl-anthology
2023/3/28 Китайская большая модель Llama & Alpaca, которая может быть быстро развернута и опыта на ПК, просмотр: https://github.com/ymcui/chinese-llama-alpaca
2022/10/29 Мы предлагаем предварительно обученную модель LERT, которая интегрирует лингвистическую информацию. Просмотр: https://github.com/ymcui/lert
2022/3/30 Мы открываем новую предварительно обученную модель pert. Просмотр: https://github.com/ymcui/pert
2021/12/17 Совместная лаборатория Iflytek запускает модель резания инструментального инструмента Textpruner. Просмотр: https://github.com/airaria/textpruner
2021/10/24 Совместная лаборатория Iflytek выпустила предварительно обученную модель CINO для языков этнических меньшинств. Просмотр: https://github.com/ymcui/chinese-minority-plm
2021/7/21 «Обработка естественного языка: методы, основанные на моделях предварительных тренировок», написанные многими учеными из Харбинского технологического института Scir, и все могут его приобрести.
2021/1/27 Все модели поддерживают Tensorflow 2, пожалуйста, позвоните или загрузите его через библиотеку Transformers. https://huggingface.co/hfl
2020/8/27 IFL Совместная лаборатория возглавила список в клей, общий естественный язык Понимание оценки, проверьте список клей, новости.
2020/3/11, чтобы лучше понять потребности, вам предложено заполнить анкету, чтобы предоставить вам лучшие ресурсы.
2020.02.26 Iflytek
2019/12/19 Модель, опубликованная в этом каталоге
2019/9/5 XLNet-base доступен для скачивания, просмотреть модель скачать
2019/8/19 предоставляет китайскую модель XLNet-mid обученная крупномасштабному универсальному корпусу (5.4b Word Count), Скачать модель просмотра
| глава | описывать |
|---|---|
| Модель скачать | Предоставляет адрес загрузки предварительно обученного XLnet на китайском языке |
| Базовые системы системы | Перечислите некоторые базовые эффекты системы |
| Предварительные детали | Описание деталей предварительного обучения |
| Задача вниз по течению | Соответствующие описания вниз по течению деталей настройки |
| Часто задаваемые вопросы | Часто задаваемые вопросы и ответы |
| Цитировать | Технические отчеты в этом каталоге |
XLNet-mid : 24-слойный, 768 скрытый, 12 голов, 209 м. ПараметрыXLNet-base : 12-слойный, 768 скрытый, 12 голов, 117 м. Параметры| Модель аббревиатура | Материалы | Google скачать | Baidu NetDisk скачать |
|---|---|---|---|
XLNet-mid, Chinese | Китайская вики+ Общие данные [1] | Tensorflow Пирог | TensorFlow (пароль 2JV2) |
XLNet-base, Chinese | Китайская вики+ Общие данные [1] | Tensorflow Пирог | Tensorflow (пароль GE7W) |
[1] Общие данные включают в себя: энциклопедию, новости, вопросы и ответы и другие данные, с общим количеством слов, достигающих 5,4b, так же, как и учебный корпус Bert-WWM-Ext, который мы выпустили.
Если вам нужна версия Pytorch,
1) Пожалуйста, преобразуйте его через сценарий конверсии, предоставленный трансформаторами.
2) или непосредственно скачать Pytorch через официальный веб -сайт Huggingface: https://huggingface.co/hfl
Метод: нажмите на любую модель, которую вы хотите загрузить → Вытянуть вниз и нажмите «Список всех файлов в модели» → Загрузите файлы бина и JSON в всплывающем окне.
Рекомендуется использовать точки загрузки Baidu NetDisk в материковом Китае, и зарубежным пользователям рекомендуется использовать точки загрузки Google. Размер файла модели XLNet-mid составляет около 800 м . Взять Tensorflow версию XLNet-mid, Chinese в качестве примера, после загрузки, распаковывать файл ZIP, чтобы получить:
chinese_xlnet_mid_L-24_H-768_A-12.zip
|- xlnet_model.ckpt # 模型权重
|- xlnet_model.meta # 模型meta信息
|- xlnet_model.index # 模型index信息
|- xlnet_config.json # 模型参数
|- spiece.model # 词表
Полагаясь на Huggingface-Transformers 2.2.2, приведенные выше модели можно легко вызвать.
tokenizer = AutoTokenizer.from_pretrained("MODEL_NAME")
model = AutoModel.from_pretrained("MODEL_NAME")
Соответствующий список MODEL_NAME заключается в следующем:
| Название модели | Model_name |
|---|---|
| XLnet-Mid | HFL/CINKIN-XLNET-MID |
| Xlnet-base | HFL/CINKIN-XLNET-BASE |
Чтобы сравнить базовый эффект, мы проверили его на следующих китайских наборах данных. Китайский Bert, Bert-WWM, Bert-WWM-EXT, XLnet-Base, XLnet-Mid. Среди них результаты китайского BERT, BERT-WWM и BERT-WWM-EXT взяты из китайского проекта BERT-WWM. Время и энергия ограничены и не смогли охватывать больше категорий задач. Пожалуйста, попробуйте сами.
Примечание. Чтобы обеспечить надежность результатов, для той же модели мы работаем в 10 раз (разные случайные семена), чтобы сообщить о максимальных и средних значениях производительности модели. Если ничего неожиданного не происходит, результат вашей работы должен быть в этом диапазоне.
В индикаторе оценки среднее значение представлено в скобках, а максимальное значение представлено вне скобок.
** Набор данных CMRC 2018 ** - это данные о понимании прочитанного машины, выпущенные в Объединенной лаборатории Iflytek. Согласно данному вопросу, система должна извлечь фрагменты из главы в качестве ответа, в той же форме, что и команда. Индикаторы оценки: EM / F1
| Модель | Разработка набора | Тестовый набор | Вызов набор |
|---|---|---|---|
| БЕРТ | 65,5 (64,4) / 84,5 (84,0) | 70,0 (68,7) / 87,0 (86,3) | 18.6 (17,0) / 43,3 (41,3) |
| Берт-УВМ | 66,3 (65,0) / 85,6 (84,7) | 70,5 (69,1) / 87,4 (86,7) | 21,0 (19,3) / 47,0 (43,9) |
| Bert-WWM-Ext | 67,1 (65,6) / 85,7 (85,0) | 71,4 (70,0) / 87,7 (87,0) | 24.0 (20,0) / 47,3 (44,6) |
| Xlnet-base | 65,2 (63,0) / 86,9 (85,9) | 67,0 (65,8) / 87,2 (86,8) | 25,0 (22,7) / 51,3 (49,5) |
| XLnet-Mid | 66,8 (66,3) / 88,4 (88,1) | 69,3 (68,5) / 89,2 (88,8) | 29,1 (27,1) / 55,8 (54,9) |
** Набор данных DRCD ** выпущен Delta Research Institute, Тайвань, Китай. Его форма такая же, как команда, и является извлеченным набором данных по пониманию прочитанного, основанного на традиционном китайском языке. Индикаторы оценки: EM / F1
| Модель | Разработка набора | Тестовый набор |
|---|---|---|
| БЕРТ | 83,1 (82,7) / 89,9 (89,6) | 82,2 (81,6) / 89,2 (88,8) |
| Берт-УВМ | 84,3 (83,4) / 90,5 (90,2) | 82,8 (81,8) / 89,7 (89,0) |
| Bert-WWM-Ext | 85,0 (84,5) / 91,2 (90,9) | 83,6 (83,0) / 90,4 (89,9) |
| Xlnet-base | 83,8 (83,2) / 92,3 (92,0) | 83,5 (82,8) / 92,2 (91,8) |
| XLnet-Mid | 85,3 (84,9) / 93,5 (93,3) | 85,5 (84,8) / 93,6 (93,2) |
В задаче классификации эмоций мы использовали набор данных Chnsenticorp. Модель должна разделить текст на две категории:积极и消极. Индикатор оценки: точность
| Модель | Разработка набора | Тестовый набор |
|---|---|---|
| БЕРТ | 94,7 (94,3) | 95,0 (94,7) |
| Берт-УВМ | 95,1 (94,5) | 95,4 (95,0) |
| Xlnet-base | ||
| XLnet-Mid | 95,8 (95,2) | 95,4 (94,9) |
Следующее должно описать детали предварительного обучения с использованием модели XLNet-mid в качестве примера.
Следуйте шагам официального учебника XLNET, вам сначала нужно использовать предложение для создания списка словарного запаса. В этом проекте мы использовали размер словарного запаса 32000, а остальные параметры настроены в конфигурации по умолчанию в официальном примере.
spm_train
--input=wiki.zh.txt
--model_prefix=sp10m.cased.v3
--vocab_size=32000
--character_coverage=0.99995
--model_type=unigram
--control_symbols=<cls>,<sep>,<pad>,<mask>,<eod>
--user_defined_symbols=<eop>,.,(,),",-,–,£,€
--shuffle_input_sentence
--input_sentence_size=10000000
После создания списка словарного запаса оригинальный текстовый корпус используется для создания обучающего файла TF_Records. Оригинальный текст построен так же, как и оригинальное руководство:
Ниже приведены команды при генерации данных (установите num_task и task на основе фактического количества срезов):
SAVE_DIR=./output_b32
INPUT=./data/*.proc.txt
python data_utils.py
--bsz_per_host=32
--num_core_per_host=8
--seq_len=512
--reuse_len=256
--input_glob=${INPUT}
--save_dir=${SAVE_DIR}
--num_passes=20
--bi_data=True
--sp_path=spiece.model
--mask_alpha=6
--mask_beta=1
--num_predict=85
--uncased=False
--num_task=10
--task=1
После получения вышеуказанных данных предварительно тренировочное XLnet начинается официально. Причина, по которой он называется XLNet-mid заключается в том, что количество слоев увеличивается только по сравнению с XLNet-base (12 слоев увеличиваются до 24 слоев), а остальные параметры не изменились, главным образом из-за ограничений вычислительных устройств. Используемые команды следующие:
DATA=YOUR_GS_BUCKET_PATH_TO_TFRECORDS
MODEL_DIR=YOUR_OUTPUT_MODEL_PATH
TPU_NAME=v3-xlnet
TPU_ZONE=us-central1-b
python train.py
--record_info_dir=$DATA
--model_dir=$MODEL_DIR
--train_batch_size=32
--seq_len=512
--reuse_len=256
--mem_len=384
--perm_size=256
--n_layer=24
--d_model=768
--d_embed=768
--n_head=12
--d_head=64
--d_inner=3072
--untie_r=True
--mask_alpha=6
--mask_beta=1
--num_predict=85
--uncased=False
--train_steps=2000000
--save_steps=20000
--warmup_steps=20000
--max_save=20
--weight_decay=0.01
--adam_epsilon=1e-6
--learning_rate=1e-4
--dropout=0.1
--dropatt=0.1
--tpu=$TPU_NAME
--tpu_zone=$TPU_ZONE
--use_tpu=True
Устройство, используемое для тонкой настройки нижестоящих задач, является Google Cloud TPU V2 (64G HBM). В следующем кратко описывается конфигурация каждой задачи при выполнении тонкой настройки. Если вы используете GPU для тонкой корректировки, измените соответствующие параметры для адаптации, особенно batch_size , learning_rate и других параметров. Для получения связанного кода, пожалуйста, проверьте каталог src .
Для задач понимания прочитанного сначала необходимы данные TF_Records. Пожалуйста, обратитесь к методу обработки Squad 2.0 официального учебника XLnet, который здесь не будет описан. Ниже приведены параметры скрипта, используемые в задаче CMRC 2018 Китайского понимания машины:
XLNET_DIR=YOUR_GS_BUCKET_PATH_TO_XLNET
MODEL_DIR=YOUR_OUTPUT_MODEL_PATH
DATA_DIR=YOUR_DATA_DIR_TO_TFRECORDS
RAW_DIR=YOUR_RAW_DATA_DIR
TPU_NAME=v2-xlnet
TPU_ZONE=us-central1-b
python -u run_cmrc_drcd.py
--spiece_model_file=./spiece.model
--model_config_path=${XLNET_DIR}/xlnet_config.json
--init_checkpoint=${XLNET_DIR}/xlnet_model.ckpt
--tpu_zone=${TPU_ZONE}
--use_tpu=True
--tpu=${TPU_NAME}
--num_hosts=1
--num_core_per_host=8
--output_dir=${DATA_DIR}
--model_dir=${MODEL_DIR}
--predict_dir=${MODEL_DIR}/eval
--train_file=${DATA_DIR}/cmrc2018_train.json
--predict_file=${DATA_DIR}/cmrc2018_dev.json
--uncased=False
--max_answer_length=40
--max_seq_length=512
--do_train=True
--train_batch_size=16
--do_predict=True
--predict_batch_size=16
--learning_rate=3e-5
--adam_epsilon=1e-6
--iterations=1000
--save_steps=2000
--train_steps=2400
--warmup_steps=240
Ниже приведены параметры сценария, используемые в задаче по пониманию прочитанного машины DRCD:
XLNET_DIR=YOUR_GS_BUCKET_PATH_TO_XLNET
MODEL_DIR=YOUR_OUTPUT_MODEL_PATH
DATA_DIR=YOUR_DATA_DIR_TO_TFRECORDS
RAW_DIR=YOUR_RAW_DATA_DIR
TPU_NAME=v2-xlnet
TPU_ZONE=us-central1-b
python -u run_cmrc_drcd.py
--spiece_model_file=./spiece.model
--model_config_path=${XLNET_DIR}/xlnet_config.json
--init_checkpoint=${XLNET_DIR}/xlnet_model.ckpt
--tpu_zone=${TPU_ZONE}
--use_tpu=True
--tpu=${TPU_NAME}
--num_hosts=1
--num_core_per_host=8
--output_dir=${DATA_DIR}
--model_dir=${MODEL_DIR}
--predict_dir=${MODEL_DIR}/eval
--train_file=${DATA_DIR}/DRCD_training.json
--predict_file=${DATA_DIR}/DRCD_dev.json
--uncased=False
--max_answer_length=30
--max_seq_length=512
--do_train=True
--train_batch_size=16
--do_predict=True
--predict_batch_size=16
--learning_rate=3e-5
--adam_epsilon=1e-6
--iterations=1000
--save_steps=2000
--train_steps=3600
--warmup_steps=360
В отличие от задач понимания прочитанного, задачи классификации не нужно заранее генерировать TF_RECORDS. Ниже приведены параметры сценария, используемые в задаче классификации эмоций Chnsenticorp:
XLNET_DIR=YOUR_GS_BUCKET_PATH_TO_XLNET
MODEL_DIR=YOUR_OUTPUT_MODEL_PATH
DATA_DIR=YOUR_DATA_DIR_TO_TFRECORDS
RAW_DIR=YOUR_RAW_DATA_DIR
TPU_NAME=v2-xlnet
TPU_ZONE=us-central1-b
python -u run_classifier.py
--spiece_model_file=./spiece.model
--model_config_path=${XLNET_DIR}/xlnet_config.json
--init_checkpoint=${XLNET_DIR}/xlnet_model.ckpt
--task_name=csc
--do_train=True
--do_eval=True
--eval_all_ckpt=False
--uncased=False
--data_dir=${RAW_DIR}
--output_dir=${DATA_DIR}
--model_dir=${MODEL_DIR}
--train_batch_size=48
--eval_batch_size=48
--num_hosts=1
--num_core_per_host=8
--num_train_epochs=3
--max_seq_length=256
--learning_rate=2e-5
--save_steps=5000
--use_tpu=True
--tpu=${TPU_NAME}
--tpu_zone=${TPU_ZONE}
В: Будет ли выпущена более крупная модель?
A: Не уверен, не гарантируется. Если мы получим значительные улучшения производительности, мы рассмотрим публикацию.
В: Не очень хорошо в некоторых наборах данных?
A: Выберите другие модели или продолжайте использовать ваши данные для предварительного обучения на этой контрольной точке.
В: Будут ли выпущены предварительные данные?
A: Извините, это не может быть опубликовано из -за проблем с авторским правом.
В: Сколько времени нужно, чтобы обучить Xlnet?
A: XLNet-mid обучен 2-метровой шаги (paratch = 32) с использованием Cloud TPU V3 (128G HBM), который занимает около 3 недель. XLNet-base тренировал 4-метровые шаги.
В: Почему XLnet официально не выпустил многоязычный или китайский XLnet?
A: (Ниже приведены личные мнения) Неизвестно, многие люди оставили сообщения, в которых они надеются, нажмите xlnet-issue#3. Благодаря официальной технологии XLnet и вычислительной мощности, обучение такой модели не сложно (многоязычная версия может быть более сложной и требует рассмотрения баланса между различными языками. Вы также можете ссылаться на описание в многоязычном берте). Но думая об этом, с другой стороны, авторы не обязаны делать это. Как ученые, их технический вклад достаточно, и их не следует критиковать, если они не будут опубликованы, и они призывают всех рационально относиться к работе других людей.
Q: В большинстве случаев XLnet лучше, чем BERT?
A: В настоящее время кажется, что, по крайней мере, вышеупомянутые задачи эффективны, и используемые данные такие же, как и BRET-WWM-EXT, который мы выпустили.
Q:?
A :.
Если контент в этом каталоге полезен для вашей исследовательской работы, пожалуйста, обратитесь к следующему техническому отчету в вашей статье: https://arxiv.org/abs/2004.13922
@inproceedings{cui-etal-2020-revisiting,
title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
author = "Cui, Yiming and
Che, Wanxiang and
Liu, Ting and
Qin, Bing and
Wang, Shijin and
Hu, Guoping",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
pages = "657--668",
}
Авторы проекта: Cui Yiming (Объединенная лаборатория Iflytek), Че Ванксиан (Технологический институт Харбин), Лю Тинг (Технологический институт Харбина), Ван Шиджин (iflytek), Ху Гупинг (Iflytek)
Этот проект финансируется программой Google TensorFlow Research Cloud (TFRC).
Во время строительства этого проекта мы сослались на следующий склад, и мы хотели бы выразить здесь благодарность:
Этот проект не является китайской моделью XLnet, официально выпущенной XLnet. В то же время этот проект не является официальным продуктом Института технологий Харбина или iflytek. Контент в этом проекте предназначен только для технических исследований и не используется в качестве какой -либо заключительной основы. Пользователи могут использовать эту модель в любое время в рамках лицензии, но мы не несем ответственности за прямые или косвенные потери, вызванные использованием содержания проекта.
Добро пожаловать, чтобы следовать официальному официальному отчету WeChat об Объединенной лаборатории Iflytek.

Если у вас есть какие -либо вопросы, пожалуйста, отправьте их в выпуске GitHub.
У нас нет операций и поощряем пользователи сети, чтобы помочь друг другу решать проблемы.
Если вы найдете проблемы реализации или готовы совместно построить проект, отправьте запрос на вытяжку.