Загрузка Chinese XLNet - Загрузка исходного кода Chinese XLNet

Китайское описание | Английский

Этот проект предоставляет предварительно обученную модель XLNET для китайцев, направленную на обогащение ресурсов обработки естественных языков Китая и предоставление диверсифицированного предварительно обученного китайского выбора модели. Мы приветствуем всех экспертов и ученых для загрузки и использования его, а также совместно продвигать и развивать строительство китайских ресурсов.

Этот проект основан на официальном XLnet CMU/Google: https://github.com/zihangdai/xlnet

См. Больше ресурсов, выпущенных IFL из Технологического института Харбина (HFL): https://github.com/ymcui/hfl-anthology

новости

2023/3/28 Китайская большая модель Llama & Alpaca, которая может быть быстро развернута и опыта на ПК, просмотр: https://github.com/ymcui/chinese-llama-alpaca

2022/10/29 Мы предлагаем предварительно обученную модель LERT, которая интегрирует лингвистическую информацию. Просмотр: https://github.com/ymcui/lert

2022/3/30 Мы открываем новую предварительно обученную модель pert. Просмотр: https://github.com/ymcui/pert

2021/12/17 Совместная лаборатория Iflytek запускает модель резания инструментального инструмента Textpruner. Просмотр: https://github.com/airaria/textpruner

2021/10/24 Совместная лаборатория Iflytek выпустила предварительно обученную модель CINO для языков этнических меньшинств. Просмотр: https://github.com/ymcui/chinese-minority-plm

2021/7/21 «Обработка естественного языка: методы, основанные на моделях предварительных тренировок», написанные многими учеными из Харбинского технологического института Scir, и все могут его приобрести.

2021/1/27 Все модели поддерживают Tensorflow 2, пожалуйста, позвоните или загрузите его через библиотеку Transformers. https://huggingface.co/hfl

Исторические новости

2020/9/15 Наша статья [«Пересмотр предварительно обученных моделей для обработки естественного языка китайского языка»] (https://arxiv.org/abs/2004.13922) была нанята в качестве длинной статьи [выводы EMNLP] (https://2020.emnlp.org).

2020/8/27 IFL Совместная лаборатория возглавила список в клей, общий естественный язык Понимание оценки, проверьте список клей, новости.

2020/3/11, чтобы лучше понять потребности, вам предложено заполнить анкету, чтобы предоставить вам лучшие ресурсы.

2020.02.26 Iflytek

2019/12/19 Модель, опубликованная в этом каталоге

2019/9/5 XLNet-base доступен для скачивания, просмотреть модель скачать

2019/8/19 предоставляет китайскую модель XLNet-mid обученная крупномасштабному универсальному корпусу (5.4b Word Count), Скачать модель просмотра

Руководство по содержанию

глава	описывать
Модель скачать	Предоставляет адрес загрузки предварительно обученного XLnet на китайском языке
Базовые системы системы	Перечислите некоторые базовые эффекты системы
Предварительные детали	Описание деталей предварительного обучения
Задача вниз по течению	Соответствующие описания вниз по течению деталей настройки
Часто задаваемые вопросы	Часто задаваемые вопросы и ответы
Цитировать	Технические отчеты в этом каталоге

Модель скачать

XLNet-mid : 24-слойный, 768 скрытый, 12 голов, 209 м. Параметры
XLNet-base : 12-слойный, 768 скрытый, 12 голов, 117 м. Параметры

Модель аббревиатура	Материалы	Google скачать	Baidu NetDisk скачать
`XLNet-mid, Chinese`	Китайская вики+ Общие данные ^[1]	Tensorflow Пирог	TensorFlow (пароль 2JV2)
`XLNet-base, Chinese`	Китайская вики+ Общие данные ^[1]	Tensorflow Пирог	Tensorflow (пароль GE7W)

[1] Общие данные включают в себя: энциклопедию, новости, вопросы и ответы и другие данные, с общим количеством слов, достигающих 5,4b, так же, как и учебный корпус Bert-WWM-Ext, который мы выпустили.

Версия Pytorch

Если вам нужна версия Pytorch,

1) Пожалуйста, преобразуйте его через сценарий конверсии, предоставленный трансформаторами.

2) или непосредственно скачать Pytorch через официальный веб -сайт Huggingface: https://huggingface.co/hfl

Метод: нажмите на любую модель, которую вы хотите загрузить → Вытянуть вниз и нажмите «Список всех файлов в модели» → Загрузите файлы бина и JSON в всплывающем окне.

Инструкции для использования

Рекомендуется использовать точки загрузки Baidu NetDisk в материковом Китае, и зарубежным пользователям рекомендуется использовать точки загрузки Google. Размер файла модели XLNet-mid составляет около 800 м . Взять Tensorflow версию XLNet-mid, Chinese в качестве примера, после загрузки, распаковывать файл ZIP, чтобы получить:

 chinese_xlnet_mid_L-24_H-768_A-12.zip
    |- xlnet_model.ckpt      # 模型权重
    |- xlnet_model.meta      # 模型meta信息
    |- xlnet_model.index     # 模型index信息
    |- xlnet_config.json     # 模型参数
    |- spiece.model          # 词表

Быстрая загрузка

Полагаясь на Huggingface-Transformers 2.2.2, приведенные выше модели можно легко вызвать.

 tokenizer = AutoTokenizer.from_pretrained("MODEL_NAME")
model = AutoModel.from_pretrained("MODEL_NAME")

Соответствующий список MODEL_NAME заключается в следующем:

Название модели	Model_name
XLnet-Mid	HFL/CINKIN-XLNET-MID
Xlnet-base	HFL/CINKIN-XLNET-BASE

Базовые системы системы

Чтобы сравнить базовый эффект, мы проверили его на следующих китайских наборах данных. Китайский Bert, Bert-WWM, Bert-WWM-EXT, XLnet-Base, XLnet-Mid. Среди них результаты китайского BERT, BERT-WWM и BERT-WWM-EXT взяты из китайского проекта BERT-WWM. Время и энергия ограничены и не смогли охватывать больше категорий задач. Пожалуйста, попробуйте сами.

Примечание. Чтобы обеспечить надежность результатов, для той же модели мы работаем в 10 раз (разные случайные семена), чтобы сообщить о максимальных и средних значениях производительности модели. Если ничего неожиданного не происходит, результат вашей работы должен быть в этом диапазоне.

В индикаторе оценки среднее значение представлено в скобках, а максимальное значение представлено вне скобок.

Упрощенное китайское понимание прочитанного: CMRC 2018

** Набор данных CMRC 2018 ** - это данные о понимании прочитанного машины, выпущенные в Объединенной лаборатории Iflytek. Согласно данному вопросу, система должна извлечь фрагменты из главы в качестве ответа, в той же форме, что и команда. Индикаторы оценки: EM / F1

Модель	Разработка набора	Тестовый набор	Вызов набор
БЕРТ	65,5 (64,4) / 84,5 (84,0)	70,0 (68,7) / 87,0 (86,3)	18.6 (17,0) / 43,3 (41,3)
Берт-УВМ	66,3 (65,0) / 85,6 (84,7)	70,5 (69,1) / 87,4 (86,7)	21,0 (19,3) / 47,0 (43,9)
Bert-WWM-Ext	67,1 (65,6) / 85,7 (85,0)	71,4 (70,0) / 87,7 (87,0)	24.0 (20,0) / 47,3 (44,6)
Xlnet-base	65,2 (63,0) / 86,9 (85,9)	67,0 (65,8) / 87,2 (86,8)	25,0 (22,7) / 51,3 (49,5)
XLnet-Mid	66,8 (66,3) / 88,4 (88,1)	69,3 (68,5) / 89,2 (88,8)	29,1 (27,1) / 55,8 (54,9)

Традиционное китайское понимание прочитанного: DRCD

** Набор данных DRCD ** выпущен Delta Research Institute, Тайвань, Китай. Его форма такая же, как команда, и является извлеченным набором данных по пониманию прочитанного, основанного на традиционном китайском языке. Индикаторы оценки: EM / F1

Модель	Разработка набора	Тестовый набор
БЕРТ	83,1 (82,7) / 89,9 (89,6)	82,2 (81,6) / 89,2 (88,8)
Берт-УВМ	84,3 (83,4) / 90,5 (90,2)	82,8 (81,8) / 89,7 (89,0)
Bert-WWM-Ext	85,0 (84,5) / 91,2 (90,9)	83,6 (83,0) / 90,4 (89,9)
Xlnet-base	83,8 (83,2) / 92,3 (92,0)	83,5 (82,8) / 92,2 (91,8)
XLnet-Mid	85,3 (84,9) / 93,5 (93,3)	85,5 (84,8) / 93,6 (93,2)

Эмоциональная категория: chnsenticorp

В задаче классификации эмоций мы использовали набор данных Chnsenticorp. Модель должна разделить текст на две категории:积极и消极. Индикатор оценки: точность

Модель	Разработка набора	Тестовый набор
БЕРТ	94,7 (94,3)	95,0 (94,7)
Берт-УВМ	95,1 (94,5)	95,4 (95,0)
Xlnet-base
XLnet-Mid	95,8 (95,2)	95,4 (94,9)

Предварительные детали

Следующее должно описать детали предварительного обучения с использованием модели XLNet-mid в качестве примера.

Создать список словарного запаса

Следуйте шагам официального учебника XLNET, вам сначала нужно использовать предложение для создания списка словарного запаса. В этом проекте мы использовали размер словарного запаса 32000, а остальные параметры настроены в конфигурации по умолчанию в официальном примере.

 spm_train 
	--input=wiki.zh.txt 
	--model_prefix=sp10m.cased.v3 
	--vocab_size=32000 
	--character_coverage=0.99995 
	--model_type=unigram 
	--control_symbols=<cls>,<sep>,<pad>,<mask>,<eod> 
	--user_defined_symbols=<eop>,.,(,),",-,–,£,€ 
	--shuffle_input_sentence 
	--input_sentence_size=10000000

Генерировать tf_records

После создания списка словарного запаса оригинальный текстовый корпус используется для создания обучающего файла TF_Records. Оригинальный текст построен так же, как и оригинальное руководство:

Каждая строка является предложением
Пустые строки представляют собой конец документа

Ниже приведены команды при генерации данных (установите num_task и task на основе фактического количества срезов):

 SAVE_DIR=./output_b32
INPUT=./data/*.proc.txt

python data_utils.py 
	--bsz_per_host=32 
	--num_core_per_host=8 
	--seq_len=512 
	--reuse_len=256 
	--input_glob=${INPUT} 
	--save_dir=${SAVE_DIR} 
	--num_passes=20 
	--bi_data=True 
	--sp_path=spiece.model 
	--mask_alpha=6 
	--mask_beta=1 
	--num_predict=85 
	--uncased=False 
	--num_task=10 
	--task=1

Предварительное обучение

После получения вышеуказанных данных предварительно тренировочное XLnet начинается официально. Причина, по которой он называется XLNet-mid заключается в том, что количество слоев увеличивается только по сравнению с XLNet-base (12 слоев увеличиваются до 24 слоев), а остальные параметры не изменились, главным образом из-за ограничений вычислительных устройств. Используемые команды следующие:

 DATA=YOUR_GS_BUCKET_PATH_TO_TFRECORDS
MODEL_DIR=YOUR_OUTPUT_MODEL_PATH
TPU_NAME=v3-xlnet
TPU_ZONE=us-central1-b

python train.py 
	--record_info_dir=$DATA 
	--model_dir=$MODEL_DIR 
	--train_batch_size=32 
	--seq_len=512 
	--reuse_len=256 
	--mem_len=384 
	--perm_size=256 
	--n_layer=24 
	--d_model=768 
	--d_embed=768 
	--n_head=12 
	--d_head=64 
	--d_inner=3072 
	--untie_r=True 
	--mask_alpha=6 
	--mask_beta=1 
	--num_predict=85 
	--uncased=False 
	--train_steps=2000000 
	--save_steps=20000 
	--warmup_steps=20000 
	--max_save=20 
	--weight_decay=0.01 
	--adam_epsilon=1e-6 
	--learning_rate=1e-4 
	--dropout=0.1 
	--dropatt=0.1 
	--tpu=$TPU_NAME 
	--tpu_zone=$TPU_ZONE 
	--use_tpu=True

Задача вниз по течению

Устройство, используемое для тонкой настройки нижестоящих задач, является Google Cloud TPU V2 (64G HBM). В следующем кратко описывается конфигурация каждой задачи при выполнении тонкой настройки. Если вы используете GPU для тонкой корректировки, измените соответствующие параметры для адаптации, особенно batch_size , learning_rate и других параметров. Для получения связанного кода, пожалуйста, проверьте каталог src .

CMRC 2018

Для задач понимания прочитанного сначала необходимы данные TF_Records. Пожалуйста, обратитесь к методу обработки Squad 2.0 официального учебника XLnet, который здесь не будет описан. Ниже приведены параметры скрипта, используемые в задаче CMRC 2018 Китайского понимания машины:

 XLNET_DIR=YOUR_GS_BUCKET_PATH_TO_XLNET
MODEL_DIR=YOUR_OUTPUT_MODEL_PATH
DATA_DIR=YOUR_DATA_DIR_TO_TFRECORDS
RAW_DIR=YOUR_RAW_DATA_DIR
TPU_NAME=v2-xlnet
TPU_ZONE=us-central1-b

python -u run_cmrc_drcd.py 
	--spiece_model_file=./spiece.model 
	--model_config_path=${XLNET_DIR}/xlnet_config.json 
	--init_checkpoint=${XLNET_DIR}/xlnet_model.ckpt 
	--tpu_zone=${TPU_ZONE} 
	--use_tpu=True 
	--tpu=${TPU_NAME} 
	--num_hosts=1 
	--num_core_per_host=8 
	--output_dir=${DATA_DIR} 
	--model_dir=${MODEL_DIR} 
	--predict_dir=${MODEL_DIR}/eval 
	--train_file=${DATA_DIR}/cmrc2018_train.json 
	--predict_file=${DATA_DIR}/cmrc2018_dev.json 
	--uncased=False 
	--max_answer_length=40 
	--max_seq_length=512 
	--do_train=True 
	--train_batch_size=16 
	--do_predict=True 
	--predict_batch_size=16 
	--learning_rate=3e-5 
	--adam_epsilon=1e-6 
	--iterations=1000 
	--save_steps=2000 
	--train_steps=2400 
	--warmup_steps=240

DRCD

Ниже приведены параметры сценария, используемые в задаче по пониманию прочитанного машины DRCD:

 XLNET_DIR=YOUR_GS_BUCKET_PATH_TO_XLNET
MODEL_DIR=YOUR_OUTPUT_MODEL_PATH
DATA_DIR=YOUR_DATA_DIR_TO_TFRECORDS
RAW_DIR=YOUR_RAW_DATA_DIR
TPU_NAME=v2-xlnet
TPU_ZONE=us-central1-b

python -u run_cmrc_drcd.py 
	--spiece_model_file=./spiece.model 
	--model_config_path=${XLNET_DIR}/xlnet_config.json 
	--init_checkpoint=${XLNET_DIR}/xlnet_model.ckpt 
	--tpu_zone=${TPU_ZONE} 
	--use_tpu=True 
	--tpu=${TPU_NAME} 
	--num_hosts=1 
	--num_core_per_host=8 
	--output_dir=${DATA_DIR} 
	--model_dir=${MODEL_DIR} 
	--predict_dir=${MODEL_DIR}/eval 
	--train_file=${DATA_DIR}/DRCD_training.json 
	--predict_file=${DATA_DIR}/DRCD_dev.json 
	--uncased=False 
	--max_answer_length=30 
	--max_seq_length=512 
	--do_train=True 
	--train_batch_size=16 
	--do_predict=True 
	--predict_batch_size=16 
	--learning_rate=3e-5 
	--adam_epsilon=1e-6 
	--iterations=1000 
	--save_steps=2000 
	--train_steps=3600 
	--warmup_steps=360

Chnsenticorp

В отличие от задач понимания прочитанного, задачи классификации не нужно заранее генерировать TF_RECORDS. Ниже приведены параметры сценария, используемые в задаче классификации эмоций Chnsenticorp:

 XLNET_DIR=YOUR_GS_BUCKET_PATH_TO_XLNET
MODEL_DIR=YOUR_OUTPUT_MODEL_PATH
DATA_DIR=YOUR_DATA_DIR_TO_TFRECORDS
RAW_DIR=YOUR_RAW_DATA_DIR
TPU_NAME=v2-xlnet
TPU_ZONE=us-central1-b

python -u run_classifier.py 
	--spiece_model_file=./spiece.model 
	--model_config_path=${XLNET_DIR}/xlnet_config.json 
	--init_checkpoint=${XLNET_DIR}/xlnet_model.ckpt 
	--task_name=csc 
	--do_train=True 
	--do_eval=True 
	--eval_all_ckpt=False 
	--uncased=False 
	--data_dir=${RAW_DIR} 
	--output_dir=${DATA_DIR} 
	--model_dir=${MODEL_DIR} 
	--train_batch_size=48 
	--eval_batch_size=48 
	--num_hosts=1 
	--num_core_per_host=8 
	--num_train_epochs=3 
	--max_seq_length=256 
	--learning_rate=2e-5 
	--save_steps=5000 
	--use_tpu=True 
	--tpu=${TPU_NAME} 
	--tpu_zone=${TPU_ZONE}

Часто задаваемые вопросы

В: Будет ли выпущена более крупная модель?
A: Не уверен, не гарантируется. Если мы получим значительные улучшения производительности, мы рассмотрим публикацию.

В: Не очень хорошо в некоторых наборах данных?
A: Выберите другие модели или продолжайте использовать ваши данные для предварительного обучения на этой контрольной точке.

В: Будут ли выпущены предварительные данные?
A: Извините, это не может быть опубликовано из -за проблем с авторским правом.

В: Сколько времени нужно, чтобы обучить Xlnet?
A: XLNet-mid обучен 2-метровой шаги (paratch = 32) с использованием Cloud TPU V3 (128G HBM), который занимает около 3 недель. XLNet-base тренировал 4-метровые шаги.

В: Почему XLnet официально не выпустил многоязычный или китайский XLnet?
A: (Ниже приведены личные мнения) Неизвестно, многие люди оставили сообщения, в которых они надеются, нажмите xlnet-issue#3. Благодаря официальной технологии XLnet и вычислительной мощности, обучение такой модели не сложно (многоязычная версия может быть более сложной и требует рассмотрения баланса между различными языками. Вы также можете ссылаться на описание в многоязычном берте). Но думая об этом, с другой стороны, авторы не обязаны делать это. Как ученые, их технический вклад достаточно, и их не следует критиковать, если они не будут опубликованы, и они призывают всех рационально относиться к работе других людей.

Q: В большинстве случаев XLnet лучше, чем BERT?
A: В настоящее время кажется, что, по крайней мере, вышеупомянутые задачи эффективны, и используемые данные такие же, как и BRET-WWM-EXT, который мы выпустили.

Q:?
A :.

Цитировать

Если контент в этом каталоге полезен для вашей исследовательской работы, пожалуйста, обратитесь к следующему техническому отчету в вашей статье: https://arxiv.org/abs/2004.13922

 @inproceedings{cui-etal-2020-revisiting,
    title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
    author = "Cui, Yiming  and
      Che, Wanxiang  and
      Liu, Ting  and
      Qin, Bing  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}

Благодарности

Авторы проекта: Cui Yiming (Объединенная лаборатория Iflytek), Че Ванксиан (Технологический институт Харбин), Лю Тинг (Технологический институт Харбина), Ван Шиджин (iflytek), Ху Гупинг (Iflytek)

Этот проект финансируется программой Google TensorFlow Research Cloud (TFRC).

Во время строительства этого проекта мы сослались на следующий склад, и мы хотели бы выразить здесь благодарность:

Xlnet: https://github.com/zihangdai/xlnet
Малайя: https://github.com/huseinzol05/malaya/tree/master/xlnet
Корейский XLnet (Корейское описание, без перевода): https://github.com/yeontaek/xlnet-korean-model

Отказ от ответственности

Этот проект не является китайской моделью XLnet, официально выпущенной XLnet. В то же время этот проект не является официальным продуктом Института технологий Харбина или iflytek. Контент в этом проекте предназначен только для технических исследований и не используется в качестве какой -либо заключительной основы. Пользователи могут использовать эту модель в любое время в рамках лицензии, но мы не несем ответственности за прямые или косвенные потери, вызванные использованием содержания проекта.

Подписывайтесь на нас

Добро пожаловать, чтобы следовать официальному официальному отчету WeChat об Объединенной лаборатории Iflytek.

Обратная связь и вклад вопросов

Если у вас есть какие -либо вопросы, пожалуйста, отправьте их в выпуске GitHub.
У нас нет операций и поощряем пользователи сети, чтобы помочь друг другу решать проблемы.
Если вы найдете проблемы реализации или готовы совместно построить проект, отправьте запрос на вытяжку.

Расширять

Chinese XLNet

новости

Руководство по содержанию

Модель скачать

Версия Pytorch

Инструкции для использования

Быстрая загрузка

Базовые системы системы

Упрощенное китайское понимание прочитанного: CMRC 2018

Традиционное китайское понимание прочитанного: DRCD

Эмоциональная категория: chnsenticorp

Предварительные детали

Создать список словарного запаса

Генерировать tf_records

Предварительное обучение

Задача вниз по течению

CMRC 2018

DRCD

Chnsenticorp

Часто задаваемые вопросы

Цитировать

Благодарности

Отказ от ответственности

Подписывайтесь на нас

Обратная связь и вклад вопросов

GitHub sgrebnov/cordova plugin background download

Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

Китайские DOS-игры (Китайские DOS-игры в браузере) исходный код проекта, официальная версия

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express