EasyNLP скачать - загрузка исходного кода EasyNLP

EasyNLP

Другой исходный код

v0.0.3

Скачать

EasyNlp-это всеобъемлющий и простой в использовании NLP Toolkit

EasyNlp 中文介绍

EasyNLP-это простой в использовании инструментарий для разработки и применения NLP в Pytorch, впервые выпущенный внутри Alibaba в 2021 году. Он построен из масштабируемых распределенных стратегий обучения и поддерживает комплексный набор алгоритмов NLP для различных применений НЛП. EasyNLP объединяет дистилляцию знаний и несколько выстрелов для посадки крупных предварительно обученных моделей, а также различные популярные многомодальные предварительно обученные модели. Он обеспечивает унифицированную структуру модельного обучения, вывода и развертывания для реальных приложений. Он включил более 10 автобусов и более 20 бизнес -сценариев в группе Alibaba. Он плавно интегрирован в продукты Platform of AI (PAI), включая PAI-DSW для разработки, PAI-DLC для обучения облачных костюмах, PAI-EAS для обслуживания и DESIGNER для обучения модели с нулевым кодом.

Основные особенности

Простая в использовании и очень настраиваемое: в дополнение к предоставлению простых в использовании и кратких командах для вызова передовых моделей, он также абстрагирует определенные пользовательские модули, такие как Appzoo и Modelzoo, чтобы облегчить создание приложений NLP. Он оснащен распределенной учебной рамкой Pai Pytorch Torchacccelerator для ускорения распределенного обучения.
Совместимый с библиотеками с открытым исходным кодом: EasyNLP имеет API для поддержки подготовки моделей от HuggingFace/Transformers с распределенной структурой PAI. Он также поддерживает предварительно обученные модели в Easy Transfer Modelzoo.
Предварительное обучение, инъецированное знаниями: команда PAI имеет много исследований по предварительному обучению, введенному знаниями, и создает модель, инъецированную знаниями, которая завоевала первое место в конкурсе предварительного обучения CCF. EasyNLP интегрирует эти передовые знания, предварительно обученные моделям, включая DKPLM и Kgbert.
Приземление крупных предварительно обученных моделей: EasyNLP предоставляет несколько выстрелов, что позволяет пользователям наносить большие модели с помощью всего несколько образцов для достижения хороших результатов. В то же время он предоставляет функции дистилляции знаний, чтобы помочь быстро переехать большие модели в небольшую и эффективную модель для облегчения развертывания в Интернете.
Предварительно обученные модели многомодальности: easyNLP-это не только NLP. Он также поддерживает различные популярные многомодальные предварительно обученные модели для поддержки задач на языке зрения, которые требуют визуальных знаний. Например, он оснащен моделями в стиле клипа для моделей в стиле текста и в стиле Dalle для генерации текста до изображения.

Технические статьи

У нас есть серия технических статей о функциональных возможностях easynlp.

BeautifulPrompt ： Pai 推出自研 Приглашение 美化器，赋能 aigc 一键出美图
Pai-Diffusion 中文模型全面升级，海量高清艺术大图一键生成
Easynlp 集成 k-global pointer 算法，支持中文信息抽取
阿里云 Pai-Diffusion 功能再升级全链路支持模型调优全链路支持模型调优平均推理速度提升 75%以上
Пай-диффузия 模型来了！阿里云机器学习团队带您徜徉中文艺术海洋
模型精度再被提升，统一跨任务小样本学习算法 Upt 给出解法!
Span 抽取和元学习能碰撞出怎样的新火花，小样本实体识别来告诉你!
算法 kecp 被顶会 emnlp 收录，极少训练数据就能实现机器阅读理解极少训练数据就能实现机器阅读理解极少训练数据就能实现机器阅读理解
当大火的文图生成模型遇见知识图谱， ai 画像趋近于真实世界
EasyNlp 发布融合语言学和事实知识的中文预训练模型 Ckbert
EasyNlp 带你实现中英文机器阅读理解
跨模态学习能力再升级， easynlp 电商文图检索效果刷新 Sota
EasyNlp 玩转文本摘要 (新闻标题）生成
中文稀疏 gpt 大模型落地 - 通往低成本 & 高性能多任务通用自然语言理解的关键里程碑
Easynlp 集成 k-bert 算法，借助知识图谱实现更优 finetune
EasyNlp 中文文图生成模型带你秒变艺术家
面向长代码序列的 Трансформатор 模型优化方法提升长代码场景性能
EasyNlp 带你玩转 клип 图文检索
阿里云机器学习 pai 开源中文 nlp 算法框架 easynlp ，助力 nlp 大模型落地
预训练知识度量比赛夺冠！阿里云 Pai 发布知识预训练工具

Установка

Вы можете настроить из источника ：

$ git clone https://github.com/alibaba/EasyNLP.git
$ cd EasyNLP
$ python setup.py install

Этот репо протестирован на Python 3.6, Pytorch> = 1,8.

Быстрый старт

Теперь давайте покажем, как использовать всего несколько строк кода для создания модели классификации текста на основе BERT.

 from easynlp . appzoo import ClassificationDataset
from easynlp . appzoo import get_application_model , get_application_evaluator
from easynlp . core import Trainer
from easynlp . utils import initialize_easynlp , get_args
from easynlp . utils . global_vars import parse_user_defined_parameters
from easynlp . utils import get_pretrain_model_path

initialize_easynlp ()
args = get_args ()
user_defined_parameters = parse_user_defined_parameters ( args . user_defined_parameters )
pretrained_model_name_or_path = get_pretrain_model_path ( user_defined_parameters . get ( 'pretrain_model_name_or_path' , None ))

train_dataset = ClassificationDataset (
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    data_file = args . tables . split ( "," )[ 0 ],
    max_seq_length = args . sequence_length ,
    input_schema = args . input_schema ,
    first_sequence = args . first_sequence ,
    second_sequence = args . second_sequence ,
    label_name = args . label_name ,
    label_enumerate_values = args . label_enumerate_values ,
    user_defined_parameters = user_defined_parameters ,
    is_training = True )

valid_dataset = ClassificationDataset (
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    data_file = args . tables . split ( "," )[ - 1 ],
    max_seq_length = args . sequence_length ,
    input_schema = args . input_schema ,
    first_sequence = args . first_sequence ,
    second_sequence = args . second_sequence ,
    label_name = args . label_name ,
    label_enumerate_values = args . label_enumerate_values ,
    user_defined_parameters = user_defined_parameters ,
    is_training = False )

model = get_application_model ( app_name = args . app_name ,
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    num_labels = len ( valid_dataset . label_enumerate_values ),
    user_defined_parameters = user_defined_parameters )

trainer = Trainer ( model = model , train_dataset = train_dataset , user_defined_parameters = user_defined_parameters ,
    evaluator = get_application_evaluator ( app_name = args . app_name , valid_dataset = valid_dataset , user_defined_parameters = user_defined_parameters ,
    eval_batch_size = args . micro_batch_size ))
    
trainer . train ()

Полный пример можно найти здесь.

Вы также можете использовать инструменты командной строки Appzoo для быстрого обучения модели приложения. Возьмите текстовую классификацию в наборе данных SST-2 в качестве примера. Сначала вы можете скачать train.tsv и dev.tsv, затем начать обучение:

$ easynlp 
   --mode=train 
   --worker_gpu=1 
   --tables=train.tsv,dev.tsv 
   --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 
   --first_sequence=sent1 
   --label_name=label 
   --label_enumerate_values=0,1 
   --checkpoint_dir=./classification_model 
   --epoch_num=1  
   --sequence_length=128 
   --app_name=text_classify 
   --user_defined_parameters= ' pretrain_model_name_or_path=bert-small-uncased '

А затем предсказать:

$ easynlp 
  --mode=predict 
  --tables=dev.tsv 
  --outputs=dev.pred.tsv 
  --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 
  --output_schema=predictions,probabilities,logits,output 
  --append_cols=label 
  --first_sequence=sent1 
  --checkpoint_path=./classification_model 
  --app_name=text_classify

Чтобы узнать больше об использовании Appzoo, обратитесь к нашей документации.

Modelzoo

EasyNLP в настоящее время предоставляет следующие модели в ModelZoo:

Pai-Bert-ZH (от Alibaba Pai): предварительно обученные модели BERT с крупным китайским корпусом.
DKPLM (от Alibaba Pai): выпущен с бумагой DKPLM: разместный предварительно обученный языковой модель, обладающую знаниями, для понимания естественного языка Таолином Чжаном, Ченгю Ванг, Нан Ху, Мингхуй Цю, Ченггуанг, Сяофенг Хе и Джун Хуанг.
Кгберт (из Академии Алибабы Дамо и Пай): модели до обучения BERT с инъекцией графа знаний.
Берт (из Google): выпущен с бумагой Bert: предварительное обучение глубоких двунаправленных трансформаторов для понимания языка Джейкоба Девлина, Мин-Вей Чанга, Кентона Ли и Кристины Тутанова.
Роберта (из Facebook): выпущен с бумагой Roberta: надежно оптимизированный подход Bert, предварительно подготовленного Иньхана Лю, Майла Отта, Намана Гояла, Цзинфей Дю, Мандара Джоши, Данки Чена, Омера Леви, Майк Льюис, Луке Зеттлемера и Веселина Стоянов.
Китайская Роберта (из HFL): китайская версия Роберты.
Макберт (от HFL): выпущен с документом, пересматривающими предварительно обученные модели для китайской обработки естественного языка Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang и Guoping Hu.
Wobert (от Zhuiyitechnology): Bert на основе слов для китайского языка.
Fashionbert (от Alibaba Pai & Icbu): в процессе.
Geep (от alibaba pai): в процессе.
Менгзи (из Лэнгбоата): выпущен с бумагой Mengzi: к легким, но изобретательным предварительно обученным моделям для китайцев Чжуошэн Чжан, Ханцин Чжан, Кемин Чен, Юханг Го, Цзинюн Хуа, Юлонг Ванг и Минг Чжоу.
Erlangshen (из идеи): выпущен из репо.

Пожалуйста, обратитесь к этому Readme для использования этих моделей в EasyNLP. Между тем, EasyNLP поддерживает для загрузки предварительных моделей из HuggingFace/Transformers, пожалуйста, обратитесь к этому руководству для получения подробной информации.

EasyNlp идет мультимодальным

EasyNLP также поддерживает различные популярные многомодальные предварительно обученные модели для поддержки задач на языке зрения, которые требуют визуальных знаний. Например, он оснащен моделями в стиле клипа для моделей в стиле текста и в стиле Dalle для генерации текста до изображения.

Сопоставление текста-изображения
Поколение текста до изображения
Поколение изображения в тексте

Приземление больших предварительно обученных моделей

EasyNLP обеспечивает несколько выстрелов в обучении и дистилляции знаний, чтобы помочь получить большие предварительно обученные модели.

ПЭТ (из LMU Munich и Sulzer GmbH): выпущен с бумагой, использующей вопросы, которые могут быть предназначены для нескольких выстрелов и вывод о естественном языке от Тимо Шика и Хинриха Шутце. Мы внесли несколько небольших изменений, чтобы сделать алгоритм подходящим для китайского языка.
P-Tuning (из Университета Цинхуа, Пекинская академия ИИ, MIT и Recurrent AI, Ltd.): выпущен с бумагой GPT, также понимает Сяо Лю, Янан Чжэн, Чжэнсиао Дю, Мин Дин, Юджи Цянь, Чжилин Ян и Джи Тан Тан. Мы внесли несколько небольших изменений, чтобы сделать алгоритм подходящим для китайского языка.
CP-Tuning (от Alibaba Pai): выпущен с бумагой, создающей предварительно обученные языковые модели.
Vanilla KD (от Alibaba Pai): дистилляция логитов крупных моделей в стиле Bert до более мелких.
Meta KD (от Alibaba Pai): выпущена с бумажной мета-KD: мета-знаний по рамки дистилляции для языковой модели, сжатия по доменам Хаоджи Пан, Ченгю Ванг, Мингхуи Цю, Йихан Чжан, Ядианг Ли и Джун Хуанг.
Увеличение данных (от Alibaba PAI): увеличение данных на основе руководителя MLM предварительно обученных языковых моделей.

Подсказка

EasyNLP предоставляет простой инструментарий для контрольных наборов данных. Вы можете просто использовать только эту команду для набора данных Clackmark Clithmark.

 # Format: bash run_clue.sh device_id train/predict dataset
# e.g.: 
bash run_clue.sh 0 train csl

Мы протестировали модели наборов данных Chiese Bert и Roberta, результаты набора Dev:

(1) Берт-базовый китайз:

Задача	AFQMC	Cmnli	CSL	Iflytek	Ocnli	Tnews	WSC
П	72,17%	75,74%	80,93%	60,22%	78,31%	57,52%	75,33%
F1	52,96%	75,74%	81,71%	60,22%	78,30%	57,52%	80,82%

(2) Китайский роберта-WWM-Ext:

Задача	AFQMC	Cmnli	CSL	Iflytek	Ocnli	Tnews	WSC
П	73,10%	80,75%	80,07%	60,98%	80,75%	57,93%	86,84%
F1	56,04%	80,75%	81,50%	60,98%	80,75%	57,93%	89,58%

Вот подробный пример Clue Benchmark.

Учебные пособия

自定义文本分类示例
QuickStart- 文本分类
QuickStart-Pai DSW
QuickStart-MaxCompute/ODPS 数据
Appzoo- 文本向量化
Appzoo- 文本分类/匹配
Appzoo- 序列标注
Appzoo-geep 文本分类
Appzoo- 文本生成
基础预训练实践
知识预训练实践
知识蒸馏实践
跨任务知识蒸馏实践
小样本学习实践
Rapidformer 模型训练加速实践
Документы API: http://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/release/easynlp/easynlp_docs/html/index.html

Лицензия

Этот проект лицензирован по лицензии Apache (версия 2.0). Этот инструментарий также содержит некоторый код, измененный из других репо, по другим лицензиям с открытым исходным кодом. См. Файл уведомления для получения дополнительной информации.

Изменение

EasyNLP v0.0.3 был выпущен в 01.01.2022. Пожалуйста, обратитесь к TAG_V0.0.3 для получения более подробной информации и истории.

Связаться с нами

Сканируйте следующие QR -коды, чтобы присоединиться к дискуссионной группе Dingtalk. Групповые дискуссии в основном на китайском языке, но английский также приветствуется.

Ссылка

Dkplm: https://paperswithcode.com/paper/dkplm-decomposable-knowledge-enhanced-pre
Metakd: https://paperswithcode.com/paper/meta-kd-a-meta-knowledge-distillation
CP-tuning: https://paperswithcode.com/paper/making-pre train-language-models-end-to-end-1
Fashionbert: https://paperswithcode.com/paper/fashionbert-text-and-image-matching-with

У нас есть бумага для Arxiv, чтобы вы могли процитировать библиотеку EasyNLP:

 @article{easynlp,
  doi = {10.48550/ARXIV.2205.00258},  
  url = {https://arxiv.org/abs/2205.00258},  
  author = {Wang, Chengyu and Qiu, Minghui and Zhang, Taolin and Liu, Tingting and Li, Lei and Wang, Jianing and Wang, Ming and Huang, Jun and Lin, Wei},
  title = {EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing},
  publisher = {arXiv},  
  year = {2022}
}

Расширять

Дополнительная информация

Версия v0.0.3
Тип Другой исходный код
Время обновления 2025-04-19
размер 19.01MB
От Github

Связанные приложения

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

EasyNLP

EasyNlp 中文介绍

Основные особенности

Технические статьи

Установка

Быстрый старт

Modelzoo

EasyNlp идет мультимодальным

Приземление больших предварительно обученных моделей

Подсказка

Учебные пособия

Лицензия

Изменение

Связаться с нами

Ссылка

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express