EasyNLP下载 - EasyNLP源代码下载

EasyNLP

其他源码

v0.0.3

下载

EasyNLP是一个综合且易于使用的NLP工具包

Easynlp中文介绍

EasyNLP是Pytorch易于使用的NLP开发和应用工具包，于2021年首次在阿里巴巴内部发行。它采用可扩展的分布式培训策略构建，并支持针对各种NLP应用的全面NLP算法套件。 EasyNLP将知识蒸馏和少量学习集成在一起，用于降落大型预训练模型，以及各种流行的多模式预训练的模型。它为现实世界应用程序提供了模型培训，推理和部署的统一框架。它在阿里巴巴集团内为10多个公共汽车和20多个业务方案提供了动力。它无缝集成到AI（PAI）产品的平台，包括用于开发的PAI-DSW，用于云本地培训的PAI-DLC，用于服务的PAI-DLC和用于零代码模型培训的PAI-Designer。

主要功能

易于使用且高度可定制的：除了提供易于使用和简洁的命令以调用尖端模型外，它还抽象了某些自定义模块，例如Appzoo和ModelZoo，以使构建NLP应用程序易于构建。它配备了Pai Pytorch分布式培训框架Torchaccelerator，以加快分布式培训。
与开源库兼容： EasyNLP具有API，可以通过PAI分布式框架来支持HuggingFace/Transferalers的模型培训。它还支持EasyTransfer ModelZoo中的预训练模型。
注入知识的预训练： PAI团队对注入知识的预训练有大量研究，并建立了一个知识的模型，该模型在CCF知识预训练竞赛中赢得了第一名。 EasyNLP集成了这些尖端知识预训练的模型，包括DKPLM和Kgbert。
登陆大型预训练的模型： EasyNLP提供了很少的学习能力，使用户只需几个样本即可获得大型模型，以取得良好的结果。同时，它提供了知识蒸馏功能，以帮助将大型模型快速提炼到一个小型而有效的模型，以促进在线部署。
多模式的预训练模型： EasyNLP不仅仅是NLP。它还支持各种流行的多模式预训练模型，以支持需要视觉知识的视觉任务。例如，它配备了用于文本图像匹配的夹式模型和用于文本图像生成的Dalle式模型。

技术文章

我们有一系列有关EasyNLP功能的技术文章。

BeautifulPrompt：Pai推出自研提示美化器，AIGC一键出美图
pai-diffusion中文模型全面升级，海量高清艺术大图一键生成
easynlp集成k-global指针算法，支持中文信息抽取
阿里云pai-tiffusion功能再升级，全链路支持模型调优，平均推理速度提升，平均推理速度提升75％
pai-diffusion 模型来了！阿里云机器学习团队带您徜徉中文艺术海洋
模型精度再被提升，统一跨任务小样本学习算法upt给出解法！
跨度抽取和元学习能碰撞出怎样的新火花，小样本实体识别来告诉你！
算法kecp被顶会emnlp收录，极少训练数据就能实现机器阅读理解
当大火的文图生成模型遇见知识图谱，ai画像趋近于真实世界
easynlp发布融合语言学和事实知识的中文预训练模型ckbert
Easynlp带你实现中英文机器阅读理解
跨模态学习能力再升级，easynlp电商文图检索效果刷新sota
easynlp 玩转文本摘要（新闻标题）
中文稀疏gpt大模型落地 -通往低成本＆高性能多任务通用自然语言理解的关键里程碑
easynlp集成k-bert算法，借助知识图谱实现更优finetune
Easynlp中文文图生成模型带你秒变艺术家
面向长代码序列的变压器模型优化方法，提升长代码场景性能
Easynlp带你玩转夹
阿里云机器学习pai开源中文nlp算法框架easynlp，助力nlp大模型落地
预训练知识度量比赛夺冠！阿里云 pai

安装

您可以从来源设置：

$ git clone https://github.com/alibaba/EasyNLP.git
$ cd EasyNLP
$ python setup.py install

该回购在Python 3.6，Pytorch> = 1.8上进行了测试。

快速开始

现在，让我们展示如何仅使用几行代码来构建基于Bert的文本分类模型。

 from easynlp . appzoo import ClassificationDataset
from easynlp . appzoo import get_application_model , get_application_evaluator
from easynlp . core import Trainer
from easynlp . utils import initialize_easynlp , get_args
from easynlp . utils . global_vars import parse_user_defined_parameters
from easynlp . utils import get_pretrain_model_path

initialize_easynlp ()
args = get_args ()
user_defined_parameters = parse_user_defined_parameters ( args . user_defined_parameters )
pretrained_model_name_or_path = get_pretrain_model_path ( user_defined_parameters . get ( 'pretrain_model_name_or_path' , None ))

train_dataset = ClassificationDataset (
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    data_file = args . tables . split ( "," )[ 0 ],
    max_seq_length = args . sequence_length ,
    input_schema = args . input_schema ,
    first_sequence = args . first_sequence ,
    second_sequence = args . second_sequence ,
    label_name = args . label_name ,
    label_enumerate_values = args . label_enumerate_values ,
    user_defined_parameters = user_defined_parameters ,
    is_training = True )

valid_dataset = ClassificationDataset (
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    data_file = args . tables . split ( "," )[ - 1 ],
    max_seq_length = args . sequence_length ,
    input_schema = args . input_schema ,
    first_sequence = args . first_sequence ,
    second_sequence = args . second_sequence ,
    label_name = args . label_name ,
    label_enumerate_values = args . label_enumerate_values ,
    user_defined_parameters = user_defined_parameters ,
    is_training = False )

model = get_application_model ( app_name = args . app_name ,
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    num_labels = len ( valid_dataset . label_enumerate_values ),
    user_defined_parameters = user_defined_parameters )

trainer = Trainer ( model = model , train_dataset = train_dataset , user_defined_parameters = user_defined_parameters ,
    evaluator = get_application_evaluator ( app_name = args . app_name , valid_dataset = valid_dataset , user_defined_parameters = user_defined_parameters ,
    eval_batch_size = args . micro_batch_size ))
    
trainer . train ()

完整的示例可以在此处找到。

您还可以使用Appzoo命令行工具快速训练应用程序模型。以SST-2数据集上的文本分类为例。首先，您可以下载train.tsv和dev.tsv，然后开始培训：

$ easynlp 
   --mode=train 
   --worker_gpu=1 
   --tables=train.tsv,dev.tsv 
   --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 
   --first_sequence=sent1 
   --label_name=label 
   --label_enumerate_values=0,1 
   --checkpoint_dir=./classification_model 
   --epoch_num=1  
   --sequence_length=128 
   --app_name=text_classify 
   --user_defined_parameters= ' pretrain_model_name_or_path=bert-small-uncased '

然后预测：

$ easynlp 
  --mode=predict 
  --tables=dev.tsv 
  --outputs=dev.pred.tsv 
  --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 
  --output_schema=predictions,probabilities,logits,output 
  --append_cols=label 
  --first_sequence=sent1 
  --checkpoint_path=./classification_model 
  --app_name=text_classify

要了解有关Appzoo使用的更多信息，请参阅我们的文档。

ModelZoo

EasyNLP当前在ModelZoo中提供以下模型：

Pai-bert-Zh（来自阿里巴巴Pai）：具有大中国语料库的预培训的BERT模型。
DKPLM（来自阿里巴巴Pai）：用纸DKPLM发行：可分解的知识增强的预训练的预训练的语言模型，用于自然语言理解，由Taolin Zhang，Chengyu Wang，Nan Hu，Minghui Qiu，Minghui Qiu，Chengguang Tang，Chengguang Tang，Xiaofeng He和Jun Jun Huang。
Kgbert（来自阿里巴巴Damo Academy＆Pai）：注射知识图嵌入的预训练BERT模型。
BERT（来自Google）：与Paper Bert发行：雅各布·德夫林（Jacob Devlin），明·韦·张（Ming-Wei Chang），肯顿·李（Kenton Lee）和克里斯蒂娜·图塔诺瓦（Kristina Toutanova）的深度双向变压器的预培训。
罗伯塔（来自Facebook）：与论文发行：Yinhan Liu，Myle Ott，Naman Goyal，Jingfei Du，Jingfei Du，Mandar Joshi，Danqi Chen，Omer Levy，Mike Levy，Mike Levy，Mike Levis，Luke Zettlemoyer和Veselin Stoyanov。
中国罗伯塔（来自HFL）：罗伯塔的中文版本。
Macbert（来自HFL）：发行的论文通过Yiming Cui，Wanxiang Che，Ting Liu，Bing Qin，Shijin Wang和Guoping Hu的论文重新审视了中国自然语言处理的预培训模型。
Wobert（来自Zhuiyitechnology）：中文的基于单词的Bert。
Fashionbert（来自阿里巴巴Pai＆icbu）：正在进行中。
Geep（来自阿里巴巴Pai）：正在进行中。
Mengzi（来自Langboat）：与Paper Mengzi一起发行：Zhusheng Zhang，Hanqing Zhang，Keming Chen，Yuhang Guo，Jingyun Hua，Jingyun Hua，Yulong Hua，Yulong Wang and Yulong Wang and Yulong Wang and Yulong Wang and Ying Wang和Zhou张发行。
Erlangshen（来自Idea）：从仓库中释放。

请参考此读数，以在EasyNLP中使用这些模型。同时，EasyNLP支持从拥抱面/变形金刚加载预告片的模型，请参阅本教程以获取详细信息。

EasyNLP进行多模式

EasyNLP还支持各种流行的多模式预训练模型，以支持需要视觉知识的视觉任务。例如，它配备了用于文本图像匹配的夹式模型和用于文本图像生成的Dalle式模型。

文本图像匹配
文本到图像生成
图像到文本生成

降落大型预训练模型

EasyNLP提供了很少的学习和知识蒸馏，以帮助登陆大型预培训模型。

PET（来自LMU慕尼黑和Sulzer GmbH）：用纸张发行了披肩问题，以示蒂莫·希克（Timo Schick）和辛里希·舒特（Hinrich Schutze）的几个镜头文本分类和自然语言推断。我们进行了一些修改，使该算法适合中文。
P-Tuning（来自Tsinghua University，MIT和RECIRTRENT AI，LTD。我们进行了一些修改，使该算法适合中文。
CP-Tuning（来自阿里巴巴Pai）：通过纸张释放，通过Ziyun Xu，Chengyu Wang，Minghui Qiu，Minghui Qiu，Fuli Luo，Runxin Xu，Runxin Xu，Songfang Huang和Jun Jun Huang和Jun Jun Huang，终端训练的语言模型端到端的几个学习者进行了对比及时的迅速调整。
Vanilla KD（来自阿里巴巴Pai）：将大型Bert风格模型的逻辑提炼成较小的型号。
Meta KD（来自阿里巴巴Pai）：与纸质元KD发行：跨域的元知识蒸馏框架，用于Haojie Pan，Chengyu Wang，Minghui Qiu，Yichang Zhang，Yichang Zhang，Yaliang Li和Jun Huang的跨域。
数据增强（来自阿里巴巴PAI）：根据先前训练的语言模型的MLM负责人来增强数据。

线索基准

EasyNLP提供了一个简单的工具包来基准线索数据集。您只需使用此命令即可基于线索数据集。

 # Format: bash run_clue.sh device_id train/predict dataset
# e.g.: 
bash run_clue.sh 0 train csl

我们已经测试了Chiese Bert和Roberta Modelson数据集，Dev Set的结果是：

（1）Bert-Base-Chinese：

任务	AFQMC	cmnli	CSL	iflytek	Ocnli	Tnews	WSC
p	72.17％	75.74％	80.93％	60.22％	78.31％	57.52％	75.33％
F1	52.96％	75.74％	81.71％	60.22％	78.30％	57.52％	80.82％

（2）中文 - 罗伯塔wm- ext：

任务	AFQMC	cmnli	CSL	iflytek	Ocnli	Tnews	WSC
p	73.10％	80.75％	80.07％	60.98％	80.75％	57.93％	86.84％
F1	56.04％	80.75％	81.50％	60.98％	80.75％	57.93％	89.58％

这是详细的线索基准示例。

教程

自定义文本分类示例
QuickStart-文本分类
QuickStart-Pai DSW
QuickStart-MaxCompute/ODPS数据
appzoo-文本向量化
appzoo-文本分类/匹配
appzoo-序列标注
appzoo-geep文本分类
appzoo-文本生成
基础预训练实践
知识预训练实践
知识蒸馏实践
跨任务知识蒸馏实践
小样本学习实践
Rapidformer模型训练加速实践
API文档：http：//atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/release/easynlp/easynlp/easynlp_docs/html/index.html

执照

该项目是根据Apache许可证（版本2.0）获得许可的。该工具包还包含根据其他开源许可根据其他存储库修改的一些代码。有关更多信息，请参见通知文件。

ChangElog

EasyNLP V0.0.3于20122年1月4日发布。有关更多详细信息和历史记录，请参阅TAG_V0.0.3。

联系我们

扫描以下QR码以加入DingTalk讨论小组。小组讨论主要是中文的，但也欢迎英语。

参考

DKPLM：https：//paperswithcode.com/paper/dkplm-decomposable-knowledge-nhanced-pre
metakd：https：//paperswithcode.com/paper/meta-kd-a-meta-knowledge-distillation
cp-tuning：https：//paperswithcode.com/paper/making-pre-tration-language-models-end-end-to-end-1
Fashionbert：https：//paperswithcode.com/paper/fashionbert-text-and-image-matching-with

我们有一张Arxiv论文供您引用easynlp库：

 @article{easynlp,
  doi = {10.48550/ARXIV.2205.00258},  
  url = {https://arxiv.org/abs/2205.00258},  
  author = {Wang, Chengyu and Qiu, Minghui and Zhang, Taolin and Liu, Tingting and Li, Lei and Wang, Jianing and Wang, Ming and Huang, Jun and Lin, Wei},
  title = {EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing},
  publisher = {arXiv},  
  year = {2022}
}

展开

附加信息

版本 v0.0.3
类型其他源码
更新时间 2025-04-19
大小 19.01MB
来自于 Github

EasyNLP

Easynlp中文介绍

主要功能

技术文章

安装

快速开始

ModelZoo

EasyNLP进行多模式

降落大型预训练模型

线索基准

教程

执照

ChangElog

联系我们

参考

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express