EasyNLP下載 - EasyNLP源代碼下載

EasyNLP

其他源碼

v0.0.3

下載

EasyNLP是一個綜合且易於使用的NLP工具包

Easynlp中文介紹

EasyNLP是Pytorch易於使用的NLP開發和應用工具包，於2021年首次在阿里巴巴內部發行。它採用可擴展的分佈式培訓策略構建，並支持針對各種NLP應用的全面NLP算法套件。 EasyNLP將知識蒸餾和少量學習集成在一起，用於降落大型預訓練模型，以及各種流行的多模式預訓練的模型。它為現實世界應用程序提供了模型培訓，推理和部署的統一框架。它在阿里巴巴集團內為10多個公共汽車和20多個業務方案提供了動力。它無縫集成到AI（PAI）產品的平台，包括用於開發的PAI-DSW，用於雲本地培訓的PAI-DLC，用於服務的PAI-DLC和用於零代碼模型培訓的PAI-Designer。

主要功能

易於使用且高度可定制的：除了提供易於使用和簡潔的命令以調用尖端模型外，它還抽象了某些自定義模塊，例如Appzoo和ModelZoo，以使構建NLP應用程序易於構建。它配備了Pai Pytorch分佈式培訓框架Torchaccelerator，以加快分佈式培訓。
與開源庫兼容： EasyNLP具有API，可以通過PAI分佈式框架來支持HuggingFace/Transferalers的模型培訓。它還支持EasyTransfer ModelZoo中的預訓練模型。
注入知識的預訓練： PAI團隊對注入知識的預訓練有大量研究，並建立了一個知識的模型，該模型在CCF知識預訓練競賽中贏得了第一名。 EasyNLP集成了這些尖端知識預訓練的模型，包括DKPLM和Kgbert。
登陸大型預訓練的模型： EasyNLP提供了很少的學習能力，使用戶只需幾個樣本即可獲得大型模型，以取得良好的結果。同時，它提供了知識蒸餾功能，以幫助將大型模型快速提煉到一個小型而有效的模型，以促進在線部署。
多模式的預訓練模型： EasyNLP不僅僅是NLP。它還支持各種流行的多模式預訓練模型，以支持需要視覺知識的視覺任務。例如，它配備了用於文本圖像匹配的夾式模型和用於文本圖像生成的Dalle式模型。

技術文章

我們有一系列有關EasyNLP功能的技術文章。

BeautifulPrompt：Pai推出自研提示美化器，AIGC一鍵出美圖
pai-diffusion中文模型全面升級，海量高清藝術大圖一鍵生成
easynlp集成k-global指針算法，支持中文信息抽取
阿里雲pai-tiffusion功能再升級，全鏈路支持模型調優，平均推理速度提升，平均推理速度提升75％
pai-diffusion 模型來了！阿里雲機器學習團隊帶您徜徉中文藝術海洋
模型精度再被提升，統一跨任務小樣本學習算法upt給出解法！
跨度抽取和元學習能碰撞出怎樣的新火花，小樣本實體識別來告訴你！
算法kecp被頂會emnlp收錄，極少訓練數據就能實現機器閱讀理解
當大火的文圖生成模型遇見知識圖譜，ai畫像趨近於真實世界
easynlp發布融合語言學和事實知識的中文預訓練模型ckbert
Easynlp帶你實現中英文機器閱讀理解
跨模態學習能力再升級，easynlp電商文圖檢索效果刷新sota
easynlp 玩轉文本摘要（新聞標題）
中文稀疏gpt大模型落地 -通往低成本＆高性能多任務通用自然語言理解的關鍵里程碑
easynlp集成k-bert算法，借助知識圖譜實現更優finetune
Easynlp中文文圖生成模型帶你秒變藝術家
面向長代碼序列的變壓器模型優化方法，提升長代碼場景性能
Easynlp帶你玩轉夾
阿里雲機器學習pai開源中文nlp算法框架easynlp，助力nlp大模型落地
預訓練知識度量比賽奪冠！阿里雲 pai

安裝

您可以從來源設置：

$ git clone https://github.com/alibaba/EasyNLP.git
$ cd EasyNLP
$ python setup.py install

該回購在Python 3.6，Pytorch> = 1.8上進行了測試。

快速開始

現在，讓我們展示如何僅使用幾行代碼來構建基於Bert的文本分類模型。

 from easynlp . appzoo import ClassificationDataset
from easynlp . appzoo import get_application_model , get_application_evaluator
from easynlp . core import Trainer
from easynlp . utils import initialize_easynlp , get_args
from easynlp . utils . global_vars import parse_user_defined_parameters
from easynlp . utils import get_pretrain_model_path

initialize_easynlp ()
args = get_args ()
user_defined_parameters = parse_user_defined_parameters ( args . user_defined_parameters )
pretrained_model_name_or_path = get_pretrain_model_path ( user_defined_parameters . get ( 'pretrain_model_name_or_path' , None ))

train_dataset = ClassificationDataset (
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    data_file = args . tables . split ( "," )[ 0 ],
    max_seq_length = args . sequence_length ,
    input_schema = args . input_schema ,
    first_sequence = args . first_sequence ,
    second_sequence = args . second_sequence ,
    label_name = args . label_name ,
    label_enumerate_values = args . label_enumerate_values ,
    user_defined_parameters = user_defined_parameters ,
    is_training = True )

valid_dataset = ClassificationDataset (
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    data_file = args . tables . split ( "," )[ - 1 ],
    max_seq_length = args . sequence_length ,
    input_schema = args . input_schema ,
    first_sequence = args . first_sequence ,
    second_sequence = args . second_sequence ,
    label_name = args . label_name ,
    label_enumerate_values = args . label_enumerate_values ,
    user_defined_parameters = user_defined_parameters ,
    is_training = False )

model = get_application_model ( app_name = args . app_name ,
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    num_labels = len ( valid_dataset . label_enumerate_values ),
    user_defined_parameters = user_defined_parameters )

trainer = Trainer ( model = model , train_dataset = train_dataset , user_defined_parameters = user_defined_parameters ,
    evaluator = get_application_evaluator ( app_name = args . app_name , valid_dataset = valid_dataset , user_defined_parameters = user_defined_parameters ,
    eval_batch_size = args . micro_batch_size ))
    
trainer . train ()

完整的示例可以在此處找到。

您還可以使用Appzoo命令行工具快速訓練應用程序模型。以SST-2數據集上的文本分類為例。首先，您可以下載train.tsv和dev.tsv，然後開始培訓：

$ easynlp 
   --mode=train 
   --worker_gpu=1 
   --tables=train.tsv,dev.tsv 
   --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 
   --first_sequence=sent1 
   --label_name=label 
   --label_enumerate_values=0,1 
   --checkpoint_dir=./classification_model 
   --epoch_num=1  
   --sequence_length=128 
   --app_name=text_classify 
   --user_defined_parameters= ' pretrain_model_name_or_path=bert-small-uncased '

然後預測：

$ easynlp 
  --mode=predict 
  --tables=dev.tsv 
  --outputs=dev.pred.tsv 
  --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 
  --output_schema=predictions,probabilities,logits,output 
  --append_cols=label 
  --first_sequence=sent1 
  --checkpoint_path=./classification_model 
  --app_name=text_classify

要了解有關Appzoo使用的更多信息，請參閱我們的文檔。

ModelZoo

EasyNLP當前在ModelZoo中提供以下模型：

Pai-bert-Zh（來自阿里巴巴Pai）：具有大中國語料庫的預培訓的BERT模型。
DKPLM（來自阿里巴巴Pai）：使用紙DKPLM發行：可分解的知識增強的預訓練的預訓練的語言模型，用於自然語言理解，由Taolin Zhang，Chengyu Wang，Nan Hu，Minghui Qiu，Minghui Qiu，Chengguang Tang，Xiaofeng He和Jun Jun Huang。
Kgbert（來自阿里巴巴Damo Academy＆Pai）：注射知識圖嵌入的預訓練BERT模型。
BERT（來自Google）：與Paper Bert發行：雅各布·德夫林（Jacob Devlin），明·韋·張（Ming-Wei Chang），肯頓·李（Kenton Lee）和克里斯蒂娜·圖塔諾瓦（Kristina Toutanova）的深度雙向變壓器的預培訓。
羅伯塔（來自Facebook）：與論文發行：Yinhan Liu，Myle Ott，Naman Goyal，Jingfei Du，Jingfei Du，Mandar Joshi，Danqi Chen，Omer Levy，Mike Levy，Mike Levy，Mike Levis，Luke Zettlemoyer和Veselin Stoyanov。
中國羅伯塔（來自HFL）：羅伯塔的中文版本。
Macbert（來自HFL）：發行的論文通過Yiming Cui，Wanxiang Che，Ting Liu，Bing Qin，Shijin Wang和Guoping Hu的論文重新審視了中國自然語言處理的預培訓模型。
Wobert（來自Zhuiyitechnology）：中文的基於單詞的Bert。
Fashionbert（來自阿里巴巴Pai＆icbu）：正在進行中。
Geep（來自阿里巴巴Pai）：正在進行中。
Mengzi（來自Langboat）：與Paper Mengzi一起發行：Zhusheng Zhang，Hanqing Zhang，Keming Chen，Yuhang Guo，Jingyun Hua，Jingyun Hua，Yulong Hua，Yulong Wang and Yulong Wang and Yulong Wang and Yulong Wang and Ying Wang和Zhou張發行。
Erlangshen（來自Idea）：從倉庫中釋放。

請參考此讀數，以在EasyNLP中使用這些模型。同時，EasyNLP支持從擁抱面/變形金剛加載預告片的模型，請參閱本教程以獲取詳細信息。

EasyNLP進行多模式

EasyNLP還支持各種流行的多模式預訓練模型，以支持需要視覺知識的視覺任務。例如，它配備了用於文本圖像匹配的夾式模型和用於文本圖像生成的Dalle式模型。

文本圖像匹配
文本到圖像生成
圖像到文本生成

降落大型預訓練模型

EasyNLP提供了很少的學習和知識蒸餾，以幫助登陸大型預培訓模型。

PET（來自LMU慕尼黑和Sulzer GmbH）：用紙張發行了披肩問題，以示蒂莫·希克（Timo Schick）和辛里希·舒特（Hinrich Schutze）的幾個鏡頭文本分類和自然語言推斷。我們進行了一些修改，使該算法適合中文。
P-Tuning（來自Tsinghua University，MIT和RECIRTRENT AI，LTD。我們進行了一些修改，使該算法適合中文。
CP-Tuning（來自阿里巴巴Pai）：通過紙張釋放，通過Ziyun Xu，Chengyu Wang，Minghui Qiu，Minghui Qiu，Fuli Luo，Runxin Xu，Runxin Xu，Songfang Huang和Jun Jun Huang和Jun Jun Huang，終端訓練的語言模型端到端的幾個學習者進行了對比及時的迅速調整。
Vanilla KD（來自阿里巴巴Pai）：將大型Bert風格模型的邏輯提煉成較小的型號。
Meta KD（來自阿里巴巴Pai）：與紙質元KD發行：跨域的元知識蒸餾框架，用於Haojie Pan，Chengyu Wang，Minghui Qiu，Yichang Zhang，Yichang Zhang，Yaliang Li和Jun Huang的跨域。
數據增強（來自阿里巴巴PAI）：根據先前訓練的語言模型的MLM負責人來增強數據。

線索基準

EasyNLP提供了一個簡單的工具包來基準線索數據集。您只需使用此命令即可基於線索數據集。

 # Format: bash run_clue.sh device_id train/predict dataset
# e.g.: 
bash run_clue.sh 0 train csl

我們已經測試了Chiese Bert和Roberta Modelson數據集，Dev Set的結果是：

（1）Bert-Base-Chinese：

任務	AFQMC	cmnli	CSL	iflytek	Ocnli	Tnews	WSC
p	72.17％	75.74％	80.93％	60.22％	78.31％	57.52％	75.33％
F1	52.96％	75.74％	81.71％	60.22％	78.30％	57.52％	80.82％

（2）中文 - 羅伯塔wm- ext：

任務	AFQMC	cmnli	CSL	iflytek	Ocnli	Tnews	WSC
p	73.10％	80.75％	80.07％	60.98％	80.75％	57.93％	86.84％
F1	56.04％	80.75％	81.50％	60.98％	80.75％	57.93％	89.58％

這是詳細的線索基準示例。

教程

自定義文本分類示例
QuickStart-文本分類
QuickStart-Pai DSW
QuickStart-MaxCompute/ODPS數據
appzoo-文本向量化
appzoo-文本分類/匹配
appzoo-序列標註
appzoo-geep文本分類
appzoo-文本生成
基礎預訓練實踐
知識預訓練實踐
知識蒸餾實踐
跨任務知識蒸餾實踐
小樣本學習實踐
Rapidformer模型訓練加速實踐
API文檔：http：//atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/release/easynlp/easynlp/easynlp_docs/html/index.html

執照

該項目是根據Apache許可證（版本2.0）獲得許可的。該工具包還包含根據其他開源許可根據其他存儲庫修改的一些代碼。有關更多信息，請參見通知文件。

ChangElog

EasyNLP V0.0.3於20122年1月4日發布。有關更多詳細信息和歷史記錄，請參閱TAG_V0.0.3。

聯繫我們

掃描以下QR碼以加入DingTalk討論小組。小組討論主要是中文的，但也歡迎英語。

參考

DKPLM：https：//paperswithcode.com/paper/dkplm-decomposable-knowledge-nhanced-pre
metakd：https：//paperswithcode.com/paper/meta-kd-a-meta-knowledge-distillation
cp-tuning：https：//paperswithcode.com/paper/making-pre-tration-language-models-end-end-to-end-1
Fashionbert：https：//paperswithcode.com/paper/fashionbert-text-and-image-matching-with

我們有一張Arxiv論文供您引用easynlp庫：

 @article{easynlp,
  doi = {10.48550/ARXIV.2205.00258},  
  url = {https://arxiv.org/abs/2205.00258},  
  author = {Wang, Chengyu and Qiu, Minghui and Zhang, Taolin and Liu, Tingting and Li, Lei and Wang, Jianing and Wang, Ming and Huang, Jun and Lin, Wei},
  title = {EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing},
  publisher = {arXiv},  
  year = {2022}
}

展開

附加信息

版本 v0.0.3
類型其他源碼
更新時間 2025-04-19
大小 19.01MB
來自於 Github

相關應用

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部