EasyNLP -Download - EasyNLP Source Code Download

EasyNLP

Anderer Quellcode

v0.0.3

Herunterladen

EasyNLP ist ein umfassendes und benutzerfreundliches NLP-Toolkit

Easynlp 中文介绍

EasyNLP ist ein benutzerfreundliches NLP-Entwicklungs- und Anwendungs-Toolkit in Pytorch, das erstmals im Jahr 2021 in Alibaba veröffentlicht wurde. Es wurde mit skalierbaren verteilten Trainingsstrategien erstellt und unterstützt eine umfassende Suite von NLP-Algorithmen für verschiedene NLP-Anwendungen. EasyNLP integriert die Wissensdestillation und das Lernen von wenigen Schichten für die Landung großer vorgebildeter Modelle sowie verschiedene vorgeschriebene Multimodalitätsmodelle. Es bietet einen einheitlichen Rahmen für Modelltraining, Inferenz und Bereitstellung für reale Anwendungen. Es hat mehr als 10 Busse und mehr als 20 Geschäftsszenarien innerhalb der Alibaba -Gruppe betrieben. Es ist nahtlos in die Plattform von AI (PAI) -Produkten (PAI) integriert, einschließlich PAI-DSW für die Entwicklung, PAI-DLC für Cloud-native Schulungen, PAI-EAS für das Servieren und PAI-Designer für das Modell von Null-Code-Modell.

Hauptmerkmale

Einfach zu bedienend und sehr anpassbar: Zusätzlich zu den benutzerfreundlichen und präzisen Befehlen, um hochmoderne Modelle aufzurufen, werden auch bestimmte benutzerdefinierte Module wie Appzoo und Modelzoo abstrahiert, um die Erstellung von NLP-Anwendungen einfach zu erstellen. Es ist mit dem PAI Pytorch Distributed Training Framework Torchaccelerator ausgestattet, um das verteilte Training zu beschleunigen.
Kompatibel mit Open-Source-Bibliotheken: EasyNLP verfügt über APIs, um das Training von Modellen von Suggingface/Transformers mit dem PAI-verteilten Framework zu unterstützen. Es unterstützt auch die vorgeborenen Modelle in EasyTransfer Modelzoo.
Vorausbildung in Bezug auf Wissen: Das PAI-Team hat eine Menge Forschungsarbeiten zur vorhandenen Wissens-injiziert und baut ein Wissensmodell auf, das den ersten Platz im CCF-Wissen vor dem Training gewinnt. EasyNLP integriert diese modernsten Wissensmodelle, einschließlich DKPLM und Kgbert.
Landung großer vorgebildeter Modelle: EasyNLP bietet nur wenige Lernfunktionen, mit denen Benutzer große Modelle mit nur wenigen Proben finanzieren können, um gute Ergebnisse zu erzielen. Gleichzeitig bietet es Wissensdestillationsfunktionen, um große Modelle schnell in ein kleines und effizientes Modell zu bringen, um die Online -Bereitstellung zu erleichtern.
Multimodalität Vorgebildete Modelle: Bei EasyNLP geht es nicht nur um NLP. Es unterstützt auch verschiedene vorgeschriebene multimodalische Modelle zur Unterstützung von Aufgaben, die visuelle Kenntnisse erfordern. Zum Beispiel ist es mit Modellen im Clip-Stil für Text-zu-im-Image-Matching- und Dalle-Modelle für die Erzeugung von Text-zu-Image-Stil ausgestattet.

Technische Artikel

Wir haben eine Reihe von technischen Artikeln über die Funktionen von EasyNLP.

BeautifulPrompt: Pai 推出自研 Eingabeaufforderung 美化器，赋能 AIGC 一键出美图
Pai-diffusion 中文模型全面升级，海量高清艺术大图一键生成
Easynlp 集成 k-globalem Zeiger 算法，支持中文信息抽取支持中文信息抽取
阿里云 pai-diffusion 功能再升级，全链路支持模型调优，平均推理速度提升 75%以上
Pai-diffusion 模型来了！阿里云机器学习团队带您徜徉中文艺术海洋
模型精度再被提升，统一跨任务小样本学习算法 upt 给出解法!
Spanne 抽取和元学习能碰撞出怎样的新火花，小样本实体识别来告诉你!
算法 kecp 被顶会 emnlp 收录，极少训练数据就能实现机器阅读理解极少训练数据就能实现机器阅读理解极少训练数据就能实现机器阅读理解
当大火的文图生成模型遇见知识图谱， ai 画像趋近于真实世界
Easynlp 发布融合语言学和事实知识的中文预训练模型 Ckbert
Easynlp 带你实现中英文机器阅读理解
跨模态学习能力再升级， easynlp 电商文图检索效果刷新 sota
Easynlp 玩转文本摘要（新闻标题）生成
中文稀疏 GPT 大模型落地 - 通往低成本 & 高性能多任务通用自然语言理解的关键里程碑
Easynlp 集成 k-tbert 算法，借助知识图谱实现更优 finetune
Easynlp 中文文图生成模型带你秒变艺术家
面向长代码序列的 Transformator 模型优化方法，提升长代码场景性能
Easynlp 带你玩转 clip 图文检索
阿里云机器学习 pai 开源中文 nlp 算法框架 easynlp ，助力 nlp 大模型落地
预训练知识度量比赛夺冠！阿里云 pai 发布知识预训练工具

Installation

Sie können aus der Quelle einrichten:

$ git clone https://github.com/alibaba/EasyNLP.git
$ cd EasyNLP
$ python setup.py install

Dieses Repo wird auf Python 3.6, Pytorch> = 1,8 getestet.

Schneller Start

Zeigen wir nun, wie Sie nur wenige Codezeilen verwenden, um ein auf Bert basierendes Textklassifizierungsmodell zu erstellen.

 from easynlp . appzoo import ClassificationDataset
from easynlp . appzoo import get_application_model , get_application_evaluator
from easynlp . core import Trainer
from easynlp . utils import initialize_easynlp , get_args
from easynlp . utils . global_vars import parse_user_defined_parameters
from easynlp . utils import get_pretrain_model_path

initialize_easynlp ()
args = get_args ()
user_defined_parameters = parse_user_defined_parameters ( args . user_defined_parameters )
pretrained_model_name_or_path = get_pretrain_model_path ( user_defined_parameters . get ( 'pretrain_model_name_or_path' , None ))

train_dataset = ClassificationDataset (
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    data_file = args . tables . split ( "," )[ 0 ],
    max_seq_length = args . sequence_length ,
    input_schema = args . input_schema ,
    first_sequence = args . first_sequence ,
    second_sequence = args . second_sequence ,
    label_name = args . label_name ,
    label_enumerate_values = args . label_enumerate_values ,
    user_defined_parameters = user_defined_parameters ,
    is_training = True )

valid_dataset = ClassificationDataset (
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    data_file = args . tables . split ( "," )[ - 1 ],
    max_seq_length = args . sequence_length ,
    input_schema = args . input_schema ,
    first_sequence = args . first_sequence ,
    second_sequence = args . second_sequence ,
    label_name = args . label_name ,
    label_enumerate_values = args . label_enumerate_values ,
    user_defined_parameters = user_defined_parameters ,
    is_training = False )

model = get_application_model ( app_name = args . app_name ,
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    num_labels = len ( valid_dataset . label_enumerate_values ),
    user_defined_parameters = user_defined_parameters )

trainer = Trainer ( model = model , train_dataset = train_dataset , user_defined_parameters = user_defined_parameters ,
    evaluator = get_application_evaluator ( app_name = args . app_name , valid_dataset = valid_dataset , user_defined_parameters = user_defined_parameters ,
    eval_batch_size = args . micro_batch_size ))
    
trainer . train ()

Das vollständige Beispiel finden Sie hier.

Sie können auch AppZoo -Befehlszeilen -Tools verwenden, um ein App -Modell schnell zu trainieren. Nehmen Sie als Beispiel die Textklassifizierung im SST-2-Datensatz. Zuerst können Sie den Train.tsv und Dev.tsv herunterladen und dann mit dem Training beginnen:

$ easynlp 
   --mode=train 
   --worker_gpu=1 
   --tables=train.tsv,dev.tsv 
   --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 
   --first_sequence=sent1 
   --label_name=label 
   --label_enumerate_values=0,1 
   --checkpoint_dir=./classification_model 
   --epoch_num=1  
   --sequence_length=128 
   --app_name=text_classify 
   --user_defined_parameters= ' pretrain_model_name_or_path=bert-small-uncased '

Und dann vorhersagen:

$ easynlp 
  --mode=predict 
  --tables=dev.tsv 
  --outputs=dev.pred.tsv 
  --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 
  --output_schema=predictions,probabilities,logits,output 
  --append_cols=label 
  --first_sequence=sent1 
  --checkpoint_path=./classification_model 
  --app_name=text_classify

Weitere Informationen zur Verwendung von Appzoo finden Sie in unserer Dokumentation.

Modellzoo

EasyNLP bietet derzeit die folgenden Modelle in Modelzoo:

Paubert-Zh (von Alibaba Pai): Vorausgebildete Bert-Modelle mit einem großen chinesischen Korpus.
DKPLM (von Alibaba PAI): Mit dem Papier DKPLM veröffentlicht: zerlegtes, kenntnisverstärktes vorgebildetes Sprachmodell für das Verständnis der natürlichen Sprache von Taolin Zhang, Chengyu Wang, Nan Hu, Minghui Qiu, Chengguang Tang, Xiaofeng er und Jun Huang.
KGBERT (von Alibaba Damo Academy & Pai): Bert-Modelle vor dem Training mit injizierten Einbettungsdings.
Bert (aus Google): Veröffentlicht mit dem Papier Bert: Vorausbildung von tiefen bidirektionalen Transformatoren für das Sprachverständnis von Jacob Devlin, Ming-Wei Chang, Kenton Lee und Kristina Toutanova.
Roberta (von Facebook): Veröffentlicht mit dem Papier Roberta: Ein robust optimierter Bert -Vorbereitungsansatz von Yinhan Liu, Myle Ott, Naman Goyal, Jingfei du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer und Veselin Stoyanov.
Chinesische Roberta (von HFL): Die chinesische Version von Roberta.
Macbert (von HFL): Veröffentlicht mit dem Papier, das vorgeschriebene Modelle für die chinesische natürliche Sprachverarbeitung durch Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang und Guoping Hu veröffentlicht wurden.
Wobert (aus Zhuiyitechnologie): Die wortbasierte Bert für die chinesische Sprache.
Fashionbert (aus Alibaba Pai & ICBU): in Arbeit.
Geep (von Alibaba Pai): in Arbeit.
Mengzi (aus Langboat): Mit dem Papier Mengzi veröffentlicht: auf dem Weg zu leichten, aber genialen vorgeborenen Modellen für Chinesen von Zhuosheng Zhang, Hanqing Zhang, Keming Chen, Yuhang Guo, Jingyun Hua, Yulong Wang und Ming Zhou.
Erlangshen (von IDEA): Entlassen aus dem Repo.

In dieser Readme finden Sie die Verwendung dieser Modelle in EasyNLP. In der Zwischenzeit unterstützt EasyNLP beim Laden von vorbereiteten Modellen von Huggingface/Transformers. Weitere Informationen finden Sie in diesem Tutorial.

EasyNLP wird multi-modal

EasyNLP unterstützt auch verschiedene vorgeschriebene modalmodalische Modelle zur Unterstützung von Aufgaben, die visuelle Kenntnisse erfordern. Zum Beispiel ist es mit Modellen im Clip-Stil für Text-zu-im-Image-Matching- und Dalle-Modelle für die Erzeugung von Text-zu-Image-Stil ausgestattet.

Text-Image-Matching
Text-to-Image-Generation
Bild-zu-Text-Generierung

Lande große vorgebildete Modelle landen

EasyNLP bietet nur wenige Schüsse-Lern- und Wissensdestillationen, um große vorgebrachte Modelle zu landen.

PET (von LMU Munich und Sulzer GmbH): Veröffentlicht mit dem Papier, das Lückleerfragen für nur wenige Schusstextklassifizierung und natürliche Sprachinferenz von Timo Schick und Hinrich Schutz ausnutzte. Wir haben einige leichte Änderungen vorgenommen, um den Algorithmus für die chinesische Sprache geeignet zu machen.
P-Tuning (von der Tsinghua University, Peking Academy of AI, MIT und rezidivierender AI, Ltd.): Veröffentlicht mit dem Papier GPT auch von Xiao Liu, Yanan Zheng, Zhengxiao du, Ming Ding, Yujie Qian, Zhilin Yang und Jie Tang. Wir haben einige leichte Änderungen vorgenommen, um den Algorithmus für die chinesische Sprache geeignet zu machen.
CP-Tuning (von Alibaba PAI): veröffentlicht mit dem Papier, das vorgebliebene Sprachmodelle von nur wenigen Schusslernern mit kontrastivem Umfang von Ziyun Xu, Chengyu Wang, Minghui Qiu, Fuli Luo, Runxin Xu, Songfang Huang und Jun Huang herstellen.
Vanille-KD (von Alibaba Pai): Destillieren Sie die Logits großer Modelle im Bert-Stil auf kleinere.
Meta KD (von Alibaba Pai): Mit dem Papier-Meta-KD veröffentlicht: Ein Meta-Wissens-Destillationsrahmen für die Sprachmodellkomprimierung über Bereiche von Haojie Pan, Chengyu Wang, Minghui Qiu, Yichang Zhang, Yaliang Li und Jun Huang.
Datenvergrößerung (von Alibaba PAI): Augmentierung der Daten basierend auf dem MLM-Kopf der vorgebrachten Sprachmodelle.

Ahnung Benchmark

EasyNLP bietet ein einfaches Toolkit zum Benchmark -Hinweisdatensätzen. Sie können einfach nur diesen Befehl verwenden, um den Datensatz des Hinweiss des Hinweises zu bewerten.

 # Format: bash run_clue.sh device_id train/predict dataset
# e.g.: 
bash run_clue.sh 0 train csl

Wir haben Chiese Bert und Roberta Models the Datasets getestet. Die Ergebnisse des Dev -Sets sind:

(1) Bert-Base-Chinese:

Aufgabe	AFQMC	Cmnli	CSL	Iflytek	Ocnli	Tnews	WSC
P	72,17%	75,74%	80,93%	60,22%	78,31%	57,52%	75,33%
F1	52,96%	75,74%	81,71%	60,22%	78,30%	57,52%	80,82%

(2) Chinese-Roberta-WWM-EXT:

Aufgabe	AFQMC	Cmnli	CSL	Iflytek	Ocnli	Tnews	WSC
P	73,10%	80,75%	80,07%	60,98%	80,75%	57,93%	86,84%
F1	56,04%	80,75%	81,50%	60,98%	80,75%	57,93%	89,58%

Hier ist das detaillierte Hinweis -Benchmark -Beispiel.

Tutorials

自定义文本分类示例
QuickStart- 文本分类
QuickStart-Pai DSW
QuickStart-MaxCompute/ODPS 数据
Appzoo- 文本向量化
Appzoo- 文本分类/匹配
Appzoo- 序列标注
Appzoo-Geep 文本分类
Appzoo- 文本生成
基础预训练实践
知识预训练实践
知识蒸馏实践
跨任务知识蒸馏实践
小样本学习实践
Rapidformer 模型训练加速实践
API-Dokumente: http://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/release/easynlp/easynlp_docs/html/index.html

Lizenz

Dieses Projekt ist unter der Apache -Lizenz (Version 2.0) lizenziert. Dieses Toolkit enthält auch einen Code, der aus anderen Repos unter anderen Open-Source-Lizenzen geändert wurde. Weitere Informationen finden Sie in der Mitteilungsdatei.

Changelog

EasyNLP V0.0.3 wurde am 01.04.2022 veröffentlicht. Weitere Informationen und Geschichte finden Sie unter Tag_V0.0.3.

Kontaktieren Sie uns

Scannen Sie die folgenden QR -Codes, um die Dingtalk -Diskussionsgruppe beizutragen. Die Gruppendiskussionen sind hauptsächlich in Chinesisch, aber auch Englisch wird begrüßt.

Referenz

DKPLM: https://paperswithcode.com/paper/dkplm-decomposable-knowledge-enhanced-pre
Metakd: https://paperswithcode.com/paper/meta-kd-a-meta- missledgedistillation
CP-Tuning: https://paperswithcode.com/paper/making-pre-trained-language-models-end-to-end-1
Fashionbert: https://paperswithcode.com/paper/fashionbert-text-and-image-matching-with

Wir haben ein Arxiv -Papier, das Sie für die EasyNLP -Bibliothek zitieren können:

 @article{easynlp,
  doi = {10.48550/ARXIV.2205.00258},  
  url = {https://arxiv.org/abs/2205.00258},  
  author = {Wang, Chengyu and Qiu, Minghui and Zhang, Taolin and Liu, Tingting and Li, Lei and Wang, Jianing and Wang, Ming and Huang, Jun and Lin, Wei},
  title = {EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing},
  publisher = {arXiv},  
  year = {2022}
}

Expandieren

Zusätzliche Informationen

Version v0.0.3
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-19
Größe 19.01MB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

EasyNLP

Easynlp 中文介绍

Hauptmerkmale

Technische Artikel

Installation

Schneller Start

Modellzoo

EasyNLP wird multi-modal

Lande große vorgebildete Modelle landen

Ahnung Benchmark

Tutorials

Lizenz

Changelog

Kontaktieren Sie uns

Referenz

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express