Téléchargement EasyNLP - Téléchargement du code source EasyNLP

EasyNLP

Autre code source

v0.0.3

Télécharger

EasyNLP est une boîte à outils NLP complète et facile à utiliser

Easynlp 中文介绍

EasyNLP est une boîte à outils de développement et d'application de PNL facile à utiliser dans Pytorch, publiée pour la première fois à l'intérieur d'Alibaba en 2021. Il est construit avec des stratégies de formation distribuées évolutives et prend en charge une suite complète d'algorithmes PNL pour diverses applications PNL. EasyNLP intègre la distillation des connaissances et l'apprentissage à quelques coups pour l'atterrissage de grands modèles pré-formés, ainsi que divers modèles multimodalités populaires. Il fournit un cadre unifié de formation, d'inférence et de déploiement des modèles pour les applications du monde réel. Il a propulsé plus de 10 bus et plus de 20 scénarios commerciaux au sein du groupe Alibaba. Il est parfaitement intégré à la plate-forme des produits AI (PAI), y compris PAI-DSW pour le développement, PAI-DLC pour la formation native du cloud, PAI-ES pour le service et le concepteur PAI pour une formation de modèle à code zéro.

Caractéristiques principales

Facile à utiliser et hautement personnalisable: en plus de fournir des commandes faciles à utiliser et concises pour appeler des modèles de pointe, il résume également certains modules personnalisés tels que AppZoo et ModelZoo pour faciliter la création d'applications NLP. Il est équipé du Torchaccelerator du cadre de formation distribué Pai Pytorch pour accélérer la formation distribuée.
Compatible avec les bibliothèques open source: EasyNLP dispose d'API pour soutenir la formation des modèles de HuggingFace / Transformers avec le cadre distribué PAI. Il prend également en charge les modèles pré-formés dans EasyTransfer ModelZoo.
Pré-formation injectée des connaissances: l'équipe PAI propose de nombreuses recherches sur la pré-formation injectée des connaissances et construit un modèle injecté des connaissances qui remporte la première place dans le concours de pré-formation des connaissances CCF. EasyNLP intègre ces modèles pré-formés de connaissances de pointe, notamment DKPLM et KGBERT.
Ordure de grands modèles pré-formés: EasyNLP offre des capacités d'apprentissage à quelques coups, permettant aux utilisateurs de finertune de grands modèles avec seulement quelques échantillons pour obtenir de bons résultats. Dans le même temps, il fournit des fonctions de distillation de connaissances pour aider à distiller rapidement les grands modèles à un modèle petit et efficace pour faciliter le déploiement en ligne.
Modèles pré-formés multimodalités: EasyNLP ne concerne pas uniquement la PNL. Il prend également en charge divers modèles multimodalités populaires avant formés pour prendre en charge les tâches de langue visuelle qui nécessitent des connaissances visuelles. Par exemple, il est équipé de modèles de style clip pour la correspondance d'image texte et les modèles de style Dalle pour la génération de texte à l'image.

Articles techniques

Nous avons une série d'articles techniques sur les fonctionnalités de EasyNLP.

BeautifulPrompt ： Pai 推出自研 Invite 美化器，赋能 Aigc 一键出美图
Pai-diffusion 中文模型全面升级，海量高清艺术大图一键生成
EasyNLP 集成 K-Global Pointer 算法，支持中文信息抽取
阿里云 Pai-diffusion 功能再升级，全链路支持模型调优，平均推理速度提升 75% 以上
Pai-diffusion 模型来了！阿里云机器学习团队带您徜徉中文艺术海洋
模型精度再被提升，统一跨任务小样本学习算法 Upt 给出解法!
Span 抽取和元学习能碰撞出怎样的新火花，小样本实体识别来告诉你!
算法 KECP 被顶会 EMNLP 收录，极少训练数据就能实现机器阅读理解
当大火的文图生成模型遇见知识图谱， ai 画像趋近于真实世界
Easynlp 发布融合语言学和事实知识的中文预训练模型 ckbert
Easynlp 带你实现中英文机器阅读理解
跨模态学习能力再升级， easynlp 电商文图检索效果刷新 sota
Easynlp 玩转文本摘要（新闻标题）生成
中文稀疏 GPT 大模型落地 - 通往低成本 & 高性能多任务通用自然语言理解的关键里程碑
Easynlp 集成 K-Bert 算法，借助知识图谱实现更优 Finetune
Easynlp 中文文图生成模型带你秒变艺术家
面向长代码序列的 Transformateur 模型优化方法，提升长代码场景性能
EasyNLP 带你玩转 Clip 图文检索
阿里云机器学习 Pai 开源中文 NLP 算法框架 Easynlp ，助力 NLP 大模型落地
预训练知识度量比赛夺冠！阿里云 Pai 发布知识预训练工具

Installation

Vous pouvez configurer à partir de la source ：

$ git clone https://github.com/alibaba/EasyNLP.git
$ cd EasyNLP
$ python setup.py install

Ce repo est testé sur Python 3.6, pytorch> = 1,8.

Démarrage rapide

Maintenant, montrons comment utiliser quelques lignes de code pour créer un modèle de classification de texte basé sur Bert.

 from easynlp . appzoo import ClassificationDataset
from easynlp . appzoo import get_application_model , get_application_evaluator
from easynlp . core import Trainer
from easynlp . utils import initialize_easynlp , get_args
from easynlp . utils . global_vars import parse_user_defined_parameters
from easynlp . utils import get_pretrain_model_path

initialize_easynlp ()
args = get_args ()
user_defined_parameters = parse_user_defined_parameters ( args . user_defined_parameters )
pretrained_model_name_or_path = get_pretrain_model_path ( user_defined_parameters . get ( 'pretrain_model_name_or_path' , None ))

train_dataset = ClassificationDataset (
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    data_file = args . tables . split ( "," )[ 0 ],
    max_seq_length = args . sequence_length ,
    input_schema = args . input_schema ,
    first_sequence = args . first_sequence ,
    second_sequence = args . second_sequence ,
    label_name = args . label_name ,
    label_enumerate_values = args . label_enumerate_values ,
    user_defined_parameters = user_defined_parameters ,
    is_training = True )

valid_dataset = ClassificationDataset (
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    data_file = args . tables . split ( "," )[ - 1 ],
    max_seq_length = args . sequence_length ,
    input_schema = args . input_schema ,
    first_sequence = args . first_sequence ,
    second_sequence = args . second_sequence ,
    label_name = args . label_name ,
    label_enumerate_values = args . label_enumerate_values ,
    user_defined_parameters = user_defined_parameters ,
    is_training = False )

model = get_application_model ( app_name = args . app_name ,
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    num_labels = len ( valid_dataset . label_enumerate_values ),
    user_defined_parameters = user_defined_parameters )

trainer = Trainer ( model = model , train_dataset = train_dataset , user_defined_parameters = user_defined_parameters ,
    evaluator = get_application_evaluator ( app_name = args . app_name , valid_dataset = valid_dataset , user_defined_parameters = user_defined_parameters ,
    eval_batch_size = args . micro_batch_size ))
    
trainer . train ()

L'exemple complet peut être trouvé ici.

Vous pouvez également utiliser des outils de ligne de commande Appzoo pour former rapidement un modèle d'application. Prenez une classification du texte sur l'ensemble de données SST-2 à titre d'exemple. Vous pouvez d'abord télécharger le train.tsv et dev.tsv, puis commencer la formation:

$ easynlp 
   --mode=train 
   --worker_gpu=1 
   --tables=train.tsv,dev.tsv 
   --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 
   --first_sequence=sent1 
   --label_name=label 
   --label_enumerate_values=0,1 
   --checkpoint_dir=./classification_model 
   --epoch_num=1  
   --sequence_length=128 
   --app_name=text_classify 
   --user_defined_parameters= ' pretrain_model_name_or_path=bert-small-uncased '

Et puis prédire:

$ easynlp 
  --mode=predict 
  --tables=dev.tsv 
  --outputs=dev.pred.tsv 
  --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 
  --output_schema=predictions,probabilities,logits,output 
  --append_cols=label 
  --first_sequence=sent1 
  --checkpoint_path=./classification_model 
  --app_name=text_classify

Pour en savoir plus sur l'utilisation d'Appzoo, veuillez vous référer à notre documentation.

Modelzoo

EasyNLP fournit actuellement les modèles suivants dans ModelZoo:

Pai -bert-zh (de Alibaba Pai): modèles Bert pré-formés avec un grand corpus chinois.
DKPLM (de Alibaba Pai): Sorti avec l'article DKPLM: modèle de langage pré-formé amélioré dans la connaissance des connaissances pour la compréhension du langage naturel par Taolin Zhang, Chengyu Wang, Nan Hu, Minghui Qiu, Chengguang Tang, Xiaofeng HE et Jun Huang.
Kgbert (de l'Alibaba Damo Academy & Pai): modèles de pré-transfert Bert avec des incorporations de graphiques de connaissances injectées.
Bert (de Google): publié avec le papier Bert: pré-formation de transformateurs bidirectionnels profonds pour la compréhension du langage par Jacob Devlin, Ming-Wei Chang, Kenton Lee et Kristina Toutanova.
Roberta (de Facebook): Sorti avec le journal Roberta: une approche de pré-formation de Bert optimisé de manière robuste de Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer et Veselin Stoyanov.
Chinois Roberta (de HFL): la version chinoise de Roberta.
Macbert (de HFL): Sorti avec le document revisitant les modèles pré-formés pour le traitement du langage naturel chinois par Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang et Guoping Hu.
Wobert (de Zhuiyitechnology): le bert basé sur les mots pour la langue chinoise.
Fashionbert (d'Alibaba Pai & ICBU): en cours.
GEEP (d'Alibaba Pai): en cours.
Mengzi (de Langboat): Sorti avec le papier Mengzi: vers des modèles pré-entraînés légers mais ingénieux pour chinois par ZhuoSheng Zhang, Hanqing Zhang, Keming Chen, Yuhang Guo, Jingyun Hua, Yulong Wang et Ming Zhou.
Erlangshen (d'idée): libéré du dépôt.

Veuillez vous référer à cette lecture pour l'utilisation de ces modèles dans EasyNLP. Pendant ce temps, EasyNLP prend en charge les modèles pré-étendus de HuggingFace / Transformers, veuillez vous référer à ce tutoriel pour plus de détails.

EasyNLP devient multimodal

EasyNLP prend également en charge divers modèles multimodalités populaires prélevés pour prendre en charge les tâches de langue visuelle qui nécessitent des connaissances visuelles. Par exemple, il est équipé de modèles de style clip pour la correspondance d'image texte et les modèles de style Dalle pour la génération de texte à l'image.

Correspondance d'image texte
Génération de texte à l'image
Génération d'image à texte

Atterrir de grands modèles pré-formés

EasyNLP fournit une distillation d'apprentissage et de connaissances à quelques coups pour aider à décrocher de grands modèles pré-formés.

PET (de LMU Munich et Sulzer GmbH): libéré avec le document exploitant des questions Cloze pour peu de classification du texte de tir et l'inférence du langage naturel par Timo Schick et Hinrich Schutze. Nous avons apporté de légères modifications pour rendre l'algorithme adapté à la langue chinoise.
P-TUNING (de l'Université Tsinghua, Beijing Academy of AI, MIT et Recurrent AI, Ltd.): Sorti avec le journal GPT comprend, aussi par Xiao Liu, Yanan Zheng, Zhengxiao Du, Ming Ding, Yujie Qian, Zhilin Yang et Jie Tang. Nous avons apporté de légères modifications pour rendre l'algorithme adapté à la langue chinoise.
CP-TUNING (d'Alibaba Pai): Sorti avec l'article fabriquant des modèles de langue pré-formés de bout en bout avec un réglage rapide contrastif de Ziyun Xu, Chengyu Wang, Minghui Qiu, Fuli Luo, Runxin Xu, Songfang Huang et Jun Huang.
Vanille KD (de Alibaba Pai): distillant les logits des grands modèles de style Bert à des plus petits.
Meta KD (d'Alibaba Pai): Sorti avec le papier Meta-KD: A Meta Knowledge Distillation Framework pour la compression du modèle de langue à travers les domaines par Haojie Pan, Chengyu Wang, Minghui Qiu, Yichang Zhang, Yaliang Li et Jun Huang.
Augmentation des données (à partir d'Alibaba Pai): augmentation des données sur la base de la tête MLM des modèles de langage pré-formé.

Indice de référence

EasyNLP fournit une boîte à outils simple pour benchmark Clue DataSets. Vous pouvez simplement utiliser simplement cette commande pour analyser l'ensemble de données d'indices.

 # Format: bash run_clue.sh device_id train/predict dataset
# e.g.: 
bash run_clue.sh 0 train csl

Nous avons testé Chiese Bert et Roberta Modelson les ensembles de données, les résultats de Dev Set sont:

(1) Bert-Base-Chinese:

Tâche	Afqmc	Cmnli	CSL	Iflytek	Ocnli	Tnews	WSC
P	72,17%	75,74%	80,93%	60,22%	78,31%	57,52%	75,33%
F1	52,96%	75,74%	81,71%	60,22%	78,30%	57,52%	80,82%

(2) Chinese-Roberta-WWM-Ext:

Tâche	Afqmc	Cmnli	CSL	Iflytek	Ocnli	Tnews	WSC
P	73,10%	80,75%	80,07%	60,98%	80,75%	57,93%	86,84%
F1	56,04%	80,75%	81,50%	60,98%	80,75%	57,93%	89,58%

Voici l'exemple détaillé d'indice d'indice.

Tutoriels

自定义文本分类示例
QuickStart- 文本分类
QuickStart-Pai DSW
QuickStart-MaxCompute / ODPS 数据
Appzoo- 文本向量化
Appzoo- 文本分类 / 匹配
Appzoo- 序列标注
Appzoo-geep 文本分类
Appzoo- 文本生成
基础预训练实践
知识预训练实践
知识蒸馏实践
跨任务知识蒸馏实践
小样本学习实践
RapidFormer 模型训练加速实践
API Docs: http://atp-modelzoo-sh.oss-cn-shanghai.aliyuns.com/release/easynlp/Easynlp_docs/html/index.html

Licence

Ce projet est concédé sous licence Apache (version 2.0). Cette boîte à outils contient également un code modifié à partir d'autres reposs sous d'autres licences open source. Voir le fichier d'avis pour plus d'informations.

Changelog

EasyNLP V0.0.3 a été publié au 01/04/2022. Veuillez vous référer à TAG_V0.0.3 pour plus de détails et d'historique.

Contactez-nous

Scannez les codes QR suivants pour rejoindre le groupe de discussion Dingtalk. Les discussions de groupe sont principalement en chinois, mais l'anglais est également accueilli.

Référence

DKPLM: https://paperswithcode.com/paper/dkplm-decomposable-knowledge-enhanced-pre
Metakd: https://paperswithcode.com/paper/meta-kd-a-meta-knowledge-distillation
CP-TUNING: https://paperswithcode.com/paper/making-pre--trainen--anguage-models-end-to-end-1
Fashionbert: https://paperswithcode.com/paper/fashionbert-text-and-image-matching-with

Nous avons un papier arxiv pour vous citer pour la bibliothèque EasyNLP:

 @article{easynlp,
  doi = {10.48550/ARXIV.2205.00258},  
  url = {https://arxiv.org/abs/2205.00258},  
  author = {Wang, Chengyu and Qiu, Minghui and Zhang, Taolin and Liu, Tingting and Li, Lei and Wang, Jianing and Wang, Ming and Huang, Jun and Lin, Wei},
  title = {EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing},
  publisher = {arXiv},  
  year = {2022}
}

Développer

Informations supplémentaires

Version v0.0.3
Type Autre code source
Date de mise à jour 2025-04-19
taille 19.01MB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout