Descargar EasyNLP - Descargar el código fuente de EasyNLP

EasyNLP

Otro código fuente

v0.0.3

Descargar

EasyNLP es un kit de herramientas NLP integral y fácil de usar

Easynlp 中文介绍

EasyNLP es un kit de herramientas de desarrollo y desarrollo de PNL fácil de usar en Pytorch, lanzado por primera vez dentro de Alibaba en 2021. Está construido con estrategias de capacitación distribuidas escalables y admite un conjunto integral de algoritmos NLP para varias aplicaciones de PNLP. EasyNLP integra la destilación del conocimiento y el aprendizaje de pocos disparos para aterrizar grandes modelos previamente capacitados, junto con varios modelos previamente capacitados de modalidad popular. Proporciona un marco unificado de capacitación modelo, inferencia e implementación para aplicaciones del mundo real. Ha impulsado más de 10 autobuses y más de 20 escenarios comerciales dentro del Grupo Alibaba. Se integra perfectamente a la plataforma de productos AI (PAI), incluido PAI-DSW para el desarrollo, PAI-DLC para capacitación nativa de nube, PAI-Ehe para Serving y PAI-Designer para capacitación de modelos de código cero.

Características principales

Fácil de usar y altamente personalizable: además de proporcionar comandos fáciles de usar y concisos para llamar a modelos de vanguardia, también resume ciertos módulos personalizados como Appzoo y Modelzoo para facilitar la creación de aplicaciones NLP. Está equipado con el Torchacelerator de Torchacelerator del marco de entrenamiento distribuido PAI Pytorch para acelerar el entrenamiento distribuido.
Compatible con bibliotecas de código abierto: EasyNLP tiene API para apoyar la capacitación de modelos de Huggingface/Transformers con el marco distribuido PAI. También admite los modelos previamente capacitados en EasyTransfer ModelZoo.
Pre-Training inyectado por el conocimiento: el equipo de PAI tiene una gran cantidad de investigaciones sobre el pre-entrenamiento inyectado por el conocimiento, y construye un modelo inyectado con el conocimiento que gana el primer lugar en la competencia de pre-entrenamiento de conocimiento de CCF. EasyNLP integra estos modelos previamente capacitados de conocimiento de vanguardia, incluidos DKPLM y Kgbert.
Aterrice de grandes modelos previamente capacitados: EasyNLP proporciona capacidades de aprendizaje de pocos disparos, lo que permite a los usuarios financiar modelos grandes con solo unas pocas muestras para lograr buenos resultados. Al mismo tiempo, proporciona funciones de destilación de conocimiento para ayudar a destilar rápidamente modelos grandes a un modelo pequeño y eficiente para facilitar la implementación en línea.
Modelos previos a la capacitación multimodalidad: EasyNLP no se trata solo de PNL. También es compatible con varios modelos previos a la modalidad popular para apoyar tareas en idioma de visión que requieren conocimiento visual. Por ejemplo, está equipado con modelos de estilo clip para modelos de coincidencia de imagen de texto y estilo Dalle para generación de texto a imagen.

Artículos técnicos

Tenemos una serie de artículos técnicos sobre las funcionalidades de EasyNLP.

BeautifulPrompt: pai 推出自研美化器美化器美化器赋能 aigc 一键出美图
PAI-DIFLUSION 中文模型全面升级海量高清艺术大图一键生成海量高清艺术大图一键生成
EasyNLP 集成 Pointer K-global 算法支持中文信息抽取支持中文信息抽取
阿里云 PAI-DIFLUSION 功能再升级全链路支持模型调优全链路支持模型调优平均推理速度提升 75%以上
PAI-DIFLUSION 模型来了！阿里云机器学习团队带您徜徉中文艺术海洋
模型精度再被提升，统一跨任务小样本学习算法统一跨任务小样本学习算法给出解法给出解法!
Espacio 抽取和元学习能碰撞出怎样的新火花小样本实体识别来告诉你小样本实体识别来告诉你!
算法 kecp 被顶会 emnlp 收录极少训练数据就能实现机器阅读理解极少训练数据就能实现机器阅读理解
当大火的文图生成模型遇见知识图谱， ai 画像趋近于真实世界
Easynlp 发布融合语言学和事实知识的中文预训练模型 ckbert
Easynlp 带你实现中英文机器阅读理解
跨模态学习能力再升级， easynlp 电商文图检索效果刷新 sota
Easynlp 玩转文本摘要（新闻标题）生成
中文稀疏 GPT 大模型落地 - 通往低成本 & 高性能多任务通用自然语言理解的关键里程碑
EasyNLP 集成 K-Bert 算法，借助知识图谱实现更优 Finetune
Easynlp 中文文图生成模型带你秒变艺术家
面向长代码序列的 Transformador 模型优化方法提升长代码场景性能提升长代码场景性能
Easynlp 带你玩转 clip 图文检索
阿里云机器学习 PAI 开源中文 NLP 算法框架 EasyNLP ，助力 NLP 大模型落地
预训练知识度量比赛夺冠！阿里云 Pai 发布知识预训练工具

Instalación

Puede configurar desde la fuente:

$ git clone https://github.com/alibaba/EasyNLP.git
$ cd EasyNLP
$ python setup.py install

Este repositorio se prueba en Python 3.6, Pytorch> = 1.8.

Comienzo rápido

Ahora mostremos cómo usar solo unas pocas líneas de código para crear un modelo de clasificación de texto basado en Bert.

 from easynlp . appzoo import ClassificationDataset
from easynlp . appzoo import get_application_model , get_application_evaluator
from easynlp . core import Trainer
from easynlp . utils import initialize_easynlp , get_args
from easynlp . utils . global_vars import parse_user_defined_parameters
from easynlp . utils import get_pretrain_model_path

initialize_easynlp ()
args = get_args ()
user_defined_parameters = parse_user_defined_parameters ( args . user_defined_parameters )
pretrained_model_name_or_path = get_pretrain_model_path ( user_defined_parameters . get ( 'pretrain_model_name_or_path' , None ))

train_dataset = ClassificationDataset (
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    data_file = args . tables . split ( "," )[ 0 ],
    max_seq_length = args . sequence_length ,
    input_schema = args . input_schema ,
    first_sequence = args . first_sequence ,
    second_sequence = args . second_sequence ,
    label_name = args . label_name ,
    label_enumerate_values = args . label_enumerate_values ,
    user_defined_parameters = user_defined_parameters ,
    is_training = True )

valid_dataset = ClassificationDataset (
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    data_file = args . tables . split ( "," )[ - 1 ],
    max_seq_length = args . sequence_length ,
    input_schema = args . input_schema ,
    first_sequence = args . first_sequence ,
    second_sequence = args . second_sequence ,
    label_name = args . label_name ,
    label_enumerate_values = args . label_enumerate_values ,
    user_defined_parameters = user_defined_parameters ,
    is_training = False )

model = get_application_model ( app_name = args . app_name ,
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    num_labels = len ( valid_dataset . label_enumerate_values ),
    user_defined_parameters = user_defined_parameters )

trainer = Trainer ( model = model , train_dataset = train_dataset , user_defined_parameters = user_defined_parameters ,
    evaluator = get_application_evaluator ( app_name = args . app_name , valid_dataset = valid_dataset , user_defined_parameters = user_defined_parameters ,
    eval_batch_size = args . micro_batch_size ))
    
trainer . train ()

El ejemplo completo se puede encontrar aquí.

También puede usar herramientas de línea de comandos Appzoo para entrenar rápidamente un modelo de aplicación. Tome la clasificación de texto en el conjunto de datos SST-2 como ejemplo. Primero puede descargar el tren.tsv y dev.tsv, luego comenzar a entrenar:

$ easynlp 
   --mode=train 
   --worker_gpu=1 
   --tables=train.tsv,dev.tsv 
   --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 
   --first_sequence=sent1 
   --label_name=label 
   --label_enumerate_values=0,1 
   --checkpoint_dir=./classification_model 
   --epoch_num=1  
   --sequence_length=128 
   --app_name=text_classify 
   --user_defined_parameters= ' pretrain_model_name_or_path=bert-small-uncased '

Y luego predecir:

$ easynlp 
  --mode=predict 
  --tables=dev.tsv 
  --outputs=dev.pred.tsv 
  --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 
  --output_schema=predictions,probabilities,logits,output 
  --append_cols=label 
  --first_sequence=sent1 
  --checkpoint_path=./classification_model 
  --app_name=text_classify

Para obtener más información sobre el uso de Appzoo, consulte nuestra documentación.

Modelo

EasyNLP actualmente proporciona los siguientes modelos en Modelzoo:

Pai-Bert-Zh (de Alibaba Pai): modelos Bert pretrontrados con un gran corpus chino.
DKPLM (de Alibaba PAI): Lanzado con el documento DKPLM: modelo de lenguaje previamente capacitado mejorado con el conocimiento descomponible para la comprensión del lenguaje natural por Taolin Zhang, Chengyu Wang, Nan Hu, Minghui Qiu, Chengguang Tang, Xiaofeng He y Jun Huang.
Kgbert (de Alibaba Damo Academy & Pai): modelos Bert de pre-entrenamiento con incrustaciones de gráficos de conocimiento inyectados.
Bert (de Google): Lanzado con el documento Bert: Prerreinamiento de transformadores bidireccionales profundos para la comprensión del lenguaje por Jacob Devlin, Ming-Wei Chang, Kenton Lee y Kristina Toutanova.
Roberta (de Facebook): Lanzado con el documento Roberta: un enfoque de preperación de Bert con sólida optimización de Yinhan Liu, Myle Ott, Naman Goyal, Jingfei du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer y Veselin Stoyanov.
Roberta chino (de HFL): la versión china de Roberta.
Macbert (de HFL): lanzado con el artículo que revisa modelos previamente capacitados para el procesamiento de lenguaje natural chino por Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang y Guoping Hu.
Wobert (de Zhuiyitechnology): el Bert basado en palabras para el idioma chino.
Fashionbert (de Alibaba Pai e ICBU): en progreso.
Geep (de Alibaba Pai): en progreso.
Mengzi (de Langboat): Lanzado con el papel Mengzi: hacia modelos livianos pero ingeniosos pre-entrenados para chino por Zhuosheng Zhang, Hanqing Zhang, Keming Chen, Yuhang Guo, Jingyun Hua, Yulong Wang y Ming Zhou.
Erlangshen (de Idea): Lanzado del repositorio.

Consulte este ReadMe para el uso de estos modelos en EasyNLP. Mientras tanto, EasyNLP admite cargar modelos previos a la aparición de Huggingface/Transformers, consulte este tutorial para más detalles.

EasyNLP se vuelve multimodal

EasyNLP también admite varios modelos previos a la modalidad popular para apoyar tareas en idioma de visión que requieren conocimiento visual. Por ejemplo, está equipado con modelos de estilo clip para modelos de coincidencia de imagen de texto y estilo Dalle para generación de texto a imagen.

Coincidencia de imágenes de texto
Generación de texto a imagen
Generación de imagen a texto

Aterrizar grandes modelos previamente capacitados

EasyNLP proporciona un aprendizaje y destilación de conocimiento de pocos disparos para ayudar a conseguir grandes modelos previamente capacitados.

PET (de LMU Munich y Sulzer GmbH): lanzado con el papel que explota preguntas de Cloze para pocas clasificaciones de texto de disparo e inferencia del lenguaje natural de Timo Schick y Hinrich Schutze. Hemos hecho algunas modificaciones ligeras para hacer que el algoritmo sea adecuado para el idioma chino.
P-Tuning (de la Universidad de Tsinghua, Academia de Beijing de AI, MIT y recurrente AI, Ltd.): Lanzado con el documento GPT entiende, también por Xiao Liu, Yanan Zheng, Zhengxiao Du, Ming Ding, Yujie Qian, Zhilin Yang y Jie Tang. Hemos hecho algunas modificaciones ligeras para hacer que el algoritmo sea adecuado para el idioma chino.
CP-ajuste (de Alibaba PAI): lanzado con el documento que hace modelos de lenguaje previamente capacitados a los alumnos de pocos disparos con un ajuste rápido contrastante de Ziyun Xu, Chengyu Wang, Minghui Qiu, Fuli Luo, Runxin Xu, Songfang Huang y Jun Huang.
Vanilla KD (de Alibaba Pai): destilación de los logits de los grandes modelos de estilo Bert a los más pequeños.
Meta KD (de Alibaba PAI): Lanzado con el documento Meta-KD: un marco de destilación de meta conocimiento para la compresión del modelo de idioma a través de dominios de Haojie Pan, Chengyu Wang, Minghui Qiu, Yichang Zhang, Yaliang Li y Jun Huang.
Aumento de datos (de Alibaba PAI): Aumento de los datos basados en la cabeza de MLM de modelos de lenguaje previamente capacitados.

Punto de referencia

EasyNLP proporciona un conjunto de herramientas simple para referencia de conjuntos de datos de pista. Simplemente puede usar solo este comando para comparar el conjunto de datos de pista.

 # Format: bash run_clue.sh device_id train/predict dataset
# e.g.: 
bash run_clue.sh 0 train csl

Hemos probado Chiese Bert y Roberta Models en los conjuntos de datos, los resultados del conjunto de desarrollo son:

(1) Bert-Base-chines:

Tarea	AFQMC	Cmnli	CSL	Iflytek	Ocnli	TNEWS	WSC
PAG	72.17%	75.74%	80.93%	60.22%	78.31%	57.52%	75.33%
F1	52.96%	75.74%	81.71%	60.22%	78.30%	57.52%	80.82%

(2) China-Roberta-WWM-EXT:

Tarea	AFQMC	Cmnli	CSL	Iflytek	Ocnli	TNEWS	WSC
PAG	73.10%	80.75%	80.07%	60.98%	80.75%	57.93%	86.84%
F1	56.04%	80.75%	81.50%	60.98%	80.75%	57.93%	89.58%

Aquí está el ejemplo de referencia detallado de pista.

Tutoriales

自定义文本分类示例
Quickstart- 文本分类
QuickStart-Pai DSW
QuickStart-MaxCompute/ODP 数据
Appzoo- 文本向量化
Appzoo- 文本分类/匹配
Appzoo- 序列标注
Appzoo-geep 文本分类
Appzoo- 文本生成
基础预训练实践
知识预训练实践
知识蒸馏实践
跨任务知识蒸馏实践
小样本学习实践
RapidFormer 模型训练加速实践
API Docs: http://atp-modelzoo-sh.oss-cn-shanghai.aliyunc.com/release/easynlp/easynlp_docs/html/index.html

Licencia

Este proyecto tiene licencia bajo la licencia Apache (versión 2.0). Este kit de herramientas también contiene algún código modificado de otros Repos con otras licencias de código abierto. Consulte el archivo de notificación para obtener más información.

Colegio de cambios

EasyNLP V0.0.3 se lanzó el 01/04/2022. Consulte TAG_V0.0.3 para obtener más detalles e historial.

Contáctenos

Escanee los siguientes códigos QR para unirse al grupo de discusión Dingtalk. Las discusiones grupales son principalmente en chino, pero el inglés también es bienvenido.

Referencia

DKPLM: https://paperswithcode.com/paper/dkplm-decompcesable-knowledge-shanced-pre
Metakd: https://paperswithcode.com/paper/meta-kd-a-meta- knowledge-distillation
CP-tuning: https://paperswithcode.com/paper/making-pre-trained-language-models-d-to-d-1
Fashionbert: https://paperswithcode.com/paper/fashionbert-text-and-image-matching-with

Tenemos un artículo ARXIV para que cite para la biblioteca EasyNLP:

 @article{easynlp,
  doi = {10.48550/ARXIV.2205.00258},  
  url = {https://arxiv.org/abs/2205.00258},  
  author = {Wang, Chengyu and Qiu, Minghui and Zhang, Taolin and Liu, Tingting and Li, Lei and Wang, Jianing and Wang, Ming and Huang, Jun and Lin, Wei},
  title = {EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing},
  publisher = {arXiv},  
  year = {2022}
}

Expandir

Información adicional

Versión v0.0.3
Tipo Otro código fuente
Fecha de actualización 2025-04-19
tamaño 19.01MB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo