Download EasyNLP - download do código -fonte EasyNLP

EasyNLP

Outro código-fonte

v0.0.3

Baixar

Easynlp é um kit de ferramentas abrangente e fácil de usar

Easynlp 中文介绍

O EasyNLP é um kit de ferramentas de desenvolvimento e aplicativo de desenvolvimento de NLP fácil de usar em Pytorch, lançado pela primeira vez dentro do Alibaba em 2021. Ele é construído com estratégias de treinamento distribuídas escaláveis e suporta um conjunto abrangente de algoritmos de PNL para várias aplicações de PNL. A easyNLP integra a destilação do conhecimento e a aprendizagem de poucos tiros para atingir grandes modelos pré-treinados, juntamente com vários modelos pré-treinados de multi-modalidade populares. Ele fornece uma estrutura unificada de treinamento de modelos, inferência e implantação para aplicativos do mundo real. Ele alimentou mais de 10 ônibus e mais de 20 cenários de negócios no grupo Alibaba. É perfeitamente integrado à plataforma de produtos de IA (PAI), incluindo PAI-DSW para desenvolvimento, PAI-DLC para treinamento nativo em nuvem, PAI-EAS para servir e PAI-designer para treinamento de modelo de código zero.

Principais características

Fácil de usar e altamente personalizável: além de fornecer comandos fáceis de usar e concisos para chamar modelos de ponta, também abstrava certos módulos personalizados, como AppZoo e ModelZoo, para facilitar a criação de aplicativos de PNL. Ele está equipado com a estrutura de treinamento distribuída PAI Pytorch Torchaccelerator para acelerar o treinamento distribuído.
Compatível com bibliotecas de código aberto: a easyNLP possui APIs para apoiar o treinamento de modelos de HuggingFace/Transformers com a estrutura distribuída do PAI. Ele também suporta os modelos pré-treinados no EasyTransfer Modelzoo.
Pré-treinamento injetado pelo conhecimento: A equipe da PAI tem muitas pesquisas sobre pré-treinamento injetado pelo conhecimento e cria um modelo injetado pelo conhecimento que vence o primeiro lugar na competição de pré-treinamento do conhecimento do CCF. A easyNLP integra esses modelos pré-treinados de conhecimento de ponta, incluindo DKPLM e KGBERT.
O pouso de grandes modelos pré-treinados: a easyNLP oferece recursos de aprendizado com poucas fotos, permitindo que os usuários estejam os grandes modelos grandes, com apenas algumas amostras para obter bons resultados. Ao mesmo tempo, fornece funções de destilação de conhecimento para ajudar rapidamente a destilar modelos grandes para um modelo pequeno e eficiente para facilitar a implantação on -line.
Modelos pré-treinados multimodalidade: easyNLP não se trata apenas de PNL. Ele também suporta vários modelos populares pré-treinados de multi-modalidade para apoiar tarefas de linguagem de visão que exigem conhecimento visual. Por exemplo, ele está equipado com modelos de estilo de clipes para correspondência de imagem de texto e modelos de estilo Dalle para geração de texto para imagem.

Artigos técnicos

Temos uma série de artigos técnicos sobre as funcionalidades do easynlp.

BeautifulPrompt: Pai 推出自研 Prompt 美化器，赋能 Aigc 一键出美图
Pai-difusão 中文模型全面升级，海量高清艺术大图一键生成
Easynlp 集成 K-global ponteiro 算法，支持中文信息抽取
阿里云 Pai-difusão 功能再升级，全链路支持模型调优，平均推理速度提升 75%以上
Pai-difusão 模型来了！阿里云机器学习团队带您徜徉中文艺术海洋
模型精度再被提升，统一跨任务小样本学习算法 UPT 给出解法!
Span 抽取和元学习能碰撞出怎样的新火花，小样本实体识别来告诉你!
算法 KECP 被顶会 EMNLP 收录，极少训练数据就能实现机器阅读理解
当大火的文图生成模型遇见知识图谱， ai 画像趋近于真实世界
Easynlp 发布融合语言学和事实知识的中文预训练模型 ckbert
Easynlp 带你实现中英文机器阅读理解
跨模态学习能力再升级， easynlp 电商文图检索效果刷新 sota
Easynlp 玩转文本摘要（新闻标题））生成
中文稀疏 Gpt 大模型落地 - 通往低成本 & 高性能多任务通用自然语言理解的关键里程碑
Easynlp 集成 K-Bert 算法，借助知识图谱实现更优 Finetune
Easynlp 中文文图生成模型带你秒变艺术家
面向长代码序列的 Transformador 模型优化方法，提升长代码场景性能
Easynlp 带你玩转 clipe 图文检索
阿里云机器学习 Pai 开源中文 nlp 算法框架 easynlp ，助力 nlp 大模型落地
预训练知识度量比赛夺冠！阿里云 Pai 发布知识预训练工具

Instalação

Você pode configurar a partir da fonte:

$ git clone https://github.com/alibaba/EasyNLP.git
$ cd EasyNLP
$ python setup.py install

Este repositório é testado no Python 3.6, pytorch> = 1.8.

Início rápido

Agora, vamos mostrar como usar apenas algumas linhas de código para criar um modelo de classificação de texto com base no BERT.

 from easynlp . appzoo import ClassificationDataset
from easynlp . appzoo import get_application_model , get_application_evaluator
from easynlp . core import Trainer
from easynlp . utils import initialize_easynlp , get_args
from easynlp . utils . global_vars import parse_user_defined_parameters
from easynlp . utils import get_pretrain_model_path

initialize_easynlp ()
args = get_args ()
user_defined_parameters = parse_user_defined_parameters ( args . user_defined_parameters )
pretrained_model_name_or_path = get_pretrain_model_path ( user_defined_parameters . get ( 'pretrain_model_name_or_path' , None ))

train_dataset = ClassificationDataset (
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    data_file = args . tables . split ( "," )[ 0 ],
    max_seq_length = args . sequence_length ,
    input_schema = args . input_schema ,
    first_sequence = args . first_sequence ,
    second_sequence = args . second_sequence ,
    label_name = args . label_name ,
    label_enumerate_values = args . label_enumerate_values ,
    user_defined_parameters = user_defined_parameters ,
    is_training = True )

valid_dataset = ClassificationDataset (
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    data_file = args . tables . split ( "," )[ - 1 ],
    max_seq_length = args . sequence_length ,
    input_schema = args . input_schema ,
    first_sequence = args . first_sequence ,
    second_sequence = args . second_sequence ,
    label_name = args . label_name ,
    label_enumerate_values = args . label_enumerate_values ,
    user_defined_parameters = user_defined_parameters ,
    is_training = False )

model = get_application_model ( app_name = args . app_name ,
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    num_labels = len ( valid_dataset . label_enumerate_values ),
    user_defined_parameters = user_defined_parameters )

trainer = Trainer ( model = model , train_dataset = train_dataset , user_defined_parameters = user_defined_parameters ,
    evaluator = get_application_evaluator ( app_name = args . app_name , valid_dataset = valid_dataset , user_defined_parameters = user_defined_parameters ,
    eval_batch_size = args . micro_batch_size ))
    
trainer . train ()

O exemplo completo pode ser encontrado aqui.

Você também pode usar as ferramentas de linha de comando AppZoo para treinar rapidamente um modelo de aplicativo. Pegue a classificação de texto no conjunto de dados SST-2 como exemplo. Primeiro, você pode baixar o trem.tsv e o dev.tsv, depois comece a treinar:

$ easynlp 
   --mode=train 
   --worker_gpu=1 
   --tables=train.tsv,dev.tsv 
   --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 
   --first_sequence=sent1 
   --label_name=label 
   --label_enumerate_values=0,1 
   --checkpoint_dir=./classification_model 
   --epoch_num=1  
   --sequence_length=128 
   --app_name=text_classify 
   --user_defined_parameters= ' pretrain_model_name_or_path=bert-small-uncased '

E então preveja:

$ easynlp 
  --mode=predict 
  --tables=dev.tsv 
  --outputs=dev.pred.tsv 
  --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 
  --output_schema=predictions,probabilities,logits,output 
  --append_cols=label 
  --first_sequence=sent1 
  --checkpoint_path=./classification_model 
  --app_name=text_classify

Para saber mais sobre o uso do AppZoo, consulte nossa documentação.

Modelzoo

Atualmente, a easyNLP fornece os seguintes modelos em ModelZoo:

PAI-BERT-ZH (de Alibaba Pai): modelos Bert pré-treinados com um grande corpus chinês.
DKPLM (de Alibaba PAI): Lançado com o artigo DKPLM: Modelo de linguagem pré-treinado com conhecimento decomposto, aprimorado pelo entendimento da linguagem natural de Taolin Zhang, Chengyu Wang, Nan Hu, Minghui Qiu, Chengguang Tang, Xiaofeng He e Jun Huang.
KGBERT (da Alibaba Damo Academy & Pai): modelos de Bert de pré-treino com incorporação de gráficos de conhecimento injetados.
Bert (do Google): Lançado com o artigo Bert: pré-treinamento de transformadores bidirecionais profundos para o entendimento de idiomas de Jacob Devlin, Ming-Wei Chang, Kenton Lee e Kristina Toutanova.
Roberta (do Facebook): Lançado com o jornal Roberta: Uma abordagem de pré -treinamento robustamente otimizada de Yinhan Liu, Myle Ott, Naman Goyal, Jingfei DU, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer e Veselin Stoyanov.
Roberta chinesa (da HFL): a versão chinesa de Roberta.
MacBert (da HFL): Lançado com o artigo Revisitando modelos pré-treinados para o processamento da linguagem natural chinesa por Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang e Guoping Hu.
Wobert (de Zhuiyitechnology): o Bert baseado em palavras para o idioma chinês.
Fashionbert (de Alibaba Pai & Icbu): em andamento.
GEEP (de Alibaba Pai): em andamento.
Mengzi (de Langboat): Lançado com o jornal Mengzi: Rumo a modelos leves e engenhosos pré-treinados para chinês por Zhuosheng Zhang, Hanqing Zhang, Keming Chen, Yuhang Guo, Jingyun Hua, Yulong Wang e Ming Zhou.
Erlangshen (da Idea): Lançado do repo.

Consulte este ReadMe para o uso desses modelos no EasyNLP. Enquanto isso, o EasyNLP suporta para carregar modelos pré -terenciados da HuggingFace/Transformers, consulte este tutorial para obter detalhes.

Easynlp fica multimodal

A easyNLP também suporta vários modelos pré-treinados de multi-modalidade populares para suportar tarefas de linguagem de visão que exigem conhecimento visual. Por exemplo, ele está equipado com modelos de estilo de clipes para correspondência de imagem de texto e modelos de estilo Dalle para geração de texto para imagem.

Correspondência de imagem de texto
Geração de texto para imagem
Geração de imagem para texto

Aterrissando grandes modelos pré-treinados

A EasyNLP fornece poucas arremessos e destilação de conhecimento para ajudar a atingir grandes modelos pré-treinados.

PET (de Lmu Munique e Sulzer GmbH): Lançado com o papel que explora as perguntas de cloze para poucas classificações de texto e inferência de linguagem natural de Timo Schick e Hinrich Schutze. Fizemos algumas pequenas modificações para tornar o algoritmo adequado ao idioma chinês.
T-Tuning (da Universidade de Tsinghua, Academia de AI de Pequim, MIT e Recorrente AI, Ltd.): Lançado com o Paper GPT entende também por Xiao Liu, Yanan Zheng, Zhengxiao Du, Ming Ding, Yujie Qian, Zhilin Yang e Jie Tang. Fizemos algumas pequenas modificações para tornar o algoritmo adequado ao idioma chinês.
Tuneing CP (de Alibaba Pai): Lançado com o papel que faz com que os modelos de idiomas pré-treinados sejam de ponta a ponta dos alunos com um ajuste imediato contrastivo de Ziyun Xu, Chengyu Wang, Minghui Qiu, Fuli Luo, Runxin Xu, Songfang Huang e Jun Huang.
Vanilla KD (de Alibaba Pai): destilar as logits de grandes modelos de estilo Bert para os menores.
Meta KD (de Alibaba PAI): liberado com o meta-kd de papel: uma estrutura de destilação de meta-conhecimento para compactação de modelos de idiomas entre os domínios de Haojie Pan, Chengyu Wang, Minghui Qiu, Yichang Zhang, Yaliang Li e Jun Huang.
Aumento dos dados (do Alibaba PAI): Aumentando os dados com base no chefe de modelos de idiomas pré-treinado MLM.

Referência de pista

O easynlp fornece um kit de ferramentas simples para comparar conjuntos de dados de pistas. Você pode simplesmente usar apenas esse comando para comparar o conjunto de dados de pistas.

 # Format: bash run_clue.sh device_id train/predict dataset
# e.g.: 
bash run_clue.sh 0 train csl

Testamos Chiese Bert e Roberta ModelsON nos conjuntos de dados, os resultados do conjunto de desenvolvedores são:

(1) Bert-Base-Chinese:

Tarefa	AFQMC	Cmnli	Csl	Iflytek	Ocnli	Tnews	WSC
P	72,17%	75,74%	80,93%	60,22%	78,31%	57,52%	75,33%
F1	52,96%	75,74%	81,71%	60,22%	78,30%	57,52%	80,82%

(2) chinês-roberta-wwm-ext:

Tarefa	AFQMC	Cmnli	Csl	Iflytek	Ocnli	Tnews	WSC
P	73,10%	80,75%	80,07%	60,98%	80,75%	57,93%	86,84%
F1	56,04%	80,75%	81,50%	60,98%	80,75%	57,93%	89,58%

Aqui está o exemplo detalhado de referência da pista.

Tutoriais

自定义文本分类示例
Quickstart- 文本分类
Quickstart-Pai DSW
Quickstart-maxcompute/ODPS 数据
AppZoo- 文本向量化
AppZoo- 文本分类/匹配
AppZoo- 序列标注
AppZoo-Geep 文本分类
AppZoo- 文本生成
基础预训练实践
知识预训练实践
知识蒸馏实践
跨任务知识蒸馏实践
小样本学习实践
RapidFormer 模型训练加速实践
API Docs: http://atp-modelzoo-sh.oss-cnhanghai.aliyuncs.com/release/easynlp/easynlp_docs/html/index.html

Licença

Este projeto está licenciado sob a licença Apache (versão 2.0). Este kit de ferramentas também contém algum código modificado de outros repositórios sob outras licenças de código aberto. Consulte o arquivo de aviso para obter mais informações.

Changelog

O easynlp v0.0.3 foi lançado em 01/04/2022. Consulte TAG_V0.0.3 para obter mais detalhes e histórico.

Contate-nos

Digitalize os seguintes códigos QR para ingressar no DingTalk Discussion Group. As discussões em grupo são principalmente em chinês, mas o inglês também é bem -vindo.

Referência

DKPLM: https://paperswithcode.com/paper/dkplm-decomposable-knowledge-endaned-pre
Metakd: https://paperswithcode.com/paper/meta-kd-ge-meta-knowledge-distilação
CP-Tuning: https://paperswithcode.com/paper/making-pre-triled-language-models-end-ond-end-1
Fashionbert: https://paperswithcode.com/paper/fashionbert-text-and-image-matching-with

Temos um artigo ARXIV para você citar a biblioteca EasynLP:

 @article{easynlp,
  doi = {10.48550/ARXIV.2205.00258},  
  url = {https://arxiv.org/abs/2205.00258},  
  author = {Wang, Chengyu and Qiu, Minghui and Zhang, Taolin and Liu, Tingting and Li, Lei and Wang, Jianing and Wang, Ming and Huang, Jun and Lin, Wei},
  title = {EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing},
  publisher = {arXiv},  
  year = {2022}
}

Expandir

Informações adicionais

Versão v0.0.3
Tipo Outro código-fonte
Data da Última Atualização 2025-04-19
tamanho 19.01MB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos