EasyNLP 다운로드 EasyNLP 소스 코드 다운로드

EasyNLP

기타 소스코드

v0.0.3

다운로드

EasyNLP는 포괄적이고 사용하기 쉬운 NLP 툴킷입니다

easynlp 中文介绍

EASYNLP는 Pytorch의 사용하기 쉬운 NLP 개발 및 애플리케이션 툴킷으로 2021 년 알리바바에서 처음 출시되었습니다. 확장 가능한 분산 교육 전략으로 구축되었으며 다양한 NLP 애플리케이션을위한 포괄적 인 NLP 알고리즘을 지원합니다. EasynLP는 다양한 인기있는 다중 모전성 미리 훈련 된 모델과 함께 대규모 미리 훈련 된 모델을 착륙하기위한 지식 증류 및 소수의 학습을 통합합니다. 실제 응용 프로그램을위한 모델 교육, 추론 및 배포의 통합 프레임 워크를 제공합니다. Alibaba Group 내에서 10 개 이상의 버스와 20 개 이상의 비즈니스 시나리오에 구동되었습니다. PAI-DSW 개발, 클라우드 네이티브 교육 용 PAI-DLC, 서빙을위한 PAI-EAS 및 제로 코드 모델 교육을 포함한 AI (Pai) 제품 플랫폼에 완벽하게 통합됩니다.

주요 기능

사용하기 쉽고 사용자 정의가 가능합니다. 최첨단 모델을 호출하기위한 사용하기 쉽고 간결한 명령을 제공하는 것 외에도 AppZoo 및 Modelzoo와 같은 특정 사용자 지정 모듈을 사용하여 NLP 애플리케이션을 쉽게 구축 할 수 있습니다. Pai Pytorch Distributed Training Framework Torchaccelerator가 장착되어 분산 교육 속도를 높입니다.
오픈 소스 라이브러리와 호환 : EasyNLP에는 PAI 분산 프레임 워크가있는 Huggingface/Transformers의 모델 교육을 지원하는 API가 있습니다. 또한 EasyTransfer Modelzoo에서 미리 훈련 된 모델을 지원합니다.
지식이 주입 된 사전 훈련 : PAI 팀은 지식이 주입 된 사전 훈련에 대한 많은 연구를 가지고 있으며 CCF 지식 사전 훈련 경쟁에서 1 위를 차지하는 지식 주인 모델을 구축합니다. EasyNLP는 DKPLM 및 KGBERT를 포함한 최첨단 지식 사전 훈련 된 모델을 통합합니다.
대규모 미리 훈련 된 모델 랜딩 : EasyNLP는 소수의 학습 기능을 제공하여 사용자가 몇 가지 샘플만으로 대형 모델을 미세하게하여 좋은 결과를 얻을 수 있습니다. 동시에, 그것은 온라인 배포를 용이하게하기 위해 대형 모델을 작고 효율적인 모델로 빠르게 증류 할 수 있도록 지식 증류 기능을 제공합니다.
다중 유체 사전 훈련 된 모델 : EasyNLP는 NLP에 관한 것이 아닙니다. 또한 시각적 지식이 필요한 비전 언어 작업을 지원하기 위해 다양한 인기있는 다중 모전성 미리 훈련 된 모델을 지원합니다. 예를 들어, 텍스트 이미지 일치를위한 클립 스타일 모델과 텍스트-이미지 생성을위한 Dalle 스타일 모델이 장착되어 있습니다.

기술 기사

Easynlp의 기능에 관한 일련의 기술 기사가 있습니다.

BeautifulPrompt ： Pai 推出自研 프롬프트 美化器美化器, 赋能 aigc 一键出美图
pai-divivenby usion, 海量高清艺术大图一键生成
easynlp 集成 k-global pointer 算法, 支持中文信息抽取
pai-divivilesion 功能再升级功能再升级, 全链路支持模型调优, 平均推理速度提升 75%以上
Pai-divivenb
模型精度再被提升, 统一跨任务小样本学习算法 upt 给出解法!
스팬 小样本实体识别来告诉你, ，!
算法 kecp p emnlp 收录, 极少训练数据就能实现机器阅读理解
当大火的文图生成模型遇见知识图谱, ai ，
easynlp 发布融合语言学和事实知识的中文预训练模型 ckbert
easynlp 带你实现中英文机器阅读理解
跨模态学习能力再升级, easynlp 电商文图检索效果刷新 sota
easynlp 玩转文本摘要玩转文本摘要 (新闻标题) 生成
中文稀疏 gpt 大模型落地 - 通往低成本 & 高性能多任务通用自然语言理解的关键里程碑
easynlp 集成 k-bert 算法算法, 借助知识图谱实现更优 finetune
easynlp 中文文图生成模型带你秒变艺术家
transformer 변압기 模型优化方法, 提升长代码场景性能
easynlp 带你玩转 클립 图文检索
pai 开源中文 nlp 算法框架 easynlp, 助力 nlp 大模型落地
pai 发布知识预训练工具

설치

소스에서 설정할 수 있습니다.

$ git clone https://github.com/alibaba/EasyNLP.git
$ cd EasyNLP
$ python setup.py install

이 repo는 Python 3.6, Pytorch> = 1.8에서 테스트됩니다.

빠른 시작

이제 몇 줄의 코드를 사용하여 Bert를 기반으로 텍스트 분류 모델을 구축하는 방법을 보여 드리겠습니다.

 from easynlp . appzoo import ClassificationDataset
from easynlp . appzoo import get_application_model , get_application_evaluator
from easynlp . core import Trainer
from easynlp . utils import initialize_easynlp , get_args
from easynlp . utils . global_vars import parse_user_defined_parameters
from easynlp . utils import get_pretrain_model_path

initialize_easynlp ()
args = get_args ()
user_defined_parameters = parse_user_defined_parameters ( args . user_defined_parameters )
pretrained_model_name_or_path = get_pretrain_model_path ( user_defined_parameters . get ( 'pretrain_model_name_or_path' , None ))

train_dataset = ClassificationDataset (
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    data_file = args . tables . split ( "," )[ 0 ],
    max_seq_length = args . sequence_length ,
    input_schema = args . input_schema ,
    first_sequence = args . first_sequence ,
    second_sequence = args . second_sequence ,
    label_name = args . label_name ,
    label_enumerate_values = args . label_enumerate_values ,
    user_defined_parameters = user_defined_parameters ,
    is_training = True )

valid_dataset = ClassificationDataset (
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    data_file = args . tables . split ( "," )[ - 1 ],
    max_seq_length = args . sequence_length ,
    input_schema = args . input_schema ,
    first_sequence = args . first_sequence ,
    second_sequence = args . second_sequence ,
    label_name = args . label_name ,
    label_enumerate_values = args . label_enumerate_values ,
    user_defined_parameters = user_defined_parameters ,
    is_training = False )

model = get_application_model ( app_name = args . app_name ,
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    num_labels = len ( valid_dataset . label_enumerate_values ),
    user_defined_parameters = user_defined_parameters )

trainer = Trainer ( model = model , train_dataset = train_dataset , user_defined_parameters = user_defined_parameters ,
    evaluator = get_application_evaluator ( app_name = args . app_name , valid_dataset = valid_dataset , user_defined_parameters = user_defined_parameters ,
    eval_batch_size = args . micro_batch_size ))
    
trainer . train ()

완전한 예는 여기에서 찾을 수 있습니다.

AppZoo 명령 줄 도구를 사용하여 앱 모델을 빠르게 교육 할 수도 있습니다. SST-2 데이터 세트에서 텍스트 분류를 예로 들어보십시오. 먼저 Train.tsv 및 dev.tsv를 다운로드 한 다음 교육을 시작할 수 있습니다.

$ easynlp 
   --mode=train 
   --worker_gpu=1 
   --tables=train.tsv,dev.tsv 
   --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 
   --first_sequence=sent1 
   --label_name=label 
   --label_enumerate_values=0,1 
   --checkpoint_dir=./classification_model 
   --epoch_num=1  
   --sequence_length=128 
   --app_name=text_classify 
   --user_defined_parameters= ' pretrain_model_name_or_path=bert-small-uncased '

그런 다음 예측하십시오.

$ easynlp 
  --mode=predict 
  --tables=dev.tsv 
  --outputs=dev.pred.tsv 
  --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 
  --output_schema=predictions,probabilities,logits,output 
  --append_cols=label 
  --first_sequence=sent1 
  --checkpoint_path=./classification_model 
  --app_name=text_classify

AppZoo의 사용법에 대한 자세한 내용은 문서를 참조하십시오.

Modelzoo

Easynlp는 현재 Modelzoo에서 다음과 같은 모델을 제공합니다.

Pai-Bert-Zh (Alibaba Pai의) : 중국 코퍼스가 큰 미리 훈련 된 버트 모델.
DKPLM (Alibaba Pai) : 종이 DKPLM과 함께 출시 : Taolin Zhang, Chengyu Wang, Nan Hu, Minghui Qiu, Chengguang Tang, Xiaofeng He 및 Jun Huang의 자연 언어 이해를위한 Decomposable Knowledge-Enhanced Pre-T-Ranceed Language Model.
KGBERT (Alibaba Damo Academy & PAI의) : 지식 그래프 임베드가있는 사전 훈련 버트 모델.
BERT (Google) : 논문 Bert와 함께 출시 : Jacob Devlin, Ming-Wei Chang, Kenton Lee 및 Kristina Toutanova의 언어 이해를위한 깊은 양방향 변압기의 사전 훈련.
Roberta (Facebook에서) : Paper Roberta와 함께 출시 : Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer 및 Veselin Stoyanov.
중국 Roberta (HFL) : Roberta의 중국어 버전.
Macbert (HFL) : Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang 및 Guoping Hu에 의한 중국 자연 언어 가공을위한 미리 훈련 된 모델을 재 방문하는 논문과 함께 출시되었습니다.
Wobert (Zhuiyitechnology) : 중국어에 대한 단어 기반 Bert.
Fashionbert (Alibaba Pai & Icbu) : 진행 중입니다.
GEEP (Alibaba Pai) : 진행 중입니다.
Mengzi (Langboat) : Paper Mengzi와 함께 출시 : Zhuosheng Zhang, Hanqing Zhang, Keming Chen, Yuhang Guo, Jingyun Hua, Yulong Wang 및 Ming Zhou의 경량이지만 독창적 인 미리 훈련 된 모델을 향해 출시되었습니다.
Erlangshen (Idea) : Repo에서 출시되었습니다.

Easynlp에서 이러한 모델의 사용에 대해서는이 readme를 참조하십시오. 한편 Easynlp는 Huggingface/Transformers에서 사전 이식 된 모델을로드하는 것을 지원합니다. 자세한 내용은이 자습서를 참조하십시오.

easynlp는 멀티 모달입니다

EASYNLP는 또한 시각적 지식이 필요한 비전 언어 작업을 지원하기 위해 다양한 인기있는 다중 모전성 미리 훈련 된 모델을 지원합니다. 예를 들어, 텍스트 이미지 일치를위한 클립 스타일 모델과 텍스트-이미지 생성을위한 Dalle 스타일 모델이 장착되어 있습니다.

텍스트 이미지 일치
텍스트-이미지 생성
이미지-텍스트 생성

대형 미리 훈련 된 모델을 착륙시킵니다

Easynlp는 대규모 미리 훈련 된 모델을 착륙시키는 데 도움이되는 소수의 학습 및 지식 증류를 제공합니다.

PET (LMU Munich 및 Sulzer Gmbh의) : Timo Schick과 Hinrich Schutze의 몇 가지 촬영 텍스트 분류 및 자연 언어 추론에 대한 클로즈 질문을 이용하는 논문과 함께 발표되었습니다. 우리는 알고리즘을 중국어에 적합하게 만들기 위해 약간의 수정을했습니다.
P-TUNING (Tsinghua University, Beijing AI AI, MIT 및 Reburrent AI, Ltd.) : 종이 GPT와 함께 릴리스 Xiao Liu, Yanan Zheng, Zhenciao du, Ming Ding, Yujie Qian, Zhilin Yang 및 Jie Tang. 우리는 알고리즘을 중국어에 적합하게 만들기 위해 약간의 수정을했습니다.
CP-TUNING (Alibaba Pai의) : Ziyun Xu, Chengyu Wang, Minghui Qiu, Fuli Luo, Runxin Xu, Songfang Huang 및 Jun Huang의 대조적 인 프롬프트 튜닝을 가진 종이를 미리 훈련 된 언어 모델 엔드 투 엔드 소수 샷 학습자와 함께 출시했습니다.
바닐라 KD (Alibaba Pai의) : 대형 베르트 스타일 모델의 로그를 더 작은 모델로 증류합니다.
Meta KD (Alibaba Pai의) : 종이 메타 -KD : Haojie Pan, Chengyu Wang, Minghui Qiu, Yichang Zhang, Yaliang Li 및 Jun Huang의 영역에서 언어 모델 압축을위한 메타 지식 증류 프레임 워크.
데이터 확대 (Alibaba PAI의) : 미리 훈련 된 언어 모델의 MLM 헤드를 기반으로 데이터 증강.

단서 벤치 마크

EasyNLP는 단서 데이터 세트를 벤치마킹하기위한 간단한 툴킷을 제공합니다. 단순히이 명령 만 사용하여 단서 데이터 세트를 벤치마킹 할 수 있습니다.

 # Format: bash run_clue.sh device_id train/predict dataset
# e.g.: 
bash run_clue.sh 0 train csl

우리는 데이터 세트에서 Chiese Bert와 Roberta Models를 테스트했습니다. DEV 세트의 결과는 다음과 같습니다.

(1) Bert-Base-Chinese :

일	AFQMC	cmnli	CSL	Iflytek	ocnli	tnews	WSC
피	72.17%	75.74%	80.93%	60.22%	78.31%	57.52%	75.33%
F1	52.96%	75.74%	81.71%	60.22%	78.30%	57.52%	80.82%

(2) 중국-로베르타 -WWM-EXT :

일	AFQMC	cmnli	CSL	Iflytek	ocnli	tnews	WSC
피	73.10%	80.75%	80.07%	60.98%	80.75%	57.93%	86.84%
F1	56.04%	80.75%	81.50%	60.98%	80.75%	57.93%	89.58%

자세한 단서 벤치 마크 예는 다음과 같습니다.

튜토리얼

自定义文本分类示例
QuickStart- 文本分类
Quickstart-Pai DSW
QuickStart-MaxCompute/ODPS 数据
appzoo- 文本向量化
appzoo-文本分类/匹配
appzoo- 序列标注
AppZoo-Geep-
appzoo- 文本生成
基础预训练实践
知识预训练实践
知识蒸馏实践
跨任务知识蒸馏实践
小样本学习实践
Rapidformer 模型训练加速实践
API 문서 : http://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/release/easynlp/easynlp_docs/html/index.html

특허

이 프로젝트는 Apache 라이센스 (버전 2.0)에 따라 라이센스가 부여됩니다. 이 툴킷에는 다른 오픈 소스 라이센스에 따라 다른 저장소에서 수정 된 일부 코드도 포함되어 있습니다. 자세한 내용은 통지 파일을 참조하십시오.

changelog

Easynlp V0.0.3은 01/04/2022에서 출시되었습니다. 자세한 내용과 기록은 Tag_v0.0.3을 참조하십시오.

저희에게 연락하십시오

다음 QR 코드를 스캔하여 Dingtalk 토론 그룹에 가입하십시오. 그룹 토론은 대부분 중국어로 이루어 지지만 영어도 환영합니다.

참조

DKPLM : https://paperswithcode.com/paper/dkplm-decomposable-ankledled-enhanced-pre
Metakd : https://paperswithcode.com/paper/meta-kd-a-meta-nowledge-distillation
CP-Tuning : https://paperswithcode.com/paper/making-pre-trained-manguage-models-nend-to-end-1
Fashionbert : https://paperswithcode.com/papess/fashionbert-text-and-matching-with

Easynlp 라이브러리를 인용 할 수있는 arxiv 종이가 있습니다.

 @article{easynlp,
  doi = {10.48550/ARXIV.2205.00258},  
  url = {https://arxiv.org/abs/2205.00258},  
  author = {Wang, Chengyu and Qiu, Minghui and Zhang, Taolin and Liu, Tingting and Li, Lei and Wang, Jianing and Wang, Ming and Huang, Jun and Lin, Wei},
  title = {EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing},
  publisher = {arXiv},  
  year = {2022}
}

확장하다

추가 정보

버전 v0.0.3
유형 기타 소스코드
업데이트 시간 2025-04-19
크기 19.01MB
출처 Github

EasyNLP

easynlp 中文介绍

주요 기능

기술 기사

설치

빠른 시작

Modelzoo

easynlp는 멀티 모달입니다

대형 미리 훈련 된 모델을 착륙시킵니다

단서 벤치 마크

튜토리얼

특허

changelog

저희에게 연락하십시오

참조

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express