Download EasyNLP - Unduh Kode Sumber EasyNLP

EasyNLP

Kode sumber lainnya

v0.0.3

Unduh

EasyNLP adalah toolkit NLP yang komprehensif dan mudah digunakan

Easynlp 中文介绍

EasyNLP adalah alat pengembangan dan aplikasi NLP yang mudah digunakan di Pytorch, pertama kali dirilis di dalam Alibaba pada tahun 2021. Ini dibangun dengan strategi pelatihan terdistribusi yang dapat diskalakan dan mendukung rangkaian algoritma NLP yang komprehensif untuk berbagai aplikasi NLP. EasyNLP mengintegrasikan distilasi pengetahuan dan pembelajaran beberapa shot untuk mendaratkan model pra-terlatih besar, bersama dengan berbagai model pra-terlatih multi-modalitas yang populer. Ini memberikan kerangka kerja terpadu pelatihan model, inferensi, dan penyebaran untuk aplikasi dunia nyata. Ini telah memberi daya lebih dari 10 bus dan lebih dari 20 skenario bisnis dalam kelompok Alibaba. Ini diintegrasikan dengan mulus ke platform produk AI (PAI), termasuk Pai-DSW untuk pengembangan, PAI-DLC untuk pelatihan cloud-asli, PAI-EA untuk melayani, dan PAI-Designer untuk pelatihan model nol-kode.

Fitur utama

Mudah digunakan dan sangat dapat disesuaikan: Selain memberikan perintah yang mudah digunakan dan ringkas untuk memanggil model mutakhir, itu juga mengabstraksi modul khusus tertentu seperti AppZoo dan Modelzoo untuk memudahkan membangun aplikasi NLP. Ini dilengkapi dengan pai Pytorch yang didistribusikan kerangka pelatihan Torchaccelerator untuk mempercepat pelatihan yang didistribusikan.
Kompatibel dengan pustaka open-source: EasyNLP memiliki API untuk mendukung pelatihan model dari huggingface/transformers dengan kerangka kerja terdistribusi PAI. Ini juga mendukung model pra-terlatih di EasyTransfer Modelzoo.
Pra-pelatihan yang disuntikkan pengetahuan: Tim PAI memiliki banyak penelitian tentang pra-pelatihan yang disuntikkan pengetahuan, dan membangun model yang disuntikkan pengetahuan yang memenangkan tempat pertama dalam kompetisi pra-pelatihan pengetahuan CCF. EasyNLP mengintegrasikan model pra-terlatih pengetahuan mutakhir ini, termasuk DKPLM dan KGBERT.
Mendarat Model Pra-Terlatih Besar: EasyNLP menyediakan kemampuan belajar beberapa-shot, memungkinkan pengguna untuk finetune model besar dengan hanya beberapa sampel untuk mencapai hasil yang baik. Pada saat yang sama, ini menyediakan fungsi distilasi pengetahuan untuk membantu dengan cepat menyaring model besar ke model kecil dan efisien untuk memfasilitasi penyebaran online.
Model pra-terlatih multi-modalitas: EasyNLP bukan tentang NLP saja. Ini juga mendukung berbagai model pra-terlatih multi-modalitas populer untuk mendukung tugas-tugas penglihatan-bahasa yang membutuhkan pengetahuan visual. Misalnya, ini dilengkapi dengan model gaya klip untuk pencocokan gambar-gambar dan model gaya Dalle untuk pembuatan teks-ke-gambar.

Artikel teknis

Kami memiliki serangkaian artikel teknis tentang fungsi EasyNLP.

BeautifulPromppt ： pai 推出自研 prompt 美化器，赋能 aigc 一键出美图
Pai-difusi 中文模型全面升级，海量高清艺术大图一键生成
Easynlp 集成 K-global pointer 算法，支持中文信息抽取
阿里云 pai-difusi 功能再升级，全链路支持模型调优，平均推理速度提升 75%以上
Pai-difusi 模型来了！阿里云机器学习团队带您徜徉中文艺术海洋
模型精度再被提升，统一跨任务小样本学习算法 upt 给出解法!
Span 抽取和元学习能碰撞出怎样的新火花，小样本实体识别来告诉你!
算法 KECP 被顶会 EMNLP 收录，极少训练数据就能实现机器阅读理解
当大火的文图生成模型遇见知识图谱， ai 画像趋近于真实世界
Easynlp 发布融合语言学和事实知识的中文预训练模型 Ckbert
Easynlp 带你实现中英文机器阅读理解
跨模态学习能力再升级， easynlp 电商文图检索效果刷新 sota
Easynlp 玩转文本摘要（新闻标题）生成
中文稀疏 gpt 大模型落地 - 通往低成本 & 高性能多任务通用自然语言理解的关键里程碑
Easynlp 集成 K-BERT 算法，借助知识图谱实现更优 finetune
Easynlp 中文文图生成模型带你秒变艺术家
面向长代码序列的 Transformer 模型优化方法，提升长代码场景性能
EasyNLP 带你玩转 Klip 图文检索
阿里云机器学习 pai 开源中文 nlp 算法框架 easynlp ，助力 nlp 大模型落地
预训练知识度量比赛夺冠！阿里云 pai 发布知识预训练工具

Instalasi

Anda dapat menyiapkan dari sumber ：

$ git clone https://github.com/alibaba/EasyNLP.git
$ cd EasyNLP
$ python setup.py install

Repo ini diuji pada Python 3.6, Pytorch> = 1.8.

Awal yang cepat

Sekarang mari kita tunjukkan cara menggunakan hanya beberapa baris kode untuk membangun model klasifikasi teks berdasarkan Bert.

 from easynlp . appzoo import ClassificationDataset
from easynlp . appzoo import get_application_model , get_application_evaluator
from easynlp . core import Trainer
from easynlp . utils import initialize_easynlp , get_args
from easynlp . utils . global_vars import parse_user_defined_parameters
from easynlp . utils import get_pretrain_model_path

initialize_easynlp ()
args = get_args ()
user_defined_parameters = parse_user_defined_parameters ( args . user_defined_parameters )
pretrained_model_name_or_path = get_pretrain_model_path ( user_defined_parameters . get ( 'pretrain_model_name_or_path' , None ))

train_dataset = ClassificationDataset (
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    data_file = args . tables . split ( "," )[ 0 ],
    max_seq_length = args . sequence_length ,
    input_schema = args . input_schema ,
    first_sequence = args . first_sequence ,
    second_sequence = args . second_sequence ,
    label_name = args . label_name ,
    label_enumerate_values = args . label_enumerate_values ,
    user_defined_parameters = user_defined_parameters ,
    is_training = True )

valid_dataset = ClassificationDataset (
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    data_file = args . tables . split ( "," )[ - 1 ],
    max_seq_length = args . sequence_length ,
    input_schema = args . input_schema ,
    first_sequence = args . first_sequence ,
    second_sequence = args . second_sequence ,
    label_name = args . label_name ,
    label_enumerate_values = args . label_enumerate_values ,
    user_defined_parameters = user_defined_parameters ,
    is_training = False )

model = get_application_model ( app_name = args . app_name ,
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    num_labels = len ( valid_dataset . label_enumerate_values ),
    user_defined_parameters = user_defined_parameters )

trainer = Trainer ( model = model , train_dataset = train_dataset , user_defined_parameters = user_defined_parameters ,
    evaluator = get_application_evaluator ( app_name = args . app_name , valid_dataset = valid_dataset , user_defined_parameters = user_defined_parameters ,
    eval_batch_size = args . micro_batch_size ))
    
trainer . train ()

Contoh lengkap dapat ditemukan di sini.

Anda juga dapat menggunakan alat baris perintah AppZoo untuk melatih model aplikasi dengan cepat. Ambil klasifikasi teks pada dataset SST-2 sebagai contoh. Pertama, Anda dapat mengunduh train.tsv, dan dev.tsv, lalu mulai pelatihan:

$ easynlp 
   --mode=train 
   --worker_gpu=1 
   --tables=train.tsv,dev.tsv 
   --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 
   --first_sequence=sent1 
   --label_name=label 
   --label_enumerate_values=0,1 
   --checkpoint_dir=./classification_model 
   --epoch_num=1  
   --sequence_length=128 
   --app_name=text_classify 
   --user_defined_parameters= ' pretrain_model_name_or_path=bert-small-uncased '

Dan kemudian memprediksi:

$ easynlp 
  --mode=predict 
  --tables=dev.tsv 
  --outputs=dev.pred.tsv 
  --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 
  --output_schema=predictions,probabilities,logits,output 
  --append_cols=label 
  --first_sequence=sent1 
  --checkpoint_path=./classification_model 
  --app_name=text_classify

Untuk mempelajari lebih lanjut tentang penggunaan Appzoo, silakan merujuk ke dokumentasi kami.

Modelzoo

EasyNLP saat ini menyediakan model berikut di Modelzoo:

Pai-Bert-Zh (dari Alibaba Pai): Model Bert pra-terlatih dengan korpus Cina besar.
DKPLM (dari Alibaba Pai): Dirilis dengan kertas DKPLM: Model Bahasa Pra-Latihan yang Ditingkatkan Pengetahuan yang Didekomposisi untuk Pemahaman Bahasa Alami oleh Taolin Zhang, Chengyu Wang, Nan Hu, Minghui Qiu, Chengguang Tang, Xiaofeng He dan Jun Huang.
KGBERT (dari Alibaba Damo Academy & Pai): Model Bert pra-kereta dengan embeddings grafik pengetahuan yang disuntikkan.
Bert (dari Google): Dirilis dengan kertas Bert: Pra-pelatihan transformator dua arah yang dalam untuk pemahaman bahasa oleh Jacob Devlin, Ming-Wei Chang, Kenton Lee dan Kristina Toutanova.
Roberta (dari Facebook): Dirilis dengan kertas Roberta: Pendekatan pretraining Bert yang dioptimalkan oleh Yinhan Liu, Myle Ott, Naman Goyal, Jingfei du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer dan Veselin Stoyanov.
China Roberta (dari HFL): Versi Tiongkok dari Roberta.
Macbert (dari HFL): Dirilis dengan kertas yang meninjau kembali model-model terlatih untuk pemrosesan bahasa alami Cina oleh Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang dan Guoping Hu.
Wobert (dari Zhuiyitechnology): Bert berbasis kata untuk bahasa Cina.
Fashionbert (dari Alibaba Pai & Icbu): sedang berlangsung.
GEEP (dari Alibaba Pai): sedang berlangsung.
Mengzi (dari Langboat): Dirilis dengan kertas Mengzi: Menuju Model Pra-Latih yang Ringan namun Berguna untuk Cina oleh Zhuosheng Zhang, Hanqing Zhang, Keming Chen, Yuhang Guo, Jingyun Hua, Yulong Wang dan Ming Zhou.
Erlangshen (dari Ide): Dirilis dari repo.

Silakan merujuk readme ini untuk penggunaan model -model ini di EasyNLP. Sementara itu, EasyNLP mendukung untuk memuat model pretrained dari Huggingface/Transformers, silakan merujuk ke tutorial ini untuk detailnya.

Easynlp menjadi multi-modal

EasyNLP juga mendukung berbagai model pra-terlatih multi-modalitas populer untuk mendukung tugas-tugas bahasa penglihatan yang membutuhkan pengetahuan visual. Misalnya, ini dilengkapi dengan model gaya klip untuk pencocokan gambar-gambar dan model gaya Dalle untuk pembuatan teks-ke-gambar.

Pencocokan gambar-gambar
Generasi teks-ke-gambar
Pembuatan gambar-ke-teks

Mendarat model pra-terlatih yang besar

EasyNLP menyediakan beberapa shot pembelajaran dan distilasi pengetahuan untuk membantu mendaratkan model pra-terlatih yang besar.

PET (dari LMU Munich dan Sulzer GmbH): Dirilis dengan kertas yang mengeksploitasi pertanyaan cloze untuk beberapa klasifikasi teks bidikan dan inferensi bahasa alami oleh Timo Schick dan Hinrich Schutze. Kami telah membuat sedikit modifikasi untuk membuat algoritma cocok untuk bahasa Cina.
P-tuning (dari Universitas Tsinghua, Akademi Beijing AI, MIT dan AI Recurrent, Ltd.): Dirilis dengan kertas GPT juga dipahami oleh Xiao Liu, Yanan Zheng, Zhengxiao du, Ming Ding, Yuji Qian, Zhilin Yang dan Jie Tang. Kami telah membuat sedikit modifikasi untuk membuat algoritma cocok untuk bahasa Cina.
CP-Tuning (dari Alibaba Pai): Dirilis dengan kertas membuat model bahasa pra-terlatih beberapa pelajar ujung-ujung dengan tuning cepat kontras oleh Ziyun Xu, Chengyu Wang, Minghui Qiu, Fuli Luo, Runxin Xu, Songfang Huang dan Jun Huang.
Vanilla KD (dari Alibaba Pai): Menyaring login model bergaya Bert besar ke yang lebih kecil.
Meta KD (dari Alibaba Pai): dirilis dengan kertas meta-kd: kerangka penyulingan pengetahuan meta untuk kompresi model bahasa di seluruh domain oleh Haojie Pan, Chengyu Wang, Minghui Qiu, Yichang Zhang, Yaliang Li dan Jun Huang.
Augmentasi Data (dari Alibaba Pai): menambah data berdasarkan kepala MLM dari model bahasa pra-terlatih.

Petunjuk Benchmark

EasyNLP menyediakan perangkat dataset Petunjuk Benchmark. Anda cukup menggunakan perintah ini untuk membandingkan dataset petunjuk.

 # Format: bash run_clue.sh device_id train/predict dataset
# e.g.: 
bash run_clue.sh 0 train csl

Kami telah menguji Chiese Bert dan Roberta Modelson The Datasets, hasil set dev adalah:

(1) Bert-Base-Chinese:

Tugas	AFQMC	Cmnli	CSL	Iflytek	Ocnli	Tnews	WSC
P	72,17%	75,74%	80,93%	60,22%	78,31%	57,52%	75,33%
F1	52,96%	75,74%	81,71%	60,22%	78,30%	57,52%	80,82%

(2) China-Roberta-WWM-EXT:

Tugas	AFQMC	Cmnli	CSL	Iflytek	Ocnli	Tnews	WSC
P	73,10%	80,75%	80,07%	60,98%	80,75%	57,93%	86,84%
F1	56,04%	80,75%	81,50%	60,98%	80,75%	57,93%	89,58%

Berikut adalah contoh benchmark petunjuk terperinci.

Tutorial

自定义文本分类示例
QuickStart- 文本分类
QuickStart-Pai DSW
QuickStart-MaxCompute/ODPS 数据
Appzoo- 文本向量化
Appzoo- 文本分类/匹配
Appzoo- 序列标注
Appzoo-geep 文本分类
Appzoo- 文本生成
基础预训练实践
知识预训练实践
知识蒸馏实践
跨任务知识蒸馏实践
小样本学习实践
Rapidformer 模型训练加速实践
API DOCS: http://atp-modelzoo-sh.oss-cn-hanghai.aliyuncs.com/release/easynlp/easynlp_docs/html/index.html

Lisensi

Proyek ini dilisensikan di bawah lisensi Apache (versi 2.0). Toolkit ini juga berisi beberapa kode yang dimodifikasi dari repo lain di bawah lisensi open-source lainnya. Lihat file pemberitahuan untuk informasi lebih lanjut.

Changelog

EasyNLP V0.0.3 dirilis pada 01/04/2022. Silakan merujuk ke TAG_V0.0.3 untuk detail dan sejarah lebih lanjut.

Hubungi kami

Pindai kode QR berikut untuk bergabung dengan grup diskusi DingTalk. Diskusi kelompok sebagian besar dalam bahasa Cina, tetapi bahasa Inggris juga disambut.

Referensi

DKPLM: https://paperswithcode.com/paper/dkplm-decomposable-nowledge-enhanced-pre
MetaKD: https://paperswithcode.com/paper/meta-kd-a-meta-nowledge-distilation
CP-Tuning: https://paperswithcode.com/paper/making-pre-trained-danguage-models-end-to-end-1
Fashionbert: https://paperswithcode.com/paper/fashionbert-text-and-image-patching-with

Kami memiliki kertas arxiv untuk Anda kutip untuk perpustakaan EasyNLP:

 @article{easynlp,
  doi = {10.48550/ARXIV.2205.00258},  
  url = {https://arxiv.org/abs/2205.00258},  
  author = {Wang, Chengyu and Qiu, Minghui and Zhang, Taolin and Liu, Tingting and Li, Lei and Wang, Jianing and Wang, Ming and Huang, Jun and Lin, Wei},
  title = {EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing},
  publisher = {arXiv},  
  year = {2022}
}

Memperluas

Informasi Tambahan

Versi v0.0.3
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-19
ukuran 19.01MB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua