ดาวน์โหลด EasyNLP - ดาวน์โหลดซอร์สโค้ด EasyNLP

EasyNLP

ซอร์สโค้ดอื่น ๆ

v0.0.3

ดาวน์โหลด

EasyNLP เป็นชุดเครื่องมือ NLP ที่ครอบคลุมและใช้งานง่าย

EasyNlp 中文介绍

EasyNLP เป็นการพัฒนา NLP ที่ใช้งานง่ายและแอปพลิเคชันเครื่องมือใน Pytorch เปิดตัวครั้งแรกในอาลีบาบาในปี 2564 มันถูกสร้างขึ้นด้วยกลยุทธ์การฝึกอบรมแบบกระจายที่ปรับขนาดได้และสนับสนุนชุดอัลกอริทึม NLP ที่ครอบคลุมสำหรับการใช้งาน NLP ต่างๆ EasyNLP ผสมผสานการกลั่นความรู้และการเรียนรู้ไม่กี่ครั้งสำหรับการเชื่อมโยงโมเดลที่ผ่านการฝึกอบรมมาก่อนขนาดใหญ่พร้อมกับโมเดลที่ได้รับความนิยมหลายรูปแบบที่ได้รับความนิยม มันมีกรอบการทำงานแบบครบวงจรของการฝึกอบรมแบบจำลองการอนุมานและการปรับใช้สำหรับแอปพลิเคชันในโลกแห่งความเป็นจริง มันขับมากกว่า 10 บัสและสถานการณ์ทางธุรกิจมากกว่า 20 สถานการณ์ภายในกลุ่มอาลีบาบา มันถูกรวมเข้ากับแพลตฟอร์มของผลิตภัณฑ์ AI (PAI) อย่างราบรื่นรวมถึง PAI-DSW สำหรับการพัฒนา PAI-DLC สำหรับการฝึกอบรมคลาวด์-เนทีฟ PAI-EAS สำหรับการให้บริการและ PAI-DESIGNER สำหรับการฝึกอบรมแบบจำลองรหัสศูนย์

คุณสมบัติหลัก

ใช้งานง่ายและปรับแต่งได้สูง: นอกเหนือจากการจัดหาคำสั่งที่ใช้งานง่ายและรัดกุมเพื่อเรียกโมเดลที่ทันสมัยแล้วมันยังเป็นบทสรุปโมดูลที่กำหนดเองบางอย่างเช่น Appzoo และ Modelzoo เพื่อให้ง่ายต่อการสร้างแอปพลิเคชัน NLP มันติดตั้งเฟรมเวิร์กการฝึกอบรม Pai Pytorch Framework Torchaccelerator เพื่อเพิ่มความเร็วในการฝึกอบรมแบบกระจาย
เข้ากันได้กับห้องสมุดโอเพนซอร์ซ: EasyNLP มี APIs เพื่อรองรับการฝึกอบรมแบบจำลองจาก HuggingFace/Transformers ด้วยกรอบการกระจาย PAI นอกจากนี้ยังรองรับรุ่นที่ผ่านการฝึกอบรมมาก่อนใน EasyTransfer Modelzoo
การฝึกอบรมก่อนการฝึกความรู้: ทีม PAI มีการวิจัยมากมายเกี่ยวกับการฝึกอบรมก่อนการฉีดความรู้และสร้างรูปแบบการฉีดความรู้ที่ชนะอันดับหนึ่งในการแข่งขันการฝึกอบรมก่อนการฝึกอบรม CCF EasyNLP รวมโมเดลความรู้ที่ทันสมัยเหล่านี้เข้าด้วยกันรวมถึง DKPLM และ KGBERT
การลงจอดแบบจำลองที่ผ่านการฝึกอบรมล่วงหน้าขนาดใหญ่: EasyNLP ให้ความสามารถในการเรียนรู้ไม่กี่ครั้งทำให้ผู้ใช้สามารถปรับรุ่นขนาดใหญ่ด้วยตัวอย่างเพียงไม่กี่ตัวอย่างเพื่อให้ได้ผลลัพธ์ที่ดี ในขณะเดียวกันก็ให้ฟังก์ชั่นการกลั่นความรู้เพื่อช่วยกลั่นแบบจำลองขนาดใหญ่ให้เป็นรุ่นขนาดเล็กและมีประสิทธิภาพเพื่ออำนวยความสะดวกในการปรับใช้ออนไลน์
โมเดลที่ได้รับการฝึกฝนมาหลายแบบหลายแบบ: EasyNLP ไม่ได้เกี่ยวกับ NLP เท่านั้น นอกจากนี้ยังรองรับโมเดลที่ได้รับการฝึกฝนมาก่อนหลายโมเดลที่ได้รับความนิยมหลายแบบเพื่อรองรับงานภาษาวิสัยทัศน์ที่ต้องการความรู้ด้านภาพ ตัวอย่างเช่นมันมาพร้อมกับโมเดลสไตล์คลิปสำหรับการจับคู่ภาพข้อความและโมเดลสไตล์ Dalle สำหรับการสร้างข้อความเป็นภาพ

บทความทางเทคนิค

เรามีชุดของบทความทางเทคนิคเกี่ยวกับฟังก์ชันการทำงานของ EasyNLP

BeautifulPrompt： PAI 推出自研พรอมต์美化器，赋能 AIGC 一键出美图
Pai-diffusion 中文模型全面升级，海量高清艺术大图一键生成
EasyNlp 集成 K-Global Pointer 算法，支持中文信息抽取
阿里云 pai-diffusion 功能再升级，全链路支持模型调优，平均推理速度提升 75%以上
Pai-diffusion 模型来了！阿里云机器学习团队带您徜徉中文艺术海洋
模型精度再被提升，统一跨任务小样本学习算法 upt 给出解法!
ขยาย抽取和元学习能碰撞出怎样的新火花，小样本实体识别来告诉你!
算法 kecp 被顶会 emnlp 收录，极少训练数据就能实现机器阅读理解
当大火的文图生成模型遇见知识图谱， ai 画像趋近于真实世界
EasyNlp 发布融合语言学和事实知识的中文预训练模型 ckbert
EasyNlp 带你实现中英文机器阅读理解
跨模态学习能力再升级， easynlp 电商文图检索效果刷新 sota
EasyNLP 玩转文本摘要（新闻标题）生成
中文稀疏 gpt 大模型落地 - 通往低成本 & 高性能多任务通用自然语言理解的关键里程碑
EasyNlp 集成 K-Bert 算法，借助知识图谱实现更优 finetune
EasyNlp 中文文图生成模型带你秒变艺术家
面向长代码序列的หม้อแปลง模型优化方法，提升长代码场景性能
EasyNlp 带你玩转คลิป图文检索
阿里云机器学习 pai 开源中文 nlp 算法框架 easynlp，助力 nlp 大模型落地
预训练知识度量比赛夺冠！阿里云 Pai 发布知识预训练工具

การติดตั้ง

คุณสามารถตั้งค่าจากแหล่งที่มา：

$ git clone https://github.com/alibaba/EasyNLP.git
$ cd EasyNLP
$ python setup.py install

repo นี้ได้รับการทดสอบใน Python 3.6, pytorch> = 1.8

เริ่มต้นอย่างรวดเร็ว

ตอนนี้เรามาแสดงวิธีใช้รหัสเพียงไม่กี่บรรทัดเพื่อสร้างรูปแบบการจำแนกข้อความตาม Bert

 from easynlp . appzoo import ClassificationDataset
from easynlp . appzoo import get_application_model , get_application_evaluator
from easynlp . core import Trainer
from easynlp . utils import initialize_easynlp , get_args
from easynlp . utils . global_vars import parse_user_defined_parameters
from easynlp . utils import get_pretrain_model_path

initialize_easynlp ()
args = get_args ()
user_defined_parameters = parse_user_defined_parameters ( args . user_defined_parameters )
pretrained_model_name_or_path = get_pretrain_model_path ( user_defined_parameters . get ( 'pretrain_model_name_or_path' , None ))

train_dataset = ClassificationDataset (
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    data_file = args . tables . split ( "," )[ 0 ],
    max_seq_length = args . sequence_length ,
    input_schema = args . input_schema ,
    first_sequence = args . first_sequence ,
    second_sequence = args . second_sequence ,
    label_name = args . label_name ,
    label_enumerate_values = args . label_enumerate_values ,
    user_defined_parameters = user_defined_parameters ,
    is_training = True )

valid_dataset = ClassificationDataset (
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    data_file = args . tables . split ( "," )[ - 1 ],
    max_seq_length = args . sequence_length ,
    input_schema = args . input_schema ,
    first_sequence = args . first_sequence ,
    second_sequence = args . second_sequence ,
    label_name = args . label_name ,
    label_enumerate_values = args . label_enumerate_values ,
    user_defined_parameters = user_defined_parameters ,
    is_training = False )

model = get_application_model ( app_name = args . app_name ,
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    num_labels = len ( valid_dataset . label_enumerate_values ),
    user_defined_parameters = user_defined_parameters )

trainer = Trainer ( model = model , train_dataset = train_dataset , user_defined_parameters = user_defined_parameters ,
    evaluator = get_application_evaluator ( app_name = args . app_name , valid_dataset = valid_dataset , user_defined_parameters = user_defined_parameters ,
    eval_batch_size = args . micro_batch_size ))
    
trainer . train ()

ตัวอย่างที่สมบูรณ์สามารถพบได้ที่นี่

นอกจากนี้คุณยังสามารถใช้เครื่องมือบรรทัดคำสั่ง Appzoo เพื่อฝึกอบรมรุ่นแอพได้อย่างรวดเร็ว ใช้การจำแนกข้อความในชุดข้อมูล SST-2 เป็นตัวอย่าง ก่อนอื่นคุณสามารถดาวน์โหลด train.tsv และ dev.tsv จากนั้นเริ่มการฝึกอบรม:

$ easynlp 
   --mode=train 
   --worker_gpu=1 
   --tables=train.tsv,dev.tsv 
   --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 
   --first_sequence=sent1 
   --label_name=label 
   --label_enumerate_values=0,1 
   --checkpoint_dir=./classification_model 
   --epoch_num=1  
   --sequence_length=128 
   --app_name=text_classify 
   --user_defined_parameters= ' pretrain_model_name_or_path=bert-small-uncased '

แล้วทำนาย:

$ easynlp 
  --mode=predict 
  --tables=dev.tsv 
  --outputs=dev.pred.tsv 
  --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 
  --output_schema=predictions,probabilities,logits,output 
  --append_cols=label 
  --first_sequence=sent1 
  --checkpoint_path=./classification_model 
  --app_name=text_classify

หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการใช้งานของ Appzoo โปรดดูเอกสารของเรา

Modelzoo

EasyNLP ปัจจุบันมีรุ่นต่อไปนี้ใน Modelzoo:

Pai-Bert-ZH (จาก Alibaba Pai): รุ่น Bert ที่ผ่านการฝึกอบรมมาก่อนด้วยคลังภาษาจีนขนาดใหญ่
DKPLM (จาก Alibaba Pai): ปล่อยออกมาพร้อมกับ Paper DKPLM: แบบจำลองภาษาที่ได้รับการฝึกอบรมก่อนความรู้ที่ได้รับการฝึกอบรมเพื่อทำความเข้าใจภาษาธรรมชาติโดย Taolin Zhang, Chengyu Wang, Nan Hu, Minghui Qiu, Chengguang Tang, Xiaofeng
KGBERT (จาก Alibaba Damo Academy & Pai): รุ่น Bert ก่อนรถไฟพร้อมการฝังกราฟความรู้
เบิร์ต (จาก Google): วางจำหน่ายด้วยกระดาษเบิร์ต: การฝึกอบรมก่อนการฝึกอบรมแบบสองทิศทางเพื่อทำความเข้าใจภาษาโดย Jacob Devlin, Ming-Wei Chang, Kenton Lee และ Kristina Toutanova
Roberta (จาก Facebook): วางจำหน่ายด้วยกระดาษ Roberta: วิธีการที่ได้รับการปรับปรุงอย่างดีเยี่ยมโดย Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer และ Veselin Stoyanov
Roberta จีน (จาก HFL): Roberta รุ่นจีน
แมคเบิร์ต (จาก HFL): ปล่อยออกมาพร้อมกับกระดาษที่ได้รับการฝึกอบรมมาก่อนการประมวลผลภาษาธรรมชาติจีนโดย Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang และ Guoping Hu
Wobert (จาก Zhuiyitechnology): Bert ตามคำสำหรับภาษาจีน
Fashionbert (จาก Alibaba Pai & Icbu): กำลังดำเนินการ
Geep (จาก Alibaba Pai): กำลังดำเนินการ
Mengzi (จาก Langboat): ปล่อยออกมาพร้อมกับกระดาษ Mengzi: ไปสู่นางแบบที่ได้รับการฝึกฝนมาก่อนที่มีน้ำหนักเบา
Erlangshen (จาก Idea): ปล่อยจาก repo

โปรดดู readme นี้สำหรับการใช้งานรุ่นเหล่านี้ใน EasyNLP ในขณะเดียวกัน EasyNLP รองรับการโหลดโมเดลที่ผ่านการฝึกฝนจาก HuggingFace/Transformers โปรดดูที่บทช่วยสอนนี้เพื่อดูรายละเอียด

EasyNLP ไปหลายโหมด

EasyNLP ยังรองรับโมเดลที่ได้รับการฝึกฝนมาหลายรูปแบบหลายแบบที่ได้รับความนิยมเพื่อสนับสนุนงานภาษาวิสัยทัศน์ที่ต้องการความรู้ด้านภาพ ตัวอย่างเช่นมันมาพร้อมกับโมเดลสไตล์คลิปสำหรับการจับคู่ภาพข้อความและโมเดลสไตล์ Dalle สำหรับการสร้างข้อความเป็นภาพ

การจับคู่ภาพข้อความ
การสร้างข้อความเป็นภาพ
การสร้างภาพเป็นข้อความ

ลงจอดแบบจำลองขนาดใหญ่ที่ผ่านการฝึกอบรมมาก่อน

EasyNLP ให้การเรียนรู้และการกลั่นความรู้ไม่กี่ครั้งเพื่อช่วยให้แบบจำลองที่ผ่านการฝึกอบรมมาก่อน

PET (จาก LMU MUNICH และ SULZER GMBH): ปล่อยออกมาพร้อมกับกระดาษที่ใช้ประโยชน์จากคำถาม Cloze สำหรับการจำแนกข้อความช็อตและการอนุมานภาษาธรรมชาติโดย Timo Schick และ Hinrich Schutze เราได้ทำการปรับเปลี่ยนเล็กน้อยเพื่อทำให้อัลกอริทึมเหมาะสำหรับภาษาจีน
P-tuning (จากมหาวิทยาลัย Tsinghua, Academy ของปักกิ่งแห่ง AI, MIT และกำเริบ AI, Ltd. ): ได้รับการปล่อยตัวด้วยกระดาษ GPT เข้าใจเช่นกันโดย Xiao Liu, Yanan Zheng, Zhengxiao Du, Ming Ding, Yujie Qian, Zhilin Yang และ Jie Tang เราได้ทำการปรับเปลี่ยนเล็กน้อยเพื่อทำให้อัลกอริทึมเหมาะสำหรับภาษาจีน
CP-tuning (จาก Alibaba Pai): ปล่อยออกมาพร้อมกับการสร้างแบบจำลองภาษาที่ได้รับการฝึกฝนมาก่อนผู้เรียนไม่กี่คนที่มีการปรับแต่งแบบตรงข้ามโดย Ziyun Xu, Chengyu Wang, Minghui Qiu, Fuli Luo, Runxin Xu, Songfang Huang และ Jun Huang
วานิลลา KD (จากอาลีบาบาปาย): กลั่นการบันทึกของรุ่นเบิร์ตขนาดใหญ่ไปจนถึงรุ่นที่เล็กกว่า
Meta KD (จาก Alibaba Pai): ปล่อยออกมาพร้อมกับ Meta-KD กระดาษ: กรอบการกลั่นความรู้เมตาสำหรับการบีบอัดแบบจำลองภาษาข้ามโดเมนโดย Haojie Pan, Chengyu Wang, Minghui Qiu, Yichang Zhang, Yaliang Li และ Jun Huang
การเพิ่มข้อมูล (จาก Alibaba PAI): เพิ่มข้อมูลตาม MLM Head ของแบบจำลองภาษาที่ผ่านการฝึกอบรมมาก่อน

เกณฑ์มาตรฐาน

EasyNLP จัดเตรียมชุดเครื่องมือสำหรับชุดข้อมูลเบาะแสแบบเบนช์มาร์ก คุณสามารถใช้เพียงแค่คำสั่งนี้กับชุดข้อมูลเบาะแสมาตรฐาน

 # Format: bash run_clue.sh device_id train/predict dataset
# e.g.: 
bash run_clue.sh 0 train csl

เราได้ทดสอบ Chiese Bert และ Roberta Models ในชุดข้อมูลผลลัพธ์ของชุด Dev คือ:

(1) Bert-Base-Chinese:

งาน	AFQMC	cmnli	CSL	iflytek	ocnli	tnews	WSC
P	72.17%	75.74%	80.93%	60.22%	78.31%	57.52%	75.33%
F1	52.96%	75.74%	81.71%	60.22%	78.30%	57.52%	80.82%

(2) Chinese-Roberta-WWM-EXT:

งาน	AFQMC	cmnli	CSL	iflytek	ocnli	tnews	WSC
P	73.10%	80.75%	80.07%	60.98%	80.75%	57.93%	86.84%
F1	56.04%	80.75%	81.50%	60.98%	80.75%	57.93%	89.58%

นี่คือตัวอย่างเกณฑ์เบาะแสโดยละเอียด

บทเรียน

自定义文本分类示例
Quickstart- 文本分类
Quickstart-Pai DSW
QuickStart-MaxCompute/ODPS 数据
appzoo- 文本向量化
appzoo- 文本分类/匹配
appzoo- 序列标注
appzoo-geep 文本分类
appzoo- 文本生成
基础预训练实践
知识预训练实践
知识蒸馏实践
跨任务知识蒸馏实践
小样本学习实践
Rapidformer 模型训练加速实践
เอกสาร API: http://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/release/easynlp/easynlp_docs/html/index.html

ใบอนุญาต

โครงการนี้ได้รับอนุญาตภายใต้ใบอนุญาต Apache (เวอร์ชัน 2.0) ชุดเครื่องมือนี้ยังมีรหัสบางส่วนที่แก้ไขจาก repos อื่น ๆ ภายใต้ใบอนุญาตโอเพนซอร์ซอื่น ๆ ดูไฟล์ประกาศสำหรับข้อมูลเพิ่มเติม

การเปลี่ยนแปลง

EasyNLP v0.0.3 เปิดตัวใน 01/04/2022 โปรดดู tag_v0.0.3 สำหรับรายละเอียดและประวัติเพิ่มเติม

ติดต่อเรา

สแกนรหัส QR ต่อไปนี้เพื่อเข้าร่วมกลุ่มสนทนา Dingtalk การอภิปรายกลุ่มส่วนใหญ่เป็นภาษาจีน แต่ก็ยินดีต้อนรับภาษาอังกฤษ

อ้างอิง

dkplm: https://paperswithcode.com/paper/dkplm-decomposable-knophtledge-enhanced-pre
Metakd: https://paperswithcode.com/paper/meta-kd-a-meta-knophingledge-distillation
CP-TUNING: https://paperswithcode.com/paper/making-pre-trained-language-models-end-to-end-1
Fashionbert: https://paperswithcode.com/paper/fashionbert-text-and-image-matching-with

เรามีกระดาษ arxiv สำหรับคุณที่จะอ้างถึงห้องสมุด EasyNLP:

 @article{easynlp,
  doi = {10.48550/ARXIV.2205.00258},  
  url = {https://arxiv.org/abs/2205.00258},  
  author = {Wang, Chengyu and Qiu, Minghui and Zhang, Taolin and Liu, Tingting and Li, Lei and Wang, Jianing and Wang, Ming and Huang, Jun and Lin, Wei},
  title = {EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing},
  publisher = {arXiv},  
  year = {2022}
}

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน v0.0.3
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-04-19
ขนาด 19.01MB
มาจาก Github

แอปที่เกี่ยวข้อง

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด