تنزيل EasyNLP - تنزيل رمز المصدر EasyNLP

EasyNLP

شفرة المصدر الأخرى

v0.0.3

تنزيل

EasyNLP عبارة عن مجموعة أدوات شاملة وسهلة الاستخدام

easynlp 中文介绍

EasyNLP عبارة عن مجموعة أدوات لتطوير وتطبيق NLP سهلة الاستخدام في Pytorch ، تم إصدارها لأول مرة داخل Alibaba في عام 2021. تم تصميمها باستراتيجيات تدريب موزعة قابلة للتطوير ويدعم مجموعة شاملة من خوارزميات NLP لمختلف تطبيقات NLP. يدمج EasyNLP تقطير المعرفة والتعلم قليلًا من التعلم للهبوط في نماذج كبيرة تم تدريبه مسبقًا ، إلى جانب مختلف النماذج الشهيرة التي تم تدريبها مسبقًا. ويوفر إطارًا موحدًا للتدريب النموذجي ، والاستدلال ، ونشر التطبيقات في العالم الحقيقي. لقد عملت على أكثر من 10 حافلات وأكثر من 20 سيناريوهات عمل داخل مجموعة Alibaba. تم دمجها بسلاسة مع منصة لمنتجات AI (PAI) ، بما في ذلك PAI-DSW للتطوير ، PAI-DLC للتدريب على الناطقة بالمواد السحابية ، PAIS للخدمة ، و PAI-Designer للتدريب على طراز الرمز الصفري.

الميزات الرئيسية

سهل الاستخدام وقابل للتخصيص بشكل كبير: بالإضافة إلى توفير أوامر سهلة الاستخدام وموجزة لاستدعاء النماذج المتطورة ، فإنه يرفع أيضًا بعض الوحدات المخصصة مثل AppZoo و ModelZoo لتسهيل إنشاء تطبيقات NLP. وهي مزودة بتدريب Pai Pytorch Framework Torchaccelerator لتسريع التدريب الموزع.
متوافق مع المكتبات مفتوحة المصدر: لدى EasyNLP واجهات برمجة التطبيقات لدعم تدريب النماذج من Huggingface/Transformers مع الإطار الموزع PAI. كما يدعم النماذج التي تم تدريبها مسبقًا في EasyTransfer ModelZoo.
تم حقن المعرفة قبل التدريب: لدى فريق PAI الكثير من الأبحاث حول التدريب المسبق للمعرفة ، ويبني نموذجًا محقّنًا بالمعرفة يفوز بالمركز الأول في مسابقة CCF للمعرفة قبل التدريب. يدمج EasyNLP هذه النماذج المتطورة المعرفة مسبقًا ، بما في ذلك DKPLM و KGBERT.
هبوط النماذج الكبيرة التي تم تدريبها مسبقًا: يوفر EasyNLP قدرات تعليمية قليلة ، مما يسمح للمستخدمين بتحديد نماذج كبيرة مع عدد قليل من العينات لتحقيق نتائج جيدة. في الوقت نفسه ، يوفر وظائف تقطير المعرفة للمساعدة في تقطير النماذج الكبيرة بسرعة لنموذج صغير وفعال لتسهيل النشر عبر الإنترنت.
النماذج المتعددة المسبقات التي تم تدريبها: EasyNLP لا يتعلق بـ NLP فقط. كما يدعم العديد من النماذج الشهيرة التي تم تدريبها قبل التدريب لدعم مهام لغة الرؤية التي تتطلب معرفة بصرية. على سبيل المثال ، تم تجهيزه بنماذج على غرار القصاصات لمطابقة صورة النص ونماذج على طراز Dalle لتوليد النص إلى صورة.

المقالات الفنية

لدينا سلسلة من المقالات الفنية حول وظائف EasyNLP.

beautifulprompt ： pai 推出自研 form 美化器，赋能赋能 aigc 一键出美图
pai-diffusion 中文模型全面升级，海量高清艺术大图一键生成
easynlp 集成 k-global pointer 算法，支持中文信息抽取
pai-diffusion 功能再升级，全链路支持模型调优，平均推理速度提升 75 ٪ 以上
pai-diffusion 模型来了！阿里云机器学习团队带您徜徉中文艺术海洋
模型精度再被提升，统一跨任务小样本学习算法 UPT 给出解法!
Span 抽取和元学习能碰撞出怎样的新火花，小样本实体识别来告诉你!
算法 kecp 被顶会 emnlp 收录，极少训练数据就能实现机器阅读理解
当大火的文图生成模型遇见知识图谱， ai 画像趋近于真实世界
easynlp 发布融合语言学和事实知识的中文预训练模型 ckbert
easynlp 带你实现中英文机器阅读理解
跨模态学习能力再升级， easynlp 电商文图检索效果刷新 sota
easynlp 玩转文本摘要（新闻标题）生成
中文稀疏 GPT 大模型落地 - 通往低成本 & 高性能多任务通用自然语言理解的关键里程碑
easynlp 集成 k-bert 算法，借助知识图谱实现更优 finetune
easynlp 中文文图生成模型带你秒变艺术家
面向长代码序列的 المحول 模型优化方法，提升长代码场景性能
easynlp 带你玩转 مقطع 图文检索
阿里云机器学习 pai 开源中文 nlp 算法框架 easynlp ，助力 nlp 大模型落地
预训练知识度量比赛夺冠！阿里云 باي 发布知识预训练工具

تثبيت

يمكنك الإعداد من المصدر ：

$ git clone https://github.com/alibaba/EasyNLP.git
$ cd EasyNLP
$ python setup.py install

يتم اختبار هذا الريبو على Python 3.6 ، Pytorch> = 1.8.

بداية سريعة

الآن ، دعونا نوضح كيفية استخدام بضعة أسطر من التعليمات البرمجية لإنشاء نموذج تصنيف نص على أساس BERT.

 from easynlp . appzoo import ClassificationDataset
from easynlp . appzoo import get_application_model , get_application_evaluator
from easynlp . core import Trainer
from easynlp . utils import initialize_easynlp , get_args
from easynlp . utils . global_vars import parse_user_defined_parameters
from easynlp . utils import get_pretrain_model_path

initialize_easynlp ()
args = get_args ()
user_defined_parameters = parse_user_defined_parameters ( args . user_defined_parameters )
pretrained_model_name_or_path = get_pretrain_model_path ( user_defined_parameters . get ( 'pretrain_model_name_or_path' , None ))

train_dataset = ClassificationDataset (
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    data_file = args . tables . split ( "," )[ 0 ],
    max_seq_length = args . sequence_length ,
    input_schema = args . input_schema ,
    first_sequence = args . first_sequence ,
    second_sequence = args . second_sequence ,
    label_name = args . label_name ,
    label_enumerate_values = args . label_enumerate_values ,
    user_defined_parameters = user_defined_parameters ,
    is_training = True )

valid_dataset = ClassificationDataset (
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    data_file = args . tables . split ( "," )[ - 1 ],
    max_seq_length = args . sequence_length ,
    input_schema = args . input_schema ,
    first_sequence = args . first_sequence ,
    second_sequence = args . second_sequence ,
    label_name = args . label_name ,
    label_enumerate_values = args . label_enumerate_values ,
    user_defined_parameters = user_defined_parameters ,
    is_training = False )

model = get_application_model ( app_name = args . app_name ,
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    num_labels = len ( valid_dataset . label_enumerate_values ),
    user_defined_parameters = user_defined_parameters )

trainer = Trainer ( model = model , train_dataset = train_dataset , user_defined_parameters = user_defined_parameters ,
    evaluator = get_application_evaluator ( app_name = args . app_name , valid_dataset = valid_dataset , user_defined_parameters = user_defined_parameters ,
    eval_batch_size = args . micro_batch_size ))
    
trainer . train ()

يمكن العثور على المثال الكامل هنا.

يمكنك أيضًا استخدام أدوات سطر أوامر AppZoo لتدريب نموذج التطبيق بسرعة. خذ تصنيف النص على مجموعة بيانات SST-2 كمثال. أولاً ، يمكنك تنزيل train.tsv ، و dev.tsv ، ثم ابدأ التدريب:

$ easynlp 
   --mode=train 
   --worker_gpu=1 
   --tables=train.tsv,dev.tsv 
   --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 
   --first_sequence=sent1 
   --label_name=label 
   --label_enumerate_values=0,1 
   --checkpoint_dir=./classification_model 
   --epoch_num=1  
   --sequence_length=128 
   --app_name=text_classify 
   --user_defined_parameters= ' pretrain_model_name_or_path=bert-small-uncased '

ثم توقع:

$ easynlp 
  --mode=predict 
  --tables=dev.tsv 
  --outputs=dev.pred.tsv 
  --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 
  --output_schema=predictions,probabilities,logits,output 
  --append_cols=label 
  --first_sequence=sent1 
  --checkpoint_path=./classification_model 
  --app_name=text_classify

لمعرفة المزيد حول استخدام AppZoo ، يرجى الرجوع إلى وثائقنا.

ModelZoo

يوفر EasyNLP حاليًا النماذج التالية في ModelZoo:

Pai-Bert-Zh (من Alibaba Pai): نماذج Bert التي تم تدريبها مسبقًا مع مجموعة صينية كبيرة.
DKPLM (من Alibaba Pai): تم إصداره مع Paper DKPLM: نموذج اللغة المحسّنة قبل التدريب على المعرفة لفهم اللغة الطبيعية من قبل Taolin Zhang ، Chengyu Wang ، Nan Hu ، Minghui Qiu ، Chengguang Tang ، Xiaofeng He و Jun Huang.
Kgbert (من ALIBABA DAMO Academy & PAI): نماذج BERT قبل المدربين مع إشراف الرسم البياني المعرفة.
Bert (من Google): تم إصداره مع Paper Bert: قبل التدريب من محولات ثنائية الاتجاه العميقة لفهم اللغة من قِبل جاكوب ديفلين ، مينغ واي تشانغ ، كنتون لي وكريستينا توتانوفا.
روبرتا (من Facebook): تم إصداره مع الورقة Roberta: مقاربة بيرت المحسنة ببراعة من قبل Yinhan Liu و Myle Ott و Naman Goyal و Jingfei Du و Mandar Joshi و Danqi Chen و Omer Levy و Mike Lewis و Luke Zettlemoyer و Veselin Stoyanov.
روبرتا الصينية (من HFL): النسخة الصينية من روبرتا.
Macbert (من HFL): تم إصداره مع نماذج الورق التي تم تدريبها مسبقًا لمعالجة اللغة الطبيعية الصينية عن طريق Yiming Cui و Wanxiang Che و Ting Liu و Bing Qin و Shijin Wang و Guoping Hu.
Wobert (من Zhuiyitechnology): Bert القائم على الكلمة للغة الصينية.
Fashionbert (من Alibaba Pai و Icbu): في التقدم.
GEEP (من Alibaba Pai): في التقدم.
Mengzi (من Langboat): تم إصداره مع الورقة Mengzi: نحو النماذج الخفيفة الخفيفة التي تم تدريبها مسبقًا للصينيين من قبل Zhuosheng Zhang ، Hanqing Zhang ، Keming Chen ، Yuhang Guo ، Jingyun Hua ، Yulong Wang و Ming Zhou.
Erlangshen (من Idea): تم إصداره من الريبو.

يرجى الرجوع إلى هذا ReadMe لاستخدام هذه النماذج في EasyNLP. وفي الوقت نفسه ، يدعم EasyNLP تحميل النماذج المسبقة من Huggingface/Transformers ، يرجى الرجوع إلى هذا البرنامج التعليمي للحصول على التفاصيل.

EasyNLP يذهب متعدد الوسائط

يدعم EasyNLP أيضًا العديد من النماذج الشهيرة التي تم تدريبها قبل التدريب لدعم مهام لغة الرؤية التي تتطلب معرفة بصرية. على سبيل المثال ، تم تجهيزه بنماذج على غرار القصاصات لمطابقة صورة النص ونماذج على طراز Dalle لتوليد النص إلى صورة.

مطابقة صورة النص
توليد نص إلى صورة
جيل صورة إلى نص

هبوط نماذج كبيرة مسبقًا

يوفر EasyNLP تعليميًا قليلًا من التعلم وتقطير المعرفة لمساعدة النماذج الكبيرة المدربة مسبقًا.

PET (من LMU Munich و Sulzer GmbH): تم إصداره مع الورقة التي تستغل أسئلة Cloze لعدد قليل من تصنيف نص الرصاص واستنتاج اللغة الطبيعية من قبل Timo Schick و Hinrich Schutze. لقد قمنا ببعض التعديلات الطفيفة لجعل الخوارزمية مناسبة للغة الصينية.
P-tuning (من جامعة Tsinghua ، أكاديمية بكين من الذكاء الاصطناعي ، معهد ماساتشوستس للتكنولوجيا و AI المتكرر ، Ltd.): تم إصداره مع الورقة GPT يفهم ، أيضًا من قبل شياو ليو ، يانان تشنغ ، تشنغوكسيو دو ، مينغ دنغ ، يوجي تشيان ، زيلين يانغ وجي. لقد قمنا ببعض التعديلات الطفيفة لجعل الخوارزمية مناسبة للغة الصينية.
CP-Tuning (من Alibaba Pai): تم إصداره مع نماذج اللغة التي تصنع الورق قبل التدريبات التي تم تدريبها من شوط إلى النهاية مع ضبط موجه تباين من قبل Ziyun Xu و Chengyu Wang و Minghui Qiu و Fuli Luo و Runxin Xu و Songfang Huang و Jun Huang.
Vanilla KD (من Alibaba Pai): تقطير سجلات النماذج الكبيرة على طراز Bert إلى النماذج الأصغر.
Meta KD (من Alibaba Pai): تم إصداره مع Paper Meta-KD: إطار لتقطير المعرفة التعريف لضغط نموذج اللغة عبر المجالات التي كتبها Haojie Pan و Chengyu Wang و Minghui Qiu و Yichang Zhang و Yaliang Li و Jun Huang.
زيادة البيانات (من Alibaba PAI): زيادة البيانات بناءً على رأس MLM لنماذج اللغة التي تم تدريبها مسبقًا.

مؤشر دليل

يوفر EasyNLP مجموعة أدوات بسيطة لترسيخ مجموعات بيانات الأدلة. يمكنك ببساطة استخدام هذا الأمر فقط لتقييم مجموعة بيانات Clue.

 # Format: bash run_clue.sh device_id train/predict dataset
# e.g.: 
bash run_clue.sh 0 train csl

لقد اختبرنا موديلات Chiese Bert و Roberta في مجموعات البيانات ، ونتائج مجموعة DEV هي:

(1) Bert-Base-Chinese:

مهمة	AFQMC	cmnli	CSL	Iflytek	Ocnli	tnews	WSC
ص	72.17 ٪	75.74 ٪	80.93 ٪	60.22 ٪	78.31 ٪	57.52 ٪	75.33 ٪
F1	52.96 ٪	75.74 ٪	81.71 ٪	60.22 ٪	78.30 ٪	57.52 ٪	80.82 ٪

(2) الصينية-روبرتا-WWM-EXT:

مهمة	AFQMC	cmnli	CSL	Iflytek	Ocnli	tnews	WSC
ص	73.10 ٪	80.75 ٪	80.07 ٪	60.98 ٪	80.75 ٪	57.93 ٪	86.84 ٪
F1	56.04 ٪	80.75 ٪	81.50 ٪	60.98 ٪	80.75 ٪	57.93 ٪	89.58 ٪

فيما يلي مثال مؤشر دليل مفصل.

دروس

自定义文本分类示例
Quickstart- 文本分类
QuickStart-Pai DSW
QuickStart-MaxCompute/ODPS 数据
appzoo- 文本向量化
appzoo- 文本分类/匹配
appzoo- 序列标注
appzoo-geep 文本分类
appzoo- 文本生成
基础预训练实践
知识预训练实践
知识蒸馏实践
跨任务知识蒸馏实践
小样本学习实践
rapidformer 模型训练加速实践
مستندات API: http://atp-modelzoo-h.oss-cn-hanghai.aliyuncs.com/release/easynlp/easynlp_docs/html/index.html

رخصة

تم ترخيص هذا المشروع بموجب ترخيص Apache (الإصدار 2.0). تحتوي مجموعة الأدوات هذه أيضًا على بعض التعليمات البرمجية التي تم تعديلها من عمليات إعادة الشراء الأخرى ضمن تراخيص أخرى مفتوحة المصدر. انظر ملف الإشعار لمزيد من المعلومات.

Changelog

تم إصدار EasyNLP V0.0.3 في 01/04/2022. يرجى الرجوع إلى tag_v0.0.3 لمزيد من التفاصيل والتاريخ.

اتصل بنا

مسح رموز QR التالية للانضمام إلى مجموعة مناقشة DingTalk. مناقشات المجموعة هي في الغالب باللغة الصينية ، ولكن اللغة الإنجليزية موضع ترحيب أيضًا.

مرجع

DKPLM: https://paperswithcode.com/paper/dkplm-decomposable-khendledge-enhanced-pre
Metakd: https://paperswithcode.com/paper/meta-kd-a-meta-knowledge-distillation
cp-tuning: https://paperswithcode.com/paper/making-pre-trocrained-language-models-end-to-1
Fashionbert: https://paperswithcode.com/paper/fashionbert-text-and-image-matching-with

لدينا ورقة arxiv لتستشهد بها مكتبة EasyNLP:

 @article{easynlp,
  doi = {10.48550/ARXIV.2205.00258},  
  url = {https://arxiv.org/abs/2205.00258},  
  author = {Wang, Chengyu and Qiu, Minghui and Zhang, Taolin and Liu, Tingting and Li, Lei and Wang, Jianing and Wang, Ming and Huang, Jun and Lin, Wei},
  title = {EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing},
  publisher = {arXiv},  
  year = {2022}
}

يوسع

معلومات إضافية

الإصدار v0.0.3
النوع شفرة المصدر الأخرى
وقت التحديث 2025-04-19
الحجم 19.01MB
من Github

تطبيقات ذات صلة

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل