EasyNLPダウンロードEasyNLPソースコードのダウンロード

EasyNLP

その他のソースコード

v0.0.3

ダウンロード

EasyNLPは、包括的で使いやすいNLPツールキットです

easynlp中文介绍

EasyNLPは、2021年にAlibaba内で最初にリリースされたPytorchの使いやすいNLP開発およびアプリケーションツールキットです。スケーラブルな分散トレーニング戦略で構築され、さまざまなNLPアプリケーション向けのNLPアルゴリズムの包括的なスイートをサポートしています。 EasyNLPは、さまざまな一般的なマルチモダリティの事前訓練モデルとともに、大規模な訓練を受けたモデルを着陸させるための知識の蒸留と少数のショット学習を統合します。現実世界のアプリケーションのモデルトレーニング、推論、および展開の統一されたフレームワークを提供します。アリババグループ内で、10を超えるバスと20を超えるビジネスシナリオに電力を供給しています。開発用のPAI-DSW、クラウドネイティブトレーニング用のPAI-DLC、サービング用のPAI-EAS、ゼロコードモデルトレーニング用のPAIデザイナーなど、AI（PAI）製品のプラットフォームにシームレスに統合されています。

主な機能

使いやすく、高度にカスタマイズ可能：最先端のモデルを呼び出すための使いやすく簡潔なコマンドを提供することに加えて、AppzooやModelzooなどの特定のカスタムモジュールを抽象化して、NLPアプリケーションを簡単に構築できるようにします。 Pai Pytorch分散トレーニングフレームワークTorchacceleratorが装備されており、分散トレーニングをスピードアップしています。
オープンソースライブラリと互換性のある： EasyNLPには、PAI分散フレームワークを使用して、ハグFace/TransformersのモデルのトレーニングをサポートするAPIがあります。また、Easy Transfer ModelZooで事前に訓練されたモデルをサポートしています。
知識が注入されたプリトレーニング： PAIチームは、知識に注入された事前トレーニングに関する多くの研究を行い、CCF知識前競争で1位に勝つための知識注入モデルを構築します。 EasyNLPは、DKPLMやKGBERTを含むこれらの最先端の知識を事前に訓練したモデルを統合します。
大規模な事前に訓練されたモデルの着陸： EasyNLPは、少数のショット学習機能を提供し、ユーザーは良い結果を達成するために少数のサンプルで大規模なモデルを獲得できるようにします。同時に、知識蒸留機能を提供して、大規模なモデルを小さく効率的なモデルに迅速に蒸留して、オンライン展開を促進します。
マルチモダリティ事前訓練モデル： EasyNLPはNLPのみではありません。また、視覚的知識を必要とする視覚言語のタスクをサポートするために、さまざまな人気のあるマルチモダリティの事前訓練モデルをサポートしています。たとえば、テキストイメージマッチング用のクリップスタイルモデルと、テキストから画像の生成用のダレスタイルモデルが装備されています。

技術記事

EasyNLPの機能に関する一連の技術記事があります。

BeautifulPrompt：Pai推出自研Prompt美化器、赋能aigc一键出美图
pai-diffusion中文模型全面升级、海量高清艺术大图一键生成
easynlp
阿里云pai拡散功能再升级、全链路支持模型调优、平均推理速度提升75％以上
Pai-diffusion 模型来了！阿里云机器学习团队带您徜徉中文艺术海洋
模型精度再被提升、统一跨任务小样本学习算法upt给出解法！
スパン、小样本实体识别来告诉你！
算法KECPemnlp收录、极少训练数据就能实现机器阅读理解
当大火的文图生成模型遇见知识图谱、ai画像趋近于真实世界
easynlp发布融合语言学和事实知识的中文预训练模型Ckbert
easynlp带你实现中英文机器阅读理解
跨模态学习能力再升级、easynlp电商文图检索效果刷新sota
easynlp 玩转文本摘要（新闻标题）生成
中文稀疏gpt大模型落地 - 通往低成本＆高性能多任务通用自然语言理解的关键里程碑
easynlp集成k-bert算法、借助知识图谱实现更优finetune
easynlp中文文图生成模型带你秒变艺术家
面向长代码序列的変圧器模型优化方法、提升长代码场景性能
Easynlp带你玩转クリップ图文检索
阿里云机器学习pai
预训练知识度量比赛夺冠！阿里云パイ

インストール

ソースからセットアップできます：

$ git clone https://github.com/alibaba/EasyNLP.git
$ cd EasyNLP
$ python setup.py install

このレポは、Python 3.6、Pytorch> = 1.8でテストされています。

クイックスタート

それでは、Bertに基づいてテキスト分類モデルを構築するためにコードの数行のみを使用する方法を示しましょう。

 from easynlp . appzoo import ClassificationDataset
from easynlp . appzoo import get_application_model , get_application_evaluator
from easynlp . core import Trainer
from easynlp . utils import initialize_easynlp , get_args
from easynlp . utils . global_vars import parse_user_defined_parameters
from easynlp . utils import get_pretrain_model_path

initialize_easynlp ()
args = get_args ()
user_defined_parameters = parse_user_defined_parameters ( args . user_defined_parameters )
pretrained_model_name_or_path = get_pretrain_model_path ( user_defined_parameters . get ( 'pretrain_model_name_or_path' , None ))

train_dataset = ClassificationDataset (
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    data_file = args . tables . split ( "," )[ 0 ],
    max_seq_length = args . sequence_length ,
    input_schema = args . input_schema ,
    first_sequence = args . first_sequence ,
    second_sequence = args . second_sequence ,
    label_name = args . label_name ,
    label_enumerate_values = args . label_enumerate_values ,
    user_defined_parameters = user_defined_parameters ,
    is_training = True )

valid_dataset = ClassificationDataset (
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    data_file = args . tables . split ( "," )[ - 1 ],
    max_seq_length = args . sequence_length ,
    input_schema = args . input_schema ,
    first_sequence = args . first_sequence ,
    second_sequence = args . second_sequence ,
    label_name = args . label_name ,
    label_enumerate_values = args . label_enumerate_values ,
    user_defined_parameters = user_defined_parameters ,
    is_training = False )

model = get_application_model ( app_name = args . app_name ,
    pretrained_model_name_or_path = pretrained_model_name_or_path ,
    num_labels = len ( valid_dataset . label_enumerate_values ),
    user_defined_parameters = user_defined_parameters )

trainer = Trainer ( model = model , train_dataset = train_dataset , user_defined_parameters = user_defined_parameters ,
    evaluator = get_application_evaluator ( app_name = args . app_name , valid_dataset = valid_dataset , user_defined_parameters = user_defined_parameters ,
    eval_batch_size = args . micro_batch_size ))
    
trainer . train ()

完全な例はここにあります。

AppZooコマンドラインツールを使用して、アプリモデルをすばやくトレーニングすることもできます。例として、SST-2データセットのテキスト分類を取得します。まず、train.tsvとdev.tsvをダウンロードしてから、トレーニングを開始できます。

$ easynlp 
   --mode=train 
   --worker_gpu=1 
   --tables=train.tsv,dev.tsv 
   --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 
   --first_sequence=sent1 
   --label_name=label 
   --label_enumerate_values=0,1 
   --checkpoint_dir=./classification_model 
   --epoch_num=1  
   --sequence_length=128 
   --app_name=text_classify 
   --user_defined_parameters= ' pretrain_model_name_or_path=bert-small-uncased '

そして、予測してください：

$ easynlp 
  --mode=predict 
  --tables=dev.tsv 
  --outputs=dev.pred.tsv 
  --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 
  --output_schema=predictions,probabilities,logits,output 
  --append_cols=label 
  --first_sequence=sent1 
  --checkpoint_path=./classification_model 
  --app_name=text_classify

Appzooの使用について詳しくは、ドキュメントを参照してください。

ModelZoo

EasyNLPは現在、ModelZooで次のモデルを提供しています。

Pai-Bert-Zh（Alibaba Paiから）：大規模な中国のコーパスを備えた事前に訓練されたBertモデル。
DKPLM（Alibaba Paiから）：紙でリリースされたdkplm：分解可能な知識強化された事前訓練された言語モデル、タオリン・チャン、チェンユー、ナンフー、ミンギュイチウ、チェンギャン・タン、Xiaofeng he、およびjun huangによる自然言語理解のためのモデル。
Kgbert（Alibaba Damo Academy＆Paiから）：知識グラフの埋め込みを挿入した前訓練前のBertモデル。
Bert（Googleから）：Paper Bertでリリース：Jacob Devlin、Ming-Wei Chang、Kenton Lee、Kristina Toutanovaによる言語理解のための深い双方向トランスの事前訓練。
Roberta（Facebookから）：Paper Robertaでリリース：Yinhan Liu、Myle Ott、Naman Goyal、Jingfei Du、Mandar Joshi、Danqi Chen、Omer Levy、Mike Lewis、Luke Zettlemoyer、Veselin Stoyanovによる堅牢な最適化されたBert Pretrainingアプローチ。
中国のロベルタ（HFLから）：ロベルタの中国語版。
Macbert（HFLから）：Yiming Cui、Wanxiang Che、Ting Liu、Bing Qin、Shijin Wang、Guoping Huによる中国の自然言語処理の事前訓練モデルを再検討する論文でリリースされました。
Wobert（Zhuiyitechnologyから）：中国語用の言葉に基づいたバート。
FashionBert（Alibaba Pai＆Icbuから）：進行中。
Geep（Alibaba Paiから）：進行中。
Mengzi（Langboatから）：Paper Mengziでリリース：Zhuosheng Zhang、Hanqing Zhang、Keming Chen、Yuhang Guo、Jingyun Hua、Yulong Wang、Ming Zhouによる中国の軽量でありながら独創的な事前訓練のモデルに向けて。
erlangshen（Idea）：リポジトリからリリース。

EasyNLPでのこれらのモデルの使用については、このREADMEを参照してください。一方、EasyNLPは、Huggingface/Transformersから優先モデルをロードすることをサポートしています。詳細については、このチュートリアルを参照してください。

EasyNLPはマルチモーダルになります

EasyNLPは、視覚的知識を必要とする視覚言語タスクをサポートするために、さまざまな人気の多いマルチモダリティの事前訓練モデルもサポートしています。たとえば、テキストイメージマッチング用のクリップスタイルモデルと、テキストから画像の生成用のダレスタイルモデルが装備されています。

テキストイメージマッチング
テキストから画像への生成
画像間生成

大規模な訓練を受けたモデルの着陸

EasyNLPは、大規模な事前に訓練されたモデルの上陸を支援するために、少ないショットの学習と知識の蒸留を提供します。

PET（LMU MunichとSulzer GmbHから）：Timo SchickとHinrich Schutzeによるショットテキストの分類と自然言語の推論のために、Clozeの質問を悪用する論文でリリースされました。アルゴリズムを中国語に適したものにするために、わずかな変更を加えました。
P-Tuning（Tsinghua University、AIの北京アカデミー、MITおよびRecurrent AI、Ltd。から）アルゴリズムを中国語に適したものにするために、わずかな変更を加えました。
CP-Tuning（Alibaba Paiから）：Ziyun Xu、Chengyu Wang、Minghui Qiu、Fuli Luo、Runxin Xu、Songfang Huang、Jun Huangによるコントラストの迅速なチューニングで、事前に訓練された言語モデルをエンドツーエンドの少数の学習者でリリースします。
バニラKD（Alibaba Paiから）：大きなバートスタイルのモデルのロジットを小さなモデルに蒸留します。
メタKD（Alibaba Paiから）：Paper Meta-KDでリリース：Haojie Pan、Chengyu Wang、Minghui Qiu、Yichang Zhang、Yaliang Li、Jun Huangによるドメイン全体の言語モデル圧縮のメタナレッジ蒸留フレームワーク。
データ増強（Alibaba Paiから）：事前に訓練された言語モデルのMLMヘッドに基づいてデータを増強します。

手がかりのベンチマーク

EasyNLPは、シンプルなツールキットからベンチマークの手がかりデータセットを提供します。このコマンドだけを使用して、Clueデータセットをベンチマークすることができます。

 # Format: bash run_clue.sh device_id train/predict dataset
# e.g.: 
bash run_clue.sh 0 train csl

Chiese BertとRoberta Modelsonのデータセットをテストしました。DEVセットの結果は次のとおりです。

（1）Bert-Base-Chinese：

タスク	AFQMC	cmnli	CSL	iflytek	ocnli	tnews	WSC
p	72.17％	75.74％	80.93％	60.22％	78.31％	57.52％	75.33％
F1	52.96％	75.74％	81.71％	60.22％	78.30％	57.52％	80.82％

（2）中国 - ロバータ-WWM-EXT：

タスク	AFQMC	cmnli	CSL	iflytek	ocnli	tnews	WSC
p	73.10％	80.75％	80.07％	60.98％	80.75％	57.93％	86.84％
F1	56.04％	80.75％	81.50％	60.98％	80.75％	57.93％	89.58％

詳細な手がかりのベンチマークの例は次のとおりです。

チュートリアル

自定义文本分类示例
QuickStart-文本分类
QuickStart-PAI DSW
QuickStart-MaxCompute/ODPS数据
appzoo-文本向量化
appzoo-文本分类/匹配
appzoo-序列标注
appzoo-geep文本分类
appzoo-文本生成
基础预训练实践
知识预训练实践
知识蒸馏实践
跨任务知识蒸馏实践
小样本学习实践
rapidformer模型训练加速实践
APIドキュメント：http：//atp-modelzoosh.oss-cn-shanghai.aliyuncs.com/release/easynlp/easynlp_docs/html/index.html

ライセンス

このプロジェクトは、Apacheライセンス（バージョン2.0）に基づいてライセンスされています。このツールキットには、他のオープンソースライセンスの下で他のリポジトリから変更されたコードも含まれています。詳細については、通知ファイルを参照してください。

Changelog

EasyNLP V0.0.3は01/04/2022にリリースされました。詳細と履歴については、tag_v0.0.3を参照してください。

お問い合わせ

次のQRコードをスキャンして、DingTalkディスカッショングループに参加します。グループの議論は主に中国語ですが、英語も歓迎されています。

参照

dkplm：https：//paperswithcode.com/paper/dkplm-decomposable-knowledge-enhanced-pre
Metakd：https：//paperswithcode.com/paper/meta-kd-a-meta-knowledge-distilation
CP-Tuning：https：//paperswithcode.com/paper/making-pre-trained-language-models-t-to-end-1
Fashionbert：https：//paperswithcode.com/paper/fashionbert-text-and-image-matching-with

EasyNLPライブラリを引用するためのArxivペーパーがあります。

 @article{easynlp,
  doi = {10.48550/ARXIV.2205.00258},  
  url = {https://arxiv.org/abs/2205.00258},  
  author = {Wang, Chengyu and Qiu, Minghui and Zhang, Taolin and Liu, Tingting and Li, Lei and Wang, Jianing and Wang, Ming and Huang, Jun and Lin, Wei},
  title = {EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing},
  publisher = {arXiv},  
  year = {2022}
}

拡大する

追加情報

バージョン v0.0.3
タイプその他のソースコード
更新時間 2025-04-19
サイズ 19.01MB
から Github

EasyNLP

easynlp中文介绍

主な機能

技術記事

インストール

クイックスタート

ModelZoo

EasyNLPはマルチモーダルになります

大規模な訓練を受けたモデルの着陸

手がかりのベンチマーク

チュートリアル

ライセンス

Changelog

お問い合わせ

参照

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express