electra_pytorchダウンロードelectra_pytorchソースコードのダウンロード

electra_pytorch

その他のソースコード

1.0.0

ダウンロード

の非公式のPytorch実装

Electra：Kevin Clarkによるジェネレーターではなく、判別器としてのテキストエンコーダーを事前に訓練するテキストエンコーダー。 Minh-Thang Luong。 Quoc V. Le。クリストファー・D・マニング

curdationアップデートと将来の作業については、フォローしてください

複製された結果

私はゼロからエレクトラスマールを脱直し、接着剤の紙の結果を正常に再現しました。

モデル	コーラ	SST	MRPC	sts	QQP	mnli	Qnli	rte	平均。 Avgの。
Electra-Small-Owt	56.8	88.3	87.4	86.8	88.3	78.9	87.9	68.5	80.36
Electra-small-owt（私の）	58.72	88.03	86.04	86.16	88.63	80.4	87.45	67.46	80.36

表1：接着剤DEVセットの結果。公式の結果は、予想される結果から来ています。スコアは、同じチェックポイントから微調整された平均スコアです。（この問題を参照）私の結果は、モデルをゼロから前から前に入れることから来ており、各タスクの10個のFinetuning Runから平均を取得します。両方の結果は、OpenWeBtext Corpusでトレーニングされています

モデル	コーラ	SST	MRPC	sts	QQP	mnli	Qnli	rte	平均。
Electra-Small ++	55.6	91.1	84.9	84.6	88.0	81.6	88.3	63.6	79.7
Electra-small ++（私の）	54.8	91.6	84.6	84.2	88.5	82	89	64.7	79.92

表2：接着剤テストセットの結果。私の結果は、Huggingfaceからロードされた前提条件のチェックポイントを獲得しました。

公式トレーニング損失曲線	私のトレーニング損失曲線

表3：どちらもOpenWeBtextでトレーニングされている小さなモデルです。公式のものはここからです。ダウンストリームタスクのパフォーマンスを反映していないため、一粒の塩でトレーニング損失の価値を取るべきです。

この実装の機能

データセットを手動でダウンロードして処理する必要はありません。Scirptは、自動的にそれらの注意を払っています。（Huggingface/DatasetsとHugginface/Transformersに感謝）
Afaikは、元のものに最も近い再実装であり、見過ごされがちな多くの詳細（以下で説明）の世話をしています。
Afaikは、結果を論文に複製することで、それ自体をうまく検証する唯一のものです。
Jupyterノートブックが付属しています。コードを調査して、処理されたデータを検査できます。
自分で何かをダウンロードして前処理する必要はありません。必要なのは、トレーニングスクリプトを実行することだけです。

より多くの結果

エレクトラはどのくらい安定していますか？

平均	std	マックス	分	＃モデル
81.38	0.57	82.23	80.42	14

Tabel 4：小規模モデルの接着剤Devted結果の統計。すべてのモデルは、さまざまな種子でゼロから前処理され、接着剤タスクごとに10回のランダムな実行に合わせてFinetunedがあります。モデルのスコアは、各タスクで最高の10の平均です。（このプロセスは論文で説明されているものと同じです）私たちが見ることができるように、ElectraはAdeversarial Trainingをock笑していますが、良いトレーニングの安定性があります。

エレクトラは接着剤でどのくらい安定していますか？

モデル	コーラ	SST	MRPC	sts	QQP	mnli	Qnli	rte
Electra-small-owt（私の）	1.30	0.49	0.7	0.29	0.1	0.15	0.33	1.93

表5：各タスクの標準偏差。これは、テーブル1と同じモデルであり、Finetunes 10が各タスクに対して実行されます。

議論

Huggingface Forum Post
Fastaiフォーラム投稿

使用法

注：このプロジェクトは、実際には私の個人的な研究のためです。そのため、すべてのユーザーが使いやすくしようとはしませんでしたが、読みやすく修正しやすくしようとしています。

要件をインストールします

pip3 install -r requirements.txt

ステップ

python pretrain.py
finetune.pyのpretrained_checkcpointを設定してelectra_pytorch/checkpoints/pretrainで前提と保存したチェックポイントを使用します。
python finetune.py （ do_finetuneがTrueに設定されています）
Neptuneに移動し、各タスクで10回のランのベストランを選択し、選択した実行の名前の数字に従ってfinetune.pyでth_runsを設定します。
python finetune.py （ do_finetuneがFalseに設定されています）、このアウトパス予測では、 electra_pytorch/test_outputs/<group_name>/*.tsvで.tsv sを圧縮して送信できます。

メモ

私はCLI引数を使用していなかったため、PythonファイルのMyConfig内に囲まれたオプションを、実行する前に構成します。（その下には、バニラの設定のオプションを示すコメントがあります）
Neptuneアカウントが必要になり、WebサイトにNeptuneプロジェクトを作成して、Glue Finetuningの結果を記録します。 richarddwang/electra-glue Neptune Projectの名前に置き換えることを忘れないでください
pythonファイルpretrain.py 、 finetune.pyは、実際にはPretrain.ipynbおよびFinetune_GLUE.ipynbから変換されます。これらのノートブックを使用して、ElectraトレーニングとFinetuningを探索することもできます。

高度な詳細

以下に、見落とされやすく、私が世話をした元の実装/紙の詳細を示します。これらの詳細は、論文の結果をうまく再現するために不可欠であることがわかりました。

最適化

バイアス補正なしのAdam Optimizerを使用する（バイアス補正は、PytorchおよびFastaiのAdam Optimizerのデフォルトです）
公式の実装では、レイヤーを介して学習率が低下するバグがあり、微調整すると、LRは論文に記載されているものよりも多く減衰します。 _get_layer_lrsを参照してください。また、この問題を参照してください。
クリップグラデーションを使用します
接着剤で微調整するときに0重量減衰を使用します
ウォームアップを行わず、線形崩壊を行いますが、一緒に行います。つまり、ウォーミングアップフェーズ中に学習率のウォームアップと減衰を同時に意味します。こちらをご覧ください

データ処理

データの前処理をプレトラするために、最大長に合うように停止を連結および切り捨て、ドキュメントの終了時に付録を停止します。
プレプリアクセスをプレトレーニングするために、それは偶然にテキストを文Aと文bに分割し、また偶然に最大の長さを変更します
Finetuning Data Preprocessingの場合、最大の長さに合うように文AとBの最長のものを切り捨てるBertの方法に従ってください

トリック

MRPCおよびSTSタスクの場合、同じトレーニングデータを追加することでトレーニングデータを補強しますが、文は変更されました。これは、公式の実装では「double_unordered」と呼ばれます。
トークンのマスク確率（15％またはその他の値）内で、Bertのような文のような文をマスクしませんでした。トークンは[マスク]に置き換える可能性が85％で、15％は同じままですが、ランダムトークンに置き換えるチャンスはありません。

パラメーターを結ぶ

発電機の入力および出力ワード埋め込み、および識別器の入力ワード埋め込み。 3つは結び付けられています。
Word/pos/Tokenタイプの埋め込みだけでなく、ジェネレーターと判別器の両方の埋め込み層に標準を層化します。

他の

出力層は、Tensorflow V1のデフォルト初期化（つまりXavier Uniform）によって初期化されます
Gumbel SoftMaxを使用して、GeneArtorの世代を差別者の入力としてサンプリングする
ElectraClassificationHeadが使用するものではなく、Glue Finetuningのために出力層にドロップアウトと線形層を使用します。
エレクトラチェックポイントのすべてのパブリックモデルは、実際には++モデルです。この問題を参照してください
Hidden_size、注意ヘッドの数、および中間サイズによってジェネレーターをダウンスケールしますが、レイヤーの数ではありません。

ファイルアーキテクチャ

前処理、微調整、およびテスト結果を生成する場合。 electra_pytorchこれらを生成します。

 project root
|
|── datasets
|   |── glue
|       |── <task>
|       ...
|
|── checkpoints
|   |── pretrain
|   |   |── <base_run_name>_<seed>_<percent>.pth
|   |    ...
|   |
|   |── glue
|       |── <group_name>_<task>_<ith_run>.pth
|       ...
|
|── test_outputs
|   |── <group_name>
|   |   |── CoLA.tsv
|   |   ...
|   | 
|   | ...

引用

オリジナルペーパー

 @inproceedings{clark2020electra,
  title = {{ELECTRA}: Pre-training Text Encoders as Discriminators Rather Than Generators},
  author = {Kevin Clark and Minh-Thang Luong and Quoc V. Le and Christopher D. Manning},
  booktitle = {ICLR},
  year = {2020},
  url = {https://openreview.net/pdf?id=r1xMH1BtvB}
}

この実装。

 @misc{electra_pytorch,
  author = {Richard Wang},
  title = {PyTorch implementation of ELECTRA},
  year = {2020},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/richarddwang/electra_pytorch}}
}

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-04-16
サイズ 51.92KB
から Github

electra_pytorch

複製された結果

この実装の機能

より多くの結果

エレクトラはどのくらい安定していますか？

エレクトラは接着剤でどのくらい安定していますか？

議論

使用法

要件をインストールします

ステップ

メモ

高度な詳細

最適化

データ処理

トリック

パラメーターを結ぶ

他の

ファイルアーキテクチャ

引用

オリジナルペーパー

この実装。

OpenCore_NO_ACPI_Build

nspanel_pro_tools_apk

zkwork_aleo_gpu_worker

pytorch image models

nextcloud_share_url_downloader

Lihua データ分析エンジン無料版 3.0_検索_ナビゲーション_コレクション_世論_ランキング_api

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express