electra_pytorch下載 - electra_pytorch源代碼下載

electra_pytorch

其他源碼

1.0.0

下載

非正式的Pytorch實施

Electra：訓練前文本編碼是凱文·克拉克（Kevin Clark）的歧視者而不是發電機。鐘長隆。 Quoc V. Le。克里斯托弗·D·曼寧

※對於將來的更新和更多工作，請遵循

複製結果

我從頭開始預算電氣，並成功地將論文的結果復制在膠水上。

模型	可樂	SST	MRPC	sts	QQP	mnli	Qnli	rte	avg。 avg。
Electra-Small-Owt	56.8	88.3	87.4	86.8	88.3	78.9	87.9	68.5	80.36
electra-small-owt（我）	58.72	88.03	86.04	86.16	88.63	80.4	87.45	67.46	80.36

表1：膠水設置的結果。官方結果來自預期的結果。分數是從同一檢查點獲得冠心的平均得分。（請參閱此問題）我的結果來自從頭開始的型號，並從每項任務的10個填充運行中平均進行。這兩個結果均在OpenWebText語料庫上進行培訓

模型	可樂	SST	MRPC	sts	QQP	mnli	Qnli	rte	avg。
electra-small ++	55.6	91.1	84.9	84.6	88.0	81.6	88.3	63.6	79.7
electra-small ++（我）	54.8	91.6	84.6	84.2	88.5	82	89	64.7	79.92

表2：膠測試集的結果。我的結果Finetunes從擁抱面上加載的經過驗證的檢查點。

官方訓練損失曲線	我的訓練損失曲線

表3：兩者都是在OpenWebText上訓練的小型型號。官方是來自這裡的。您應該用一粒鹽的訓練損失價值，因為它不能反映下游任務的性能。

此實現的功能

您無需手動下載和處理數據集，Scirpt會自動照顧您。（感謝HuggingFace/DataSet和HugginFace/Transformers）
Afaik是最接近原始的重新成真，負責許多容易被忽視的細節（如下所述）。
阿法克（Afaik），唯一通過複製論文中的結果來成功驗證自己的人。
附帶Jupyter筆記本電腦，您可以探索代碼並檢查處理後的數據。
您無需獨自下載和預處理，您所需要的只是運行培訓腳本。

電元預處理有多穩定？

意思是	std	最大限度	最小	#models
81.38	0.57	82.23	80.42	14

tabel 4：小型模型的膠水開發結果的統計數據。每個模型都可以從頭開始鑑定，並對每個膠水任務進行10次隨機運行進行填充。模型的得分是每個任務最佳10的平均值。（該過程與本文中描述的過程一樣），如我們所見，儘管Electra嘲笑Adeversarial訓練，但它具有良好的訓練穩定性。

Electra對膠水的固定有多穩定？

模型	可樂	SST	MRPC	sts	QQP	mnli	Qnli	rte
electra-small-owt（我）	1.30	0.49	0.7	0.29	0.1	0.15	0.33	1.93

表5：每個任務的標準偏差。這是與表1的模型相同的模型，該模型為每個任務運行10個。

討論

擁抱面論壇帖子
Fastai論壇帖子

用法

注意：這個項目實際上是用於我的個人研究。因此，我並沒有試圖使所有用戶易於使用，而是試圖使其易於閱讀和修改。

安裝要求

pip3 install -r requirements.txt

步驟

python pretrain.py
在finetune.py中將pretrained_checkcpoint設置為使用已預處理並保存在electra_pytorch/checkpoints/pretrain中的檢查點。
python finetune.py （ do_finetune設置為True ）
轉到Neptune，為每個任務選擇10次運行中的最佳運行，然後根據您選擇的運行名稱中的數字在finetune.py中設置th_runs 。
python finetune.py （將do_finetune設置為False ），此預測測試集對testset上的預測，然後可以在electra_pytorch/test_outputs/<group_name>/*.tsv中壓縮並發送.tsv s，以獲得測試得分。

筆記

我沒有使用CLI參數，因此在運行Python文件中MyConfig中包含的選項以在運行之前。（下面有評論顯示香草設置的選項）
您將需要一個Neptune帳戶，並在網站上創建一個Neptune項目，以記錄膠水固定結果。不要忘記用海王星項目的名稱代替richarddwang/electra-glue
python文件pretrain.py ， finetune.py實際上是從Pretrain.ipynb和Finetune_GLUE.ipynb轉換的。您也可以使用這些筆記本探索Electra培訓和填充。

高級詳細信息

下面列出了原始實施/紙的詳細信息，這些詳細信息易於忽略，我已經照顧了。我發現這些細節是必不可少的，即可成功複製本文的結果。

最佳化

使用無偏差校正的ADAM優化器（Pytorch和FastAI中的Adam Optimizer默認校正）
在官方實施中，有一個通過層次衰減的學習率的錯誤，因此，在修補時，LR衰減比論文中所述的要多。請參閱_get_layer_lrs。另請參閱此問題。
使用夾梯度
填充膠水時使用0重量衰減
它沒有進行熱身，然後進行線性衰減，而是將它們一起進行，這意味著在熱身階段的同時學習率熱身和衰減。請參閱此處

數據處理

為了進行驗證數據預處理，它會使和截斷設置符合最大長度，並在文檔末尾停止屈服。
對於預處理的預處理，它偶然地將文本分配到句子A和句子B中，並且偶然地改變了最大長度
為了進行填充數據預處理，遵循伯特的方式來截斷句子A和B中最長的句子以適合最大長度

詭計

對於MRPC和STS任務，它通過添加相同的培訓數據來增強培訓數據，但在官方實施中被稱為“雙_unorder”。
它沒有像伯特那樣掩蓋句子，在蒙版的概率（15％或其他值）內，令牌有85％的機會被[mask]代替，而15％保持不變，但沒有機會被隨機代碼替換。

綁定參數

發電機的輸入和輸出單詞嵌入，以及歧視器的輸入單詞嵌入。這三個被捆綁在一起。
它不僅將詞/pos/令牌類型的嵌入方式連接起來，而且還將發電機和鑑別器的嵌入層中的標準層覆蓋。

其他

輸出層由Tensorflow V1的默認初始化（即Xavier統一）初始化
使用Gumbel SoftMax從GeneArtor的樣本中作為歧視者的輸入
它在輸出層中使用輟學和線性層進行膠合列，而不是ElectraClassificationHead黑頭使用。
Electra檢查點的所有公共模型實際上都是++模型。看到這個問題
它通過Hidden_Size，注意力頭數量和中間大小，而不是層數降低了降低的生成器。

文件架構

如果您預先預處理並產生測試結果。 electra_pytorch將為您生成這些。

 project root
|
|── datasets
|   |── glue
|       |── <task>
|       ...
|
|── checkpoints
|   |── pretrain
|   |   |── <base_run_name>_<seed>_<percent>.pth
|   |    ...
|   |
|   |── glue
|       |── <group_name>_<task>_<ith_run>.pth
|       ...
|
|── test_outputs
|   |── <group_name>
|   |   |── CoLA.tsv
|   |   ...
|   | 
|   | ...

引用

原始紙

 @inproceedings{clark2020electra,
  title = {{ELECTRA}: Pre-training Text Encoders as Discriminators Rather Than Generators},
  author = {Kevin Clark and Minh-Thang Luong and Quoc V. Le and Christopher D. Manning},
  booktitle = {ICLR},
  year = {2020},
  url = {https://openreview.net/pdf?id=r1xMH1BtvB}
}

這個實現。

 @misc{electra_pytorch,
  author = {Richard Wang},
  title = {PyTorch implementation of ELECTRA},
  year = {2020},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/richarddwang/electra_pytorch}}
}

展開

附加信息