electra_pytorch下载 - electra_pytorch源代码下载

electra_pytorch

其他源码

1.0.0

下载

非正式的Pytorch实施

Electra：训练前文本编码是凯文·克拉克（Kevin Clark）的歧视者而不是发电机。钟长隆。 Quoc V. Le。克里斯托弗·D·曼宁

※对于将来的更新和更多工作，请遵循

复制结果

我从头开始预算电气，并成功地将论文的结果复制在胶水上。

模型	可乐	SST	MRPC	sts	QQP	mnli	Qnli	rte	avg。 avg。
Electra-Small-Owt	56.8	88.3	87.4	86.8	88.3	78.9	87.9	68.5	80.36
electra-small-owt（我）	58.72	88.03	86.04	86.16	88.63	80.4	87.45	67.46	80.36

表1：胶水设置的结果。官方结果来自预期的结果。分数是从同一检查点获得冠心的平均得分。（请参阅此问题）我的结果来自从头开始的型号，并从每项任务的10个填充运行中平均进行。这两个结果均在OpenWebText语料库上进行培训

模型	可乐	SST	MRPC	sts	QQP	mnli	Qnli	rte	avg。
electra-small ++	55.6	91.1	84.9	84.6	88.0	81.6	88.3	63.6	79.7
electra-small ++（我）	54.8	91.6	84.6	84.2	88.5	82	89	64.7	79.92

表2：胶测试集的结果。我的结果Finetunes从拥抱面上加载的经过验证的检查点。

官方训练损失曲线	我的训练损失曲线

表3：两者都是在OpenWebText上训练的小型型号。官方是来自这里的。您应该用一粒盐的训练损失价值，因为它不能反映下游任务的性能。

此实现的功能

您无需手动下载和处理数据集，Scirpt会自动照顾您。（感谢HuggingFace/DataSet和HugginFace/Transformers）
Afaik是最接近原始的重新成真，负责许多容易被忽视的细节（如下所述）。
阿法克（Afaik），唯一通过复制论文中的结果来成功验证自己的人。
附带Jupyter笔记本电脑，您可以探索代码并检查处理后的数据。
您无需独自下载和预处理，您所需要的只是运行培训脚本。

电元预处理有多稳定？

意思是	std	最大限度	最小	#models
81.38	0.57	82.23	80.42	14

tabel 4：小型模型的胶水开发结果的统计数据。每个模型都可以从头开始鉴定，并对每个胶水任务进行10次随机运行进行填充。模型的得分是每个任务最佳10的平均值。（该过程与本文中描述的过程一样），如我们所见，尽管Electra嘲笑Adeversarial训练，但它具有良好的训练稳定性。

Electra对胶水的固定有多稳定？

模型	可乐	SST	MRPC	sts	QQP	mnli	Qnli	rte
electra-small-owt（我）	1.30	0.49	0.7	0.29	0.1	0.15	0.33	1.93

表5：每个任务的标准偏差。这是与表1的模型相同的模型，该模型为每个任务运行10个。

讨论

拥抱面论坛帖子
Fastai论坛帖子

用法

注意：这个项目实际上是用于我的个人研究。因此，我并没有试图使所有用户易于使用，而是试图使其易于阅读和修改。

安装要求

pip3 install -r requirements.txt

步骤

python pretrain.py
在finetune.py中将pretrained_checkcpoint设置为使用已预处理并保存在electra_pytorch/checkpoints/pretrain中的检查点。
python finetune.py （ do_finetune设置为True ）
转到Neptune，为每个任务选择10次运行中的最佳运行，然后根据您选择的运行名称中的数字在finetune.py中设置th_runs 。
python finetune.py （将do_finetune设置为False ），此预测测试集对testset上的预测，然后可以在electra_pytorch/test_outputs/<group_name>/*.tsv中压缩并发送.tsv s，以获得测试得分。

笔记

我没有使用CLI参数，因此在运行Python文件中MyConfig中包含的选项以在运行之前。（下面有评论显示香草设置的选项）
您将需要一个Neptune帐户，并在网站上创建一个Neptune项目，以记录胶水固定结果。不要忘记用海王星项目的名称代替richarddwang/electra-glue
python文件pretrain.py ， finetune.py实际上是从Pretrain.ipynb和Finetune_GLUE.ipynb转换的。您也可以使用这些笔记本探索Electra培训和填充。

高级详细信息

下面列出了原始实施/纸的详细信息，这些详细信息易于忽略，我已经照顾了。我发现这些细节是必不可少的，即可成功复制本文的结果。

优化

使用无偏差校正的ADAM优化器（Pytorch和FastAI中的Adam Optimizer默认校正）
在官方实施中，有一个通过层次衰减的学习率的错误，因此，在修补时，LR衰减比论文中所述的要多。请参阅_get_layer_lrs。另请参阅此问题。
使用夹梯度
填充胶水时使用0重量衰减
它没有进行热身，然后进行线性衰减，而是将它们一起进行，这意味着在热身阶段的同时学习率热身和衰减。请参阅此处

数据处理

为了进行验证数据预处理，它会使和截断设置符合最大长度，并在文档末尾停止屈服。
对于预处理的预处理，它偶然地将文本分配到句子A和句子B中，并且偶然地改变了最大长度
为了进行填充数据预处理，遵循伯特的方式来截断句子A和B中最长的句子以适合最大长度

诡计

对于MRPC和STS任务，它通过添加相同的培训数据来增强培训数据，但在官方实施中被称为“双_unorder”。
它没有像伯特那样掩盖句子，在蒙版的概率（15％或其他值）内，令牌有85％的机会被[mask]代替，而15％保持不变，但没有机会被随机代码替换。

绑定参数

发电机的输入和输出单词嵌入，以及歧视器的输入单词嵌入。这三个被捆绑在一起。
它不仅将词/pos/令牌类型的嵌入方式连接起来，而且还将发电机和鉴别器的嵌入层中的标准层覆盖。

其他

输出层由Tensorflow V1的默认初始化（即Xavier统一）初始化
使用Gumbel SoftMax从GeneArtor的样本中作为歧视者的输入
它在输出层中使用辍学和线性层进行胶合列，而不是ElectraClassificationHead黑头使用。
Electra检查点的所有公共模型实际上都是++模型。看到这个问题
它通过Hidden_Size，注意力头数量和中间大小，而不是层数降低了降低的生成器。

文件架构

如果您预先预处理并产生测试结果。 electra_pytorch将为您生成这些。

 project root
|
|── datasets
|   |── glue
|       |── <task>
|       ...
|
|── checkpoints
|   |── pretrain
|   |   |── <base_run_name>_<seed>_<percent>.pth
|   |    ...
|   |
|   |── glue
|       |── <group_name>_<task>_<ith_run>.pth
|       ...
|
|── test_outputs
|   |── <group_name>
|   |   |── CoLA.tsv
|   |   ...
|   | 
|   | ...

引用

原始纸

 @inproceedings{clark2020electra,
  title = {{ELECTRA}: Pre-training Text Encoders as Discriminators Rather Than Generators},
  author = {Kevin Clark and Minh-Thang Luong and Quoc V. Le and Christopher D. Manning},
  booktitle = {ICLR},
  year = {2020},
  url = {https://openreview.net/pdf?id=r1xMH1BtvB}
}

这个实现。

 @misc{electra_pytorch,
  author = {Richard Wang},
  title = {PyTorch implementation of ELECTRA},
  year = {2020},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/richarddwang/electra_pytorch}}
}

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-04-16
大小 51.92KB
来自于 Github

electra_pytorch

复制结果

此实现的功能

更多结果

电元预处理有多稳定？

Electra对胶水的固定有多稳定？

讨论

用法

安装要求

步骤

笔记

高级详细信息

优化

数据处理

诡计

绑定参数

其他

文件架构

引用

原始纸

这个实现。

OpenCore_NO_ACPI_Build

nspanel_pro_tools_apk

zkwork_aleo_gpu_worker

pytorch image models

nextcloud_share_url_downloader

丽华数据分析引擎免费版3.0_搜索_导航_采集_舆情_排行_api

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express