mean teacher
1.0.0
纸-----尼普斯2017海报--------尼普斯2017 Spotlight幻灯片----博客文章
由Harri Valpola(好奇的人工智能公司)的Antti Tarvainen撰写
平均教师是半监督学习的简单方法。它包括以下步骤:
我们的贡献是最后一步。 Laine和Aila [Paper]使用了学生和老师之间的共享参数,或者使用了教师预测的临时合奏。相比之下,平均教师更准确,适用于大型数据集。

卑鄙的老师在现代建筑中效果很好。将平均教师与重新NET结合在一起,我们在ImageNet和Cifar-10数据集上的半监督学习中提高了最先进的状态。
| Imagenet使用10%的标签 | TOP-5验证错误 |
|---|---|
| 变异自动编码器[纸] | 35.42±0.90 |
| 平均教师Resnet-152 | 9.11±0.12 |
| 所有标签,最先进的[纸] | 3.79 |
| CIFAR-10使用4000个标签 | 测试错误 |
|---|---|
| CT-GAN [纸] | 9.98±0.21 |
| 平均老师Resnet-26 | 6.28±0.15 |
| 所有标签,最先进的[纸] | 2.86 |
有两个实现,一个用于张量,另一种用于Pytorch。 Pytorch版本可能更容易适应您的需求,因为它遵循典型的Pytorch成语,并且有一个自然的位置可以添加模型和数据集。让我知道是否需要澄清。
关于本文的结果,使用传统的Convnet体系结构进行了张曲流版本的实验。使用剩余网络的实验使用Pytorch版本运行。
平均老师介绍了两个新的超参数:EMA衰减率和一致性成本重量。这些中的每一个的最佳值取决于数据集,模型和Minibatches的组成。您还需要选择如何在MiniBatches中交织未标记的样本和标记样品。
以下是一些可以让您入门的经验法则: