Проект осуществляется для нейронных сетей курса для науки о данных в Sapienza с целью иметь практику с недавней областью модульных сетей. Модульные сети направлены на то, чтобы обеспечить альтернативу для Tecnique, такой как дистилляция, чтобы сократить время обучения и вывода или общий вычислительный бюджет, предоставляемый глубокой архитектурой, который в настоящее время становится все более глубже.
Тип модульных сетей, которые я реализует, является ранним выходом по модели VGG11 с нуля в Tensorflow Keras для классификации изображений, учитывая набор данных цветов. В частности, я добавляю фиксированные ранние выходы в предыдущую архитектуру и обучаю новую модель с помощью потери поперечной энтропии с помощью потери поперечной энтропии, используя все предсказание раннего выхода и последний. Выводы делаются путем пороговой операции на энтропии раннего выхода слоя E, который гарантирует, что выход на раннем этапе или продолжение. Ранний уровень слоя представляет собой небольшой классификатор двух последовательного уровня: свертка и полностью связанный. Ранний выходной ветвь реализован после каждого сверточного блока в модели, в общей сложности 5, чтобы изучить больше этой модульной архитектуры.
[1] Почему мы должны добавлять ранние выходы в нейронные сети?
[2] Диберт: динамическое раннее выход для ускоряющегося вывода BERT
[3] углубляется в свертывания
