Le projet est réalisé pour les réseaux de neurones du cours pour la science des données à Sapienza, dans le but d'avoir un terrain avec le domaine récent des réseaux modulaires. Les réseaux modulaires visent à fournir une alternative à Tecnique comme la distillation afin de réduire le temps de formation et d'inférence ou le budget de calcul global donné par l'architecture profonde qui va plus loin de nos jours.
Le type de réseaux modulaires que j'implémente est une sortie précoce sur un modèle VGG11 à partir de zéro dans TensorFlow Keras pour la classification d'images compte tenu de l'ensemble de données de fleurs. Plus précisément, j'ajoute des sorties précoces fixes dans l'architecture précédente et je forme le nouveau modèle avec une perte d'entropie croisée conjointe en utilisant toute la prédiction de sortie précoce et la dernière. L'inférence est effectuée par une opération de seuil sur l'entropie de la couche de sortie précoce qui garantit si la sortie tôt ou continue. La couche précoce est un petit classificateur de deux couche séquentielle: la convolution et une plus connectée entièrement connectée. La branche de sortie précoce est mise en œuvre après chaque bloc de convolution du modèle, pour un total de 5, afin d'explorer plus cette architecture modulaire.
[1] Pourquoi devrions-nous ajouter les premières sorties aux réseaux de neurones?
[2] Deebert: sortie dynamique précoce pour accélérer l'inférence Bert
[3] Aller plus loin avec les convolutions
