O projeto é realizado para as redes neurais do curso para ciência de dados em Sapienza, com o objetivo de ter uma prática com o recente campo de redes modulares. As redes modulares têm como objetivo fornecer uma alternativa ao Tecnique, como a destilação, a fim de reduzir o tempo de treinamento e inferência ou o orçamento computacional geral dado pela arquitetura profunda que se aprofundava mais nos dias de hoje.
O tipo de redes modulares que implemento é a saída antecipada de um modelo VGG11 do zero nas keras Tensorflow para classificação de imagem, dado o conjunto de dados de flores. Mais especificamente, adiciono saídas anteriores fixas na arquitetura anterior e treino o novo modelo com uma perda de entropia cruzada junta usando toda a previsão de saída antecipada e a final. A inferência é feita por uma operação de limiar na entropia da camada de saída antecipada e que garante que se saia mais cedo ou continue. A camada de expedição é um pequeno classificador de duas camadas seqüenciais: convolução e uma totalmente conectada. O ramo de saída inicial é implementado após cada bloco convolucional do modelo, por um total de 5, para explorar mais essa arquitetura modular.
[1] Por que devemos adicionar saídas antecipadas às redes neurais?
[2] Deebert: dinâmico saída precoce para acelerar a inferência de Bert
[3] indo mais fundo com convoluções
