Téléchargement de few shot - Téléchargement du code source few shot

few shot

Python

1.0.0

Télécharger

Apprentissage à quelques coups

L'objectif de ce référentiel est de contenir du code propre, lisible et testé pour reproduire la recherche d'apprentissage à quelques coups.

Ce projet est écrit dans Python 3.6 et Pytorch et suppose que vous avez un GPU.

Voir ces articles moyens pour plus d'informations

Théorie et concepts
Discussion des détails de la mise en œuvre

Installation

Exigences

Listé dans requirements.txt . Installer avec pip install -r requirements.txt de préférence dans un virtualenv.

Données

Modifiez la variable DATA_PATH dans config.py à l'emplacement où vous stockez les ensembles de données Omniglot et MiniImageNet.

Après avoir acquis les données et exécuté les scripts de configuration, votre structure de dossier devrait ressembler

 DATA_PATH/
    Omniglot/
        images_background/
        images_evaluation/
    miniImageNet/
        images_background/
        images_evaluation/

Ensemble de données omniglot . Télécharger depuis https://github.com/brendenlake/omniglot/tree/master/python, placez les fichiers extraits dans DATA_PATH/Omniglot_Raw et exécutez scripts/prepare_omniglot.py

Ensemble de données MiniImageNet . Téléchargez des fichiers à partir de https://drive.google.com/file/d/0b3irx3uqnobmq1flnxjszudywee/view, placez-le dans data/miniImageNet/images et exécutez scripts/prepare_mini_imagenet.py

Tests (facultatif)

Après avoir ajouté les ensembles de données, exécutez pytest dans le répertoire racine pour exécuter tous les tests.

Résultats

Le fichier experiments/experiments.txt contient les hyperparamètres que j'ai utilisés pour obtenir les résultats donnés ci-dessous.

Réseaux prototypiques

Exécutez experiments/proto_nets.py pour reproduire les résultats des réseaux prototpyicaux pour l'apprentissage à quelques tirs (Snell et al).

Arguments

ensemble de données: {'omniglot', 'miniimagenet'}. Que ce soit pour utiliser l'ensemble de données Omniglot ou MiniImagenet
Distance: {'L2', 'Cosine'}. Quelle métrique de distance à utiliser
N-TRAIN: Soutenir les échantillons par classe pour les tâches de formation
TEST N: Soutenir les échantillons par classe pour les tâches de validation
K-Train: Nombre de cours dans les tâches de formation
Test K: nombre de classes dans les tâches de validation
Q-Train: échantillons de requête par classe pour les tâches de formation
Test Q: échantillons de requête par classe pour les tâches de validation

	Omniglot
k-way	5	5	20	20
n-shot	1	5	1	5
Publié	98.8	99.7	96.0	98.9
Ce repo	98.2	99.4	95.8	98.6

	minimagenet
k-way	5	5
n-shot	1	5
Publié	49.4	68.2
Ce repo	48.0	66.2

Réseaux correspondants

Un classificateur de voisins le plus proche différenciable.

Réseaux correspondants

Exécutez experiments/matching_nets.py pour reproduire les résultats des réseaux correspondants pour un apprentissage par un plan (Vinyals et al).

Arguments

ensemble de données: {'omniglot', 'miniimagenet'}. Que ce soit pour utiliser l'ensemble de données Omniglot ou MiniImagenet
Distance: {'L2', 'Cosine'}. Quelle métrique de distance à utiliser
N-TRAIN: Soutenir les échantillons par classe pour les tâches de formation
TEST N: Soutenir les échantillons par classe pour les tâches de validation
K-Train: Nombre de cours dans les tâches de formation
Test K: nombre de classes dans les tâches de validation
Q-Train: échantillons de requête par classe pour les tâches de formation
Test Q: échantillons de requête par classe pour les tâches de validation
FCE: que ce soit (vrai) ou non (faux) pour utiliser des intégres complets (FCE) complets (FCE)
LSTM-Layers: Nombre de couches LSTM à utiliser dans l'ensemble de support FCE
Défense des étapes: nombre d'étapes déroulantes à utiliser lors du calcul du FCE de l'échantillon de requête

J'ai eu du mal à reproduire les résultats de cet article en utilisant la métrique de distance du cosinus car j'ai trouvé que le converge était lent et les performances finales dépendant de l'initialisation aléatoire. Cependant, j'ai pu reproduire (et légèrement dépasser) les résultats de cet article en utilisant la métrique de distance L2.

	Omniglot
k-way	5	5	20	20
n-shot	1	5	1	5
Publié (Cosin)	98.1	98.9	93.8	98.5
Ce repo (cosinus)	92.0	93.2	75.6	77.8
Ce repo (L2)	98.3	99.8	92.8	97.8

	minimagenet
k-way	5	5
n-shot	1	5
Publié (Cosine, FCE)	44.2	57.0
Ce repo (Cosine, FCE)	42.8	53.6
Ce repo (L2)	46.0	58.4

Méta-apprentissage modèle-agnostique (MAML)

Mame

J'ai utilisé la mise en commun maximale au lieu de convolutions accélérées afin d'être cohérente avec les autres papiers. Les expériences MiniImagenet utilisant MAML en 2e ordre m'ont pris plus d'une journée pour courir.

Exécutez experiments/maml.py pour reproduire les résultats de la méta-apprentissage du modèle-agnostique (Finn et al).

Arguments

ensemble de données: {'omniglot', 'miniimagenet'}. Que ce soit pour utiliser l'ensemble de données Omniglot ou MiniImagenet
Distance: {'L2', 'Cosine'}. Quelle métrique de distance à utiliser
N: Soutenir les échantillons par classe pour les tâches à quelques coups
K: Nombre de cours dans les tâches de formation
Q: Des échantillons de requête par classe pour les tâches de formation
INNER-TRAIN-STOPS: Nombre de mises à jour en boucle intérieure à effectuer sur les tâches de formation
interne-vale-étapes: nombre de mises à jour en boucle intérieure pour effectuer des tâches de validation
Inner-LR: Taux d'apprentissage à utiliser pour les mises à jour en boucle intérieure
Meta-LR: Taux d'apprentissage à utiliser lors de la mise à jour des poids de méta-apprentissage
Meta-Batch-Size: Nombre de tâches par métal-lots
Commande: Que ce soit pour utiliser le 1er ou le 2ème ordre MAML
époques: nombre d'époches de formation
Epoch-Len: Meta-Batches par époque
Évaluation d'évaluation: nombre de méta-lots à utiliser lors de l'évaluation du modèle après chaque époque

NB: Pour MAML N, K et Q sont fixés entre le train et le test. Vous devrez peut-être ajuster la taille de la méta-lot pour s'adapter à votre GPU. 2e commande MAML utilise beaucoup plus de mémoire.