few shot - few shot descarga

few shot

Pitón

1.0.0

Descargar

Aprendizaje de pocos disparos

El objetivo de este repositorio es contener código limpio, legible y probado para reproducir la investigación de aprendizaje de pocos disparos.

Este proyecto está escrito en Python 3.6 y Pytorch y asume que tiene una GPU.

Consulte estos artículos medios para obtener más información.

Teoría y conceptos
Discusión de detalles de implementación

Configuración

Requisitos

Listado en requirements.txt . Instale con pip install -r requirements.txt preferiblemente en VirtualEnv.

Datos

Edite la variable DATA_PATH en config.py en la ubicación donde almacena los conjuntos de datos OmnigLot y MiniImagenet.

Después de adquirir los datos y ejecutar los scripts de configuración, su estructura de carpeta debería verse

 DATA_PATH/
    Omniglot/
        images_background/
        images_evaluation/
    miniImageNet/
        images_background/
        images_evaluation/

Omniglot DataSet. Descargar desde https://github.com/brendenlake/omniglot/tree/master/python, coloque los archivos extraídos en DATA_PATH/Omniglot_Raw y ejecute scripts/prepare_omniglot.py

Miniimagenet DataSet. Descargar archivos de https://drive.google.com/file/d/0b3irx3uqnobmq1flnxjszudywee/view, colocar en data/miniImageNet/images y ejecutar scripts/prepare_mini_imagenet.py

Pruebas (opcionales)

Después de agregar los conjuntos de datos, ejecuten pytest en el directorio raíz para ejecutar todas las pruebas.

Resultados

El archivo experiments/experiments.txt contiene los hiperparámetros que utilicé para obtener los resultados que se dan a continuación.

Redes prototípicas

Ejecute experiments/proto_nets.py para reproducir los resultados de las redes prototíticas para el aprendizaje de pocos disparos (Snell et al).

Argumentos

DataSet: {'Omniglot', 'MiniImagenet'}. Si usar el conjunto de datos Omniglot o MiniImagenet
Distancia: {'L2', 'Cosine'}. Que métrica de distancia usar
N-Train: Soporte de muestras por clase para tareas de entrenamiento
N-prueba: Soporte de muestras por clase para tareas de validación
K-Train: Número de clases en tareas de entrenamiento
K-Test: Número de clases en tareas de validación
Q-Train: muestras de consulta por clase para tareas de entrenamiento
P-TEST: muestras de consulta por clase para tareas de validación

	Omniglot
K-way	5	5	20	20
n-shot	1	5	1	5
Publicado	98.8	99.7	96.0	98.9
Este repositorio	98.2	99.4	95.8	98.6

	miniimagenet
K-way	5	5
n-shot	1	5
Publicado	49.4	68.2
Este repositorio	48.0	66.2

Redes coincidentes

Un clasificador de vecinos más cercanos diferenciables.

Redes coincidentes

Ejecute experiments/matching_nets.py para reproducir los resultados de las redes coincidentes para el aprendizaje de un disparo (vinyals et al).

Argumentos

DataSet: {'Omniglot', 'MiniImagenet'}. Si usar el conjunto de datos Omniglot o MiniImagenet
Distancia: {'L2', 'Cosine'}. Que métrica de distancia usar
N-Train: Soporte de muestras por clase para tareas de entrenamiento
N-prueba: Soporte de muestras por clase para tareas de validación
K-Train: Número de clases en tareas de entrenamiento
K-Test: Número de clases en tareas de validación
Q-Train: muestras de consulta por clase para tareas de entrenamiento
P-TEST: muestras de consulta por clase para tareas de validación
FCE: si (verdadero) o no (falso) usar integración de contexto completo (FCE)
LSTM-LAYERS: Número de capas LSTM para usar en el conjunto de soporte FCE
Desenfriado los pasos: número de pasos de desenrollado a usar al calcular FCE de la muestra de consulta

Tuve problemas para reproducir los resultados de este documento utilizando la métrica de distancia del coseno, ya que encontré que la converja es lenta y el rendimiento final depende de la inicialización aleatoria. Sin embargo, pude reproducir (y exceder ligeramente) los resultados de este documento utilizando la métrica de distancia L2.

	Omniglot
K-way	5	5	20	20
n-shot	1	5	1	5
Publicado (coseno)	98.1	98.9	93.8	98.5
Este repositorio (coseno)	92.0	93.2	75.6	77.8
Este repositorio (L2)	98.3	99.8	92.8	97.8

	miniimagenet
K-way	5	5
n-shot	1	5
Publicado (Cosine, FCE)	44.2	57.0
Este repositorio (coseno, fce)	42.8	53.6
Este repositorio (L2)	46.0	58.4

Meta-learnicing del modelo y modelo (MAML)

Maml

Utilicé la agrupación máxima en lugar de las convoluciones estridadas para ser consistente con los otros documentos. Los experimentos de MiniImagenet con el segundo orden Maml me llevaron más de un día para correr.

Ejecutar experiments/maml.py para reproducir los resultados del meta-aprendizaje del modelo agnóstico (Finn et al).

Argumentos

DataSet: {'Omniglot', 'MiniImagenet'}. Si usar el conjunto de datos Omniglot o MiniImagenet
Distancia: {'L2', 'Cosine'}. Que métrica de distancia usar
N: Soporte de muestras por clase para tareas de pocos disparos
K: Número de clases en tareas de capacitación
P: Muestras de consulta por clase para tareas de entrenamiento
Inner-Train-Steps: Número de actualizaciones de bucle interior para realizar tareas de capacitación
Inner-Val-Steps: Número de actualizaciones de bucle interior para realizar en tareas de validación
Inner-LR: tasa de aprendizaje para usar para las actualizaciones de bucle interior
Meta-LR: tasa de aprendizaje para usar al actualizar los pesos de Meta-Learner
Meta-Batch-Size: Número de tareas por meta-lote
Pedido: si se debe usar el primer o segundo pedido MAML
épocas: número de épocas de entrenamiento
Epoch-Len: meta-lotes por época
Evl-Batches: número de meta-lotes a usar al evaluar el modelo después de cada época

NB: para Maml N, K y Q se fijan entre el tren y la prueba. Es posible que deba ajustar el tamaño de meta-lote para que se ajuste a su GPU. Segundo orden Maml usa mucha más memoria.