few shot bidikan - few shot

few shot

ular piton

1.0.0

Unduh

Pembelajaran beberapa shot

Tujuan repositori ini adalah untuk berisi kode yang bersih, mudah dibaca, dan diuji untuk mereproduksi beberapa penelitian pembelajaran.

Proyek ini ditulis dalam Python 3.6 dan Pytorch dan menganggap Anda memiliki GPU.

Lihat artikel medium ini untuk beberapa informasi lebih lanjut

Teori dan konsep
Diskusi detail implementasi

Pengaturan

Persyaratan

Tercantum dalam requirements.txt . Instal dengan pip install -r requirements.txt lebih disukai di VirtualEnv.

Data

Edit variabel DATA_PATH di config.py ke lokasi tempat Anda menyimpan dataset omniglot dan miniimagenet.

Setelah memperoleh data dan menjalankan skrip pengaturan yang seharusnya terlihat seperti struktur folder Anda

 DATA_PATH/
    Omniglot/
        images_background/
        images_evaluation/
    miniImageNet/
        images_background/
        images_evaluation/

Dataset Omniglot . Unduh dari https://github.com/brendenlake/omniglot/tree/master/python, tempatkan file yang diekstraksi ke dalam DATA_PATH/Omniglot_Raw dan jalankan scripts/prepare_omniglot.py

Dataset MiniMagenet . Unduh file dari https://drive.google.com/file/d/0b3irx3uqnobmq1flnxjszudywee/view, tempatkan dalam data/miniImageNet/images dan jalankan scripts/prepare_mini_imagenet.py

Tes (opsional)

Setelah menambahkan dataset menjalankan pytest di direktori root untuk menjalankan semua tes.

Hasil

experiments/experiments.txt File berisi hiperparameter yang saya gunakan untuk mendapatkan hasil yang diberikan di bawah ini.

Jaringan prototipikal

Jalankan experiments/proto_nets.py untuk mereproduksi hasil dari jaringan prototical untuk pembelajaran beberapa shot (Snell et al).

Argumen

dataset: {'omniglot', 'miniimagenet'}. Apakah akan menggunakan dataset omniglot atau miniimagenet
Jarak: {'l2', 'cosine'}. Metrik jarak mana yang akan digunakan
N-Train: Sampel dukungan per kelas untuk tugas pelatihan
N-test: sampel dukungan per kelas untuk tugas validasi
K-Train: Jumlah kelas dalam tugas pelatihan
K-test: Jumlah kelas dalam tugas validasi
Q-Train: Sampel kueri per kelas untuk tugas pelatihan
Q-test: Sampel kueri per kelas untuk tugas validasi

	Omniglot
K-Way	5	5	20	20
n-shot	1	5	1	5
Diterbitkan	98.8	99.7	96.0	98.9
Repo ini	98.2	99.4	95.8	98.6

	miniimagenet
K-Way	5	5
n-shot	1	5
Diterbitkan	49.4	68.2
Repo ini	48.0	66.2

Jaringan yang cocok

Klasifikasi tetangga terdekat yang dapat dibedakan.

Jaringan yang cocok

Jalankan experiments/matching_nets.py untuk mereproduksi hasil dari jaringan pencocokan untuk pembelajaran satu bidikan (Vinyals et al).

Argumen

dataset: {'omniglot', 'miniimagenet'}. Apakah akan menggunakan dataset omniglot atau miniimagenet
Jarak: {'l2', 'cosine'}. Metrik jarak mana yang akan digunakan
N-Train: Sampel dukungan per kelas untuk tugas pelatihan
N-test: sampel dukungan per kelas untuk tugas validasi
K-Train: Jumlah kelas dalam tugas pelatihan
K-test: Jumlah kelas dalam tugas validasi
Q-Train: Sampel kueri per kelas untuk tugas pelatihan
Q-test: Sampel kueri per kelas untuk tugas validasi
FCE: apakah (benar) atau tidak (false) untuk menggunakan embeddings konteks penuh (FCE)
LSTM-Layers: Jumlah lapisan LSTM yang akan digunakan dalam set dukungan FCE
Langkah-langkah yang tidak bergulir: Jumlah langkah tanpa gulungan untuk digunakan saat menghitung FCE dari sampel kueri

Saya mengalami kesulitan mereproduksi hasil makalah ini menggunakan metrik jarak cosinus karena saya menemukan konverge menjadi lambat dan kinerja akhir tergantung pada inisialisasi acak. Namun saya dapat mereproduksi (dan sedikit melebihi) hasil makalah ini menggunakan metrik jarak L2.

	Omniglot
K-Way	5	5	20	20
n-shot	1	5	1	5
Diterbitkan (cosine)	98.1	98.9	93.8	98.5
Repo ini (cosinus)	92.0	93.2	75.6	77.8
Repo ini (l2)	98.3	99.8	92.8	97.8

	miniimagenet
K-Way	5	5
n-shot	1	5
Diterbitkan (Cosine, FCE)	44.2	57.0
Repo ini (cosinus, fce)	42.8	53.6
Repo ini (l2)	46.0	58.4

MODEL-AGNOSTIC META-LEARNING (MAML)

Maml

Saya menggunakan max pooling alih -alih konvolusi yang diikat agar konsisten dengan kertas lain. Eksperimen miniimagenet menggunakan pesanan ke -2 MAML membutuhkan waktu lebih dari satu hari.

Jalankan experiments/maml.py untuk mereproduksi hasil dari meta-learning model-agnostik (Finn et al).

Argumen

dataset: {'omniglot', 'miniimagenet'}. Apakah akan menggunakan dataset omniglot atau miniimagenet
Jarak: {'l2', 'cosine'}. Metrik jarak mana yang akan digunakan
N: Sampel dukungan per kelas untuk beberapa tugas shot
K: Jumlah kelas dalam tugas pelatihan
T: Sampel kueri per kelas untuk tugas pelatihan
Langkah-train-Langkah: Jumlah pembaruan loop dalam untuk dilakukan pada tugas pelatihan
Inner-Val-Steps: Jumlah pembaruan loop dalam untuk melakukan pada tugas validasi
Inner-LR: Tingkat pembelajaran untuk digunakan untuk pembaruan loop dalam
Meta-LR: Tingkat belajar untuk digunakan saat memperbarui bobot meta-learner
Ukuran meta-batch: Jumlah tugas per meta-batch
Pesanan: Apakah akan menggunakan maml pesanan pertama atau 2
Zaman: Jumlah zaman pelatihan
Epoch-Len: meta-batch per zaman
Eval-Batch: Jumlah meta-batch untuk digunakan saat mengevaluasi model setelah setiap zaman

NB: Untuk maml n, k dan q ditetapkan antara kereta dan tes. Anda mungkin perlu menyesuaikan ukuran meta-batch agar sesuai dengan GPU Anda. Pesanan ke -2 MAML menggunakan lebih banyak memori.