Repositori ini menunjukkan penggunaan adaptasi rendah (LORA) untuk menyempurnakan model dasar Google untuk dua tugas klasifikasi: identifikasi item makanan dan identifikasi tindakan manusia . Setiap tugas dilatih dan disimpulkan secara terpisah menggunakan LORA.
Dalam tugas ini kami menggunakan Google VOLD Model google/vit-base-patch16-224-in21k
dengan sekitar 86M parameter. Tautan ke model dasar pelukan wajah repo
Ada beberapa persyaratan untuk menjalankan file. Python dengan versi> = 3.8 diperlukan.
Persyaratan lainnya
transformersdatasetsevaluatepefttorch dan torchvision Untuk tujuan fine-tuning kami menggunakan parameter peft fine-tuning efisien pada dua dataset yang berbeda
food101Human-Action-Recognition merujuk ke Vit Notebook di sini Untuk menjalankan inferensi, aplikasi gradio sederhana diimplementasikan. Kami dapat memilih adaptor model apa pun (makanan / manusia) dan mengunggah gambar untuk mendapatkan label klasifikasi.
Lihat inference.py dan app.py
Untuk menjalankan inferensi, jalankan kode berikut setelah mengunduh atau mengkloning repositori.
python app.py