พื้นที่เก็บข้อมูลนี้แสดงให้เห็นถึงการใช้ การปรับตัวระดับต่ำ (LORA) เพื่อปรับรูปแบบพื้นฐานของ Google สำหรับงานการจำแนกประเภทสองรายการ: การระบุรายการอาหาร และ การระบุการกระทำของมนุษย์ แต่ละงานได้รับการฝึกฝนและอนุมานแยกต่างหากโดยใช้ LORA
ในงานนี้เราใช้โมเดล Google Vit google/vit-base-patch16-224-in21k
ด้วยพารามิเตอร์ประมาณ 86M . เชื่อมโยงไปยังโมเดลฐาน repo hugging face
มีข้อกำหนดบางประการเพื่อเรียกใช้ไฟล์ ต้องใช้ Python ที่มีเวอร์ชัน> = 3.8
ข้อกำหนดอื่น ๆ
transformersdatasetsevaluatepefttorch และ torchvision เพื่อจุดประสงค์ในการปรับแต่งเราใช้พารามิเตอร์ peft อย่างมีประสิทธิภาพในชุดข้อมูลที่แตกต่างกันสองชุด
food101Human-Action-Recognition หมายถึงโน้ตบุ๊ก VIT ที่นี่ เพื่อที่จะเรียกใช้การอนุมานแอป Gradio อย่างง่ายจะถูกนำไปใช้ เราสามารถเลือกอะแดปเตอร์แบบจำลองใด ๆ (อาหาร / มนุษย์) และอัปโหลดรูปภาพเพื่อรับฉลากการจำแนกประเภท
อ้างถึง inference.py และ app.py
เพื่อให้เรียกใช้การอนุมานการเรียกใช้รหัสต่อไปนี้หลังจากดาวน์โหลดหรือโคลนนิ่งที่เก็บ
python app.py