Dieses Repository demonstriert die Verwendung von Anpassung mit niedriger Ranganpassung (LORA), um das Basismodell von Google für zwei Klassifizierungsaufgaben zu optimieren: Identifizierung von Lebensmitteln und Identifizierung menschlicher Handlungen . Jede Aufgabe wird mit Lora getrennt ausgebildet und separat abgeleitet.
In dieser Aufgabe haben wir das Google VIT-Modell google/vit-base-patch16-224-in21k verwendet
mit rund 86M Parametern. Link zum Umarmungsgesichts -Repo -Basismodell
Es gibt einige Anforderungen, um die Dateien auszuführen. Python mit Version> = 3.8 ist erforderlich.
Andere Anforderungen
transformersdatasetsevaluatepefttorch und torchvision Zum Zweck der Feinabstimmung haben wir peft -Parameter effiziente Feinabstimmung auf zwei verschiedenen Datensätzen verwendet
food101Human-Action-Recognition beziehen sich hier auf das VIT-Notizbuch hier Um die Inferenz auszuführen, wird eine einfache Gradio -App implementiert. Wir können jedes Modelladapter (Lebensmittel / Mensch) auswählen und ein Bild hochladen, um das Klassifizierungsetikett zu erhalten.
Siehe inference.py und app.py
Um den Inferenz auszuführen, führen Sie den folgenden Code aus, nachdem Sie das Repository heruntergeladen oder klonen.
python app.py