lora vit finetuning
1.0.0
該存儲庫證明了使用低級適應性(LORA)來微調Google的基本模型,以進行兩個分類任務:食物項目識別和人類行動識別。每個任務均經過訓練和推斷,並使用洛拉分別推斷。
在此任務中,我們利用Google VIT模型google/vit-base-patch16-224-in21k
約有86M參數。鏈接到擁抱的面部回購基礎模型
為了運行文件,有一些要求。需要版本> = 3.8的Python。
其他要求
transformersdatasetsevaluatepefttorch和torchvision 為了進行微調,我們在兩個不同的數據集上使用了peft參數有效微調
food101Human-Action-Recognition參考此處的VIT筆記本為了運行推斷,實現了一個簡單的Gradio應用程序。我們可以選擇任何模型適配器(食物 /人)並上傳圖像以獲取分類標籤。
請參閱the the inference.py and app.py
為了運行推理,下載或克隆存儲庫後運行以下代碼。
python app.py