lora vit finetuning
1.0.0
该存储库证明了使用低级适应性(LORA)来微调Google的基本模型,以进行两个分类任务:食物项目识别和人类行动识别。每个任务均经过训练和推断,并使用洛拉分别推断。
在此任务中,我们利用Google VIT模型google/vit-base-patch16-224-in21k
约有86M参数。链接到拥抱的面部回购基础模型
为了运行文件,有一些要求。需要版本> = 3.8的Python。
其他要求
transformersdatasetsevaluatepefttorch和torchvision 为了进行微调,我们在两个不同的数据集上使用了peft参数有效微调
food101Human-Action-Recognition参考此处的VIT笔记本为了运行推断,实现了一个简单的Gradio应用程序。我们可以选择任何模型适配器(食物 /人)并上传图像以获取分类标签。
请参阅the the inference.py and app.py
为了运行推理,下载或克隆存储库后运行以下代码。
python app.py