Этот репозиторий демонстрирует использование адаптации с низким уровнем ранга (LORA) для тонкой базовой модели Google для двух задач классификации: идентификация продуктов питания и идентификация действий человека . Каждое задание обучено и выводится отдельно с использованием LORA.
В этой задаче мы использовали модель Google VIT google/vit-base-patch16-224-in21k
с параметрами около 86M . Ссылка на базовую модель обнимающего лица
Есть некоторые требования для запуска файлов. Python с версией> = 3,8 требуется.
Другие требования
transformersdatasetsevaluatepefttorch и torchvision В целях тонкой настройки мы использовали эффективную настройку параметров peft на двух разных наборах данных
food101Human-Action-Recognition См. Записную книжку Vit здесь Чтобы запустить вывод, реализуется простое приложение Gradio. Мы можем выбрать любой модельный адаптер (еда / человек) и загрузить изображение, чтобы получить этикетку классификации.
app.py inference.py
Чтобы запустить вывод, запустите следующий код после загрузки или клонирования репозитория.
python app.py