Гипер-предшественные трансформаторы (HPT) представляют собой новую мультимодальную структуру LLM от Hypergai, и они были обучены моделям на языке зрения, которые способны понимать как текстовые, так и визуальные входные данные. HPT достиг высококонкурентных результатов с современными моделями на различных многомодальных критериях LLM. Этот репозиторий содержит реализацию кода вывода с открытым исходным кодом для воспроизведения результатов оценки HPT на разных критериях.
Мы выпускаем HPT 1.5 Edge в качестве нашей последней модели с открытым исходным кодом, адаптированной к устройствам Edge. Несмотря на его размер (<5b), Edge демонстрирует впечатляющие возможности, будучи чрезвычайно эффективными. Мы публично выпускаем HPT 1.5 Edge в Huggingface и GitHub по лицензии Apache 2.0.

pip install -r requirements.txt
pip install -e .
Вы можете скачать веса модели с HF в свой [локальный путь] и установить global_model_path в качестве [локальный путь] в файле конфигурации модели:
git lfs install
git clone https://huggingface.co/HyperGAI/HPT1_5-Edge [Local Path]
Вы также можете установить другие стратегии в файле конфигурации, которые отличаются от наших настроек по умолчанию.
После настройки файла конфигурации запустите демонстрацию модели для быстрого испытания:
python demo/demo.py --image_path [Image] --text [Text] --model [Config]
Пример:
python demo/demo.py --image_path demo/einstein.jpg --text 'What is unusual about this image?' --model hpt-edge-1-5
Запустите модель для оценки:
torchrun --nproc-per-node=8 run.py --data [Dataset] --model [Config]
Пример для HPT 1,5 Edge:
torchrun --nproc-per-node=8 run.py --data MMMU_DEV_VAL --model hpt-edge-1-5
Для HPT 1,5 Edge

HPT 1,5 Edge
Предварительный LLM: Phi-3-Mini-4K-Instruct
Предварительный визуальный энкодер: Siglip-So400m-Patch14-384
HPT 1,5 воздуха
Предварительный LLM: Llama3-8B-Instruct
Предварительный визуальный энкодер: Siglip-So400m-Patch14-384
HPT 1,0 воздух
Предварительный LLM: YI-6B-чат
Предварительный визуальный энкодер: клип-Vit-Large-Patch14-336
Обратите внимание, что HPT Air - это быстрый открытый выпуск наших моделей для облегчения открытых, ответственных исследований ИИ и развития сообщества. У него нет механизма умеренности и не дает никаких гарантий на их результаты. Мы надеемся взаимодействовать с сообществом, чтобы сделать модель тонко уважать ограждения, чтобы разрешить практическое принятие в реальных приложениях, требующих модерируемых результатов.
Этот проект выпущен по лицензии Apache 2.0. Части этого проекта содержат код и модели из других источников, которые подлежат их соответствующим лицензиям, и вам необходимо применить их соответствующую лицензию, если вы хотите использовать в коммерческих целях.
Код оценки для запуска этой демонстрации был расширен на основе проекта vlmevalkit. Мы также благодарим Openai за открытые источники их визуальных моделей энкодеров, 01.AI, Meta и Microsoft за открытый источник их больших языковых моделей.