HyperGai的超预言变压器(HPT)是一种新型的多模式LLM框架,已接受了能够理解文本和视觉输入的视觉模型的培训。 HPT通过各种多模式LLM基准的最先进模型取得了竞争激烈的结果。该存储库包含推理代码的开源实现,以重现不同基准上HPT的评估结果。
我们将HPT 1.5 Edge发布为针对边缘设备量身定制的最新开源型号。尽管它的大小(<5b),但Edge表现出令人印象深刻的能力,同时非常有效。我们在Apache 2.0许可下在Huggingface和GitHub公开发布HPT 1.5 Edge。

pip install -r requirements.txt
pip install -e .
您可以将模型权重从HF下载到[本地路径]中,并将global_model_path设置为模型配置文件中的[本地路径]:
git lfs install
git clone https://huggingface.co/HyperGAI/HPT1_5-Edge [Local Path]
您还可以在配置文件中设置与我们默认设置不同的其他策略。
设置配置文件后,启动模型演示以进行快速试用:
python demo/demo.py --image_path [Image] --text [Text] --model [Config]
例子:
python demo/demo.py --image_path demo/einstein.jpg --text 'What is unusual about this image?' --model hpt-edge-1-5
启动评估模型:
torchrun --nproc-per-node=8 run.py --data [Dataset] --model [Config]
HPT 1.5边缘的示例:
torchrun --nproc-per-node=8 run.py --data MMMU_DEV_VAL --model hpt-edge-1-5
对于HPT 1.5边缘

HPT 1.5边缘
验证的LLM:PHI-3-MINI-4K教学
预审前的视觉编码器:Siglip-SO400M-Patch14-384
HPT 1.5空气
预验证的LLM:Llama3-8B教学
预审前的视觉编码器:Siglip-SO400M-Patch14-384
HPT 1.0空气
预验证的LLM:YI-6B-CHAT
预审前的视觉编码器:剪辑 - vit-large-patch14-336
请注意,HPT Air是我们模型的快速公开发布,以促进开放,负责的AI研究和社区发展。它没有任何审核机制,也没有保证其结果。我们希望与社区互动,使该模型很好地尊重护栏,以便在需要调节产出的现实世界应用程序中采用实际采用。
该项目以Apache 2.0许可发布。该项目的一部分包含来自其他来源的代码和模型,这些代码和模型受其各自许可的约束,如果您想用于商业目的,则需要应用其各自的许可证。
根据VLMValkit项目扩展了用于运行此演示的评估代码。我们还要感谢Openai开源的视觉编码器模型,即01.AI,Meta和Microsoft开源的大型语言模型。