HyperGai的超預言變壓器(HPT)是一種新型的多模式LLM框架,已接受了能夠理解文本和視覺輸入的視覺模型的培訓。 HPT通過各種多模式LLM基準的最先進模型取得了競爭激烈的結果。該存儲庫包含推理代碼的開源實現,以重現不同基准上HPT的評估結果。
我們將HPT 1.5 Edge發佈為針對邊緣設備量身定制的最新開源型號。儘管它的大小(<5b),但Edge表現出令人印象深刻的能力,同時非常有效。我們在Apache 2.0許可下在Huggingface和GitHub公開發布HPT 1.5 Edge。

pip install -r requirements.txt
pip install -e .
您可以將模型權重從HF下載到[本地路徑]中,並將global_model_path設置為模型配置文件中的[本地路徑]:
git lfs install
git clone https://huggingface.co/HyperGAI/HPT1_5-Edge [Local Path]
您還可以在配置文件中設置與我們默認設置不同的其他策略。
設置配置文件後,啟動模型演示以進行快速試用:
python demo/demo.py --image_path [Image] --text [Text] --model [Config]
例子:
python demo/demo.py --image_path demo/einstein.jpg --text 'What is unusual about this image?' --model hpt-edge-1-5
啟動評估模型:
torchrun --nproc-per-node=8 run.py --data [Dataset] --model [Config]
HPT 1.5邊緣的示例:
torchrun --nproc-per-node=8 run.py --data MMMU_DEV_VAL --model hpt-edge-1-5
對於HPT 1.5邊緣

HPT 1.5邊緣
驗證的LLM:PHI-3-MINI-4K教學
預審前的視覺編碼器:Siglip-SO400M-Patch14-384
HPT 1.5空氣
預驗證的LLM:Llama3-8B教學
預審前的視覺編碼器:Siglip-SO400M-Patch14-384
HPT 1.0空氣
預驗證的LLM:YI-6B-CHAT
預審前的視覺編碼器:剪輯 - vit-large-patch14-336
請注意,HPT Air是我們模型的快速公開發布,以促進開放,負責的AI研究和社區發展。它沒有任何審核機制,也沒有保證其結果。我們希望與社區互動,使該模型很好地尊重護欄,以便在需要調節產出的現實世界應用程序中採用實際採用。
該項目以Apache 2.0許可發布。該項目的一部分包含來自其他來源的代碼和模型,這些代碼和模型受其各自許可的約束,如果您想用於商業目的,則需要應用其各自的許可證。
根據VLMValkit項目擴展了用於運行此演示的評估代碼。我們還要感謝Openai開源的視覺編碼器模型,即01.AI,Meta和Microsoft開源的大型語言模型。