المحولات التي تم تجريدها المفرطة (HPT) هي إطار جديد متعدد الوسائط LLM من Hypergai ، وقد تم تدريبه على نماذج باللغة الرؤية القادرة على فهم كل من المدخلات النصية والبصرية. حقق HPT نتائج تنافسية عالية مع نماذج حديثة على مجموعة متنوعة من معايير LLM متعددة الوسائط. يحتوي هذا المستودع على تنفيذ رمز الاستدلال مفتوح المصدر لإعادة إنتاج نتائج التقييم لـ HPT على معايير مختلفة.
نقوم بإطلاق HPT 1.5 Edge كأحدث نموذج مفتوح المصادر مصممة خصيصًا لأجهزة Edge. على الرغم من حجمها (<5b) ، يوضح Edge قدرات رائعة بينما تكون فعالة للغاية. نقوم بإطلاق HPT 1.5 Edge علنًا في Huggingface و Github بموجب ترخيص Apache 2.0.

pip install -r requirements.txt
pip install -e .
يمكنك تنزيل أوزان النموذج من HF إلى [المسار المحلي] وتعيين global_model_path كـ [المسار المحلي] في ملف تكوين النموذج:
git lfs install
git clone https://huggingface.co/HyperGAI/HPT1_5-Edge [Local Path]
يمكنك أيضًا تعيين استراتيجيات أخرى في ملف التكوين الذي يختلف عن الإعدادات الافتراضية الخاصة بنا.
بعد إعداد ملف التكوين ، قم بتشغيل العرض التجريبي لتجربة سريعة:
python demo/demo.py --image_path [Image] --text [Text] --model [Config]
مثال:
python demo/demo.py --image_path demo/einstein.jpg --text 'What is unusual about this image?' --model hpt-edge-1-5
إطلاق النموذج للتقييم:
torchrun --nproc-per-node=8 run.py --data [Dataset] --model [Config]
مثال على حافة HPT 1.5:
torchrun --nproc-per-node=8 run.py --data MMMU_DEV_VAL --model hpt-edge-1-5
لـ HPT 1.5 EDGE

HPT 1.5 EDGE
PretRained LLM: PHI-3-MINI-4K-instruct
المشفر البصري المسبق: siglip-so400m-patch14-384
HPT 1.5 الهواء
PretRained LLM: LLAMA3-8B-instruct
المشفر البصري المسبق: siglip-so400m-patch14-384
HPT 1.0 الهواء
PretRained LLM: YI-6B-Chat
المشفر البصري المسبق: مقطع-large-patch14-336
لاحظ أن HPT Air هو إصدار مفتوح سريع لنماذجنا لتسهيل البحث المفتوح والمسؤول في الذكاء الاصطناعي وتنمية المجتمع. ليس لديها أي آلية الاعتدال ولا توفر أي ضمانات على نتائجها. نأمل أن نتعامل مع المجتمع لجعل النموذج يحترم بدقة الدرابزين للسماح بالتبني العملي في تطبيقات العالم الحقيقي التي تتطلب مخرجات معتدلة.
يتم إصدار هذا المشروع بموجب ترخيص Apache 2.0. تحتوي أجزاء من هذا المشروع على رمز ونماذج من مصادر أخرى ، والتي تخضع لتراخيص كل منها وتحتاج إلى تطبيق ترخيصها الخاص بكل منها إذا كنت ترغب في استخدامها لأغراض تجارية.
تم تمديد رمز التقييم لتشغيل هذا العرض التوضيحي بناءً على مشروع Vlmevalkit. نشكر أيضًا Openai على نماذج المشفرات المرئية مفتوحة المصدر ، 01.AI ، Meta و Microsoft على نماذج لغتها الكبيرة.