RLHF V Download - RLHF V Source Code Download

RLHF V

شفرة المصدر الأخرى

1.0.0

تنزيل

RLHF-V.

نحو MLLMs جديرة بالثقة عن طريق محاذاة السلوك من ردود الفعل البشرية الإصلاحية الدقيقة

مقدمة موجزة

يستضيف هذا المستودع الكود والبيانات ووزن النموذج لـ RLHF-V ، وهو إطار جديد يتوافق مع نماذج اللغة الكبيرة متعددة الوسائط (MLLMS) من خلال ردود الفعل البشرية الإصلاحية الدقيقة.

نجمع بيانات التغذية المرتدة الإصلاحية ذات الحبيبات الدقيقة ، والتي يمكن أن تنسب إلى السلوك المطلوب بشكل أفضل ، من خلال مطالبة المتواصلين البشريين بتصحيح الأجزاء الملموسة في الاستجابات النموذجية. يستفيد من كفاءة البيانات العالية ، ويستغرق الأمر ساعة واحدة فقط على 8 A100 وحدات معالجة الرسومات لنا لتقليل معدل الهلوسة في النموذج الأساسي بنسبة 34.8 ٪. على وجه التحديد ، نقوم بإجراء تجارب على الكعك ، وهو MLLM الذي لديه قدرة قوية في فهم الصور والتفكير الذي يتم تدريبه على unimm-chat.

زيارة لدينا؟ صفحة المشروع و؟ ورقة لاستكشاف المزيد! ولا تفوت تجربة العرض التجريبي التفاعلي!

؟أخبار

؟ مثبت

[2024.05.28]؟ ورقة RLAIF-V الخاصة بنا هي Accesible في Arxiv الآن!
[2024.05.20]؟ نقدم RLAIF-V ، إطار المحاذاة الجديد الذي يستخدم نماذج مفتوحة المصدر لتوليد التعليقات والوصول إلى ثقة Super GPT-4V . يمكنك تنزيل مجموعة البيانات المقابلة الآن!

[2024.04.11] يتم استخدام بياناتنا في MinicPM-V 2.0 ، وهو نموذج لغة كبير متعدد الوسائط يعرض جدارة بالثقة المقارنة مع GPT-4V !
[2024.03.10]؟ يتم قبول RLHF-V من قبل CVPR 2024!
[2024.02.04] يحقق Omnilmm-12b الذي تم تصميمه باستخدام RLHF-V المرتبة الأولى بين النماذج المفتوحة المصدر على مقاعد موم ، وحتى يتفوق على GPT-4V على كائن Halbench! العرض التوضيحي هو Avaible في هنا!
[2024.01.06] تتوفر مجموعة أكبر وأكثر تنوعًا من بيانات التصحيح البشري الدقيق في وجه المعانقة الآن! تحتوي البيانات التي تم إصدارها حديثًا على حوالي 5.7 ألف من بيانات التصحيح البشري الدقيق التي تغطي إخراج النماذج الأكثر قوة (Qwen-VL-Chat ، instructBlip ، إلخ). نقوم أيضًا بتوسيع أنواع الصور من المشاهد اليومية إلى أنماط ومواضيع متنوعة (ويكيارت ، المعالم ، نصوص المشهد ، إلخ).
[2023.12.15]؟ ندمج مجموعة فرعية جديدة في مجموعة بيانات Huggingface الخاصة بنا! أنه يحتوي على كمية من 1065 بيانات تفضيل الإنسان الدقيقة المحببة المشروحة على مخرجات LLAVA-13B .
[2023.12.04]؟ ورقةنا محددة في Arxiv الآن. ما زلنا نعمل بجد لتحسين تنوع البيانات وكمية . المزيد من البيانات عالية القلق في الطريق فقط!

محتويات

مجموعة البيانات
الأوزان RLHF-V
ثَبَّتَ
تقييم
RLHF-V التدريب
التراخيص
شكر وتقدير

مجموعة البيانات

نقدم RLHF-V-DATASET ، وهي مجموعة بيانات تفضيلات بشرية تم إنشاؤها بواسطة تصحيحات بشرية على مستوى القطعة. في الممارسة العملية ، نحصل على ما مجموعه 1.4 كيلو بايت البيانات المشروحة التي تتضمن مجموعة متنوعة من تعليمات الوصف التفصيلية وتعليمات الإجابة على الأسئلة.

الأوزان RLHF-V

نطلق أوزان نموذج RLHF-V على وجه المعانقة.

نقدم أيضًا أوزان SFT الخاصة بنا ، وهي نقطة تفتيش النموذج بعد الكعك في مجموعة بيانات VQAV2.

ثَبَّتَ

تثبيت الكعك

 cd RLHF-V
git clone https://github.com/thunlp/muffin

cd Muffin
# Creating conda environment
conda create -n muffin python=3.10
conda activate muffin

# Installing dependencies
pip install -e .

# Install specific version of transformers to make sure you can reproduce the experimental results in our papers
git clone --recursive [email protected]:huggingface/transformers.git
cd transformers
git checkout a92e0ad2e20ef4ce28410b5e05c5d63a5a304e65
pip install .
cd ..

إعداد بيئة التدريب

تثبيت حزم إضافية إذا كنت بحاجة إلى التدريب.

git clone --recursive https://github.com/Dao-AILab/flash-attention.git
cd flash-attention

# Note: Uncomment the following line if you have CUDA version <= 11.4
# git checkout ad11394

MAX_JOBS=8 python setup.py install
cd ..

إعداد بيئة التقييم

لتشغيل تقييم الكائن Halbench ، تحتاج أيضًا إلى الحزم التالية:

jsonlines
nltk==3.8.1
spacy==3.7.0

# Download and install "en_core_web_trf" for spacy
# The wheel version we use can be downloaded from
# https://github.com/explosion/spacy-models/releases/tag/en_core_web_trf-3.7.2
# run pip install en_core_web_trf-3.7.2-py3-none-any.whl

تقييم

Llava مقعد

قم بتشغيل البرنامج النصي التالي لإنشاء وتقييم وتلخيص النتائج لمقعد LLAVA:

 # cd RLHF-V

bash ./script/eval/eval_muffin_llavabench.sh ./RLHF-V_weight ./results/RLHF-V {YOUR_OPENAI_API_KEY}

كائن Halbench

إعداد التعليقات التوضيحية COCO2014

يعتمد تقييم الكائن Halbench على التعليقات التوضيحية للتسمية والتجزئة من مجموعة بيانات COCO2014. يرجى أولاً تنزيل مجموعة بيانات COCO2014 من موقع Coco DataSet الرسمي.

mkdir coco2014
cd coco2014

wget http://images.cocodataset.org/annotations/annotations_trainval2014.zip

unzip annotations_trainval2014.zip

الاستدلال والتقييم والتلخيص

يرجى استبدال {YOUR_COCO2014_ANNOTATION_DIR} بمسار دليل التعليقات التوضيحية Coco2014 (على سبيل المثال ./coco2014/annotations ) ، واستبدل {YOUR_OPENAI_API_KEY} بمفتاح api openai صالح.

 # cd RLHF-V

bash ./script/eval_muffin_objhal.sh ./RLHF-V_weight ./results/RLHF-V {YOUR_COCO2014_ANNOTATION_DIR} {YOUR_OPENAI_API_KEY}

مقعد ممول

إعداد بيانات mmhal

يرجى تنزيل بيانات تقييم MMHAL هنا ، وحفظ الملف في eval/data .

قم بتشغيل البرنامج النصي التالي لإنشاء وتقييم وتلخيص نتائج مقعد MMHAL:

 # cd RLHF-V

bash ./script/eval_muffin_mmhal.sh ./RLHF-V_weight ./results/RLHF-V {YOUR_OPENAI_API_KEY}

RLHF-V التدريب

إعداد البيئة

يرجى اتباع التعليمات الواردة في قسم التثبيت لإعداد بيئة التدريب. وتأكد من الترقية إلى أحدث قاعدة كود من الكعك :

 cd Muffin

git pull
pip install -e .

إعداد نقطة التفتيش النموذج

يرجى تنزيل نقطة تفتيش طراز SFT وحفظها إلى Muffin/RLHF-V_SFT_weight .

تمرين

يرجى التأكد من الترقية إلى أحدث قاعدة رمز من الكعك . بعد تثبيت بيئة الكعك ، يمكنك تدريب النموذج الخاص بك على النحو التالي. سيقوم هذا البرنامج النصي تلقائيًا بتنزيل بيانات التدريب المفتوحة من المصادر من HuggingFace ، وإنشاء تسجيلات سجل بواسطة نموذج SFT الخاص بنا ، وتدريب DDPO:

 cd Muffin

ref_model=./RLHF-V_SFT_weight

bash ./script/train/run_RLHFV.sh 
    ./RLHFV_checkpoints/dpo_exp 
    master 
    RLHFV 
    1.1 
    $ref_model 
    ./RLHF-V-Dataset 
    RLHFV_SFT 
    2160 
    360 
    0.1 
    False 
    True

التراخيص

إشعارات الاستخدام والترخيص : يتم تحديد وترخيص البيانات والرمز ونقطة التفتيش للبحث فقط. وهي مقصورة أيضًا على الاستخدامات التي تتبع اتفاقية ترخيص Llama و Vicuna و Chat GPT. مجموعة البيانات هي CC بواسطة NC 4.0 (مما يسمح فقط بالاستخدام غير التجاري) ويجب عدم استخدام النماذج المدربة باستخدام مجموعة البيانات خارج أغراض البحث.

شكر وتقدير

Muffin: قاعدة الشفرة التي بنينا عليها.
LLAVA-RLHF: نستخدم بيانات MMHAL-BECK ورمز التقييم الذي تم إنشاؤه من قبلهم.
الهلوسة الكائن: نشير إلى رمز تقييم الكرسي المدرج في المستودع.

اقتباس

إذا وجدت طرازنا/الكود/البيانات/الورق مفيدة ، فيرجى مراعاة أوراقنا وتنشطنا ️！

 @article { yu2023rlhf ,
  title = { Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback } ,
  author = { Yu, Tianyu and Yao, Yuan and Zhang, Haoye and He, Taiwen and Han, Yifeng and Cui, Ganqu and Hu, Jinyi and Liu, Zhiyuan and Zheng, Hai-Tao and Sun, Maosong and others } ,
  journal = { arXiv preprint arXiv:2312.00849 } ,
  year = { 2023 }
}

@article { yu2024rlaifv ,
  title = { RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness } , 
  author = { Yu, Tianyu and Zhang, Haoye and Yao, Yuan and Dang, Yunkai and Chen, Da and Lu, Xiaoman and Cui, Ganqu and He, Taiwen and Liu, Zhiyuan and Chua, Tat-Seng and Sun, Maosong } ,
  journal = { arXiv preprint arXiv:2405.17220 } ,
  year = { 2024 } ,
}

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-03-05
الحجم 71.99MB
من Github

تطبيقات ذات صلة

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل

RLHF V

RLHF-V.

مقدمة موجزة

؟أخبار

؟ مثبت

محتويات

مجموعة البيانات

الأوزان RLHF-V

ثَبَّتَ

تقييم

Llava مقعد

كائن Halbench

مقعد ممول

RLHF-V التدريب

التراخيص

شكر وتقدير

اقتباس

قطعة أثرية للبحث عن الصور V

شبكة رواية Feilu V

تشاوبين للتوظيف V

ممر الطقس V

ستريت فايتر V

ساحة المعركة V

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express