نحو MLLMs جديرة بالثقة عن طريق محاذاة السلوك من ردود الفعل البشرية الإصلاحية الدقيقة
يستضيف هذا المستودع الكود والبيانات ووزن النموذج لـ RLHF-V ، وهو إطار جديد يتوافق مع نماذج اللغة الكبيرة متعددة الوسائط (MLLMS) من خلال ردود الفعل البشرية الإصلاحية الدقيقة.
نجمع بيانات التغذية المرتدة الإصلاحية ذات الحبيبات الدقيقة ، والتي يمكن أن تنسب إلى السلوك المطلوب بشكل أفضل ، من خلال مطالبة المتواصلين البشريين بتصحيح الأجزاء الملموسة في الاستجابات النموذجية. يستفيد من كفاءة البيانات العالية ، ويستغرق الأمر ساعة واحدة فقط على 8 A100 وحدات معالجة الرسومات لنا لتقليل معدل الهلوسة في النموذج الأساسي بنسبة 34.8 ٪. على وجه التحديد ، نقوم بإجراء تجارب على الكعك ، وهو MLLM الذي لديه قدرة قوية في فهم الصور والتفكير الذي يتم تدريبه على unimm-chat.
زيارة لدينا؟ صفحة المشروع و؟ ورقة لاستكشاف المزيد! ولا تفوت تجربة العرض التجريبي التفاعلي!
نقدم RLHF-V-DATASET ، وهي مجموعة بيانات تفضيلات بشرية تم إنشاؤها بواسطة تصحيحات بشرية على مستوى القطعة. في الممارسة العملية ، نحصل على ما مجموعه 1.4 كيلو بايت البيانات المشروحة التي تتضمن مجموعة متنوعة من تعليمات الوصف التفصيلية وتعليمات الإجابة على الأسئلة.
نطلق أوزان نموذج RLHF-V على وجه المعانقة.
نقدم أيضًا أوزان SFT الخاصة بنا ، وهي نقطة تفتيش النموذج بعد الكعك في مجموعة بيانات VQAV2.
cd RLHF-V
git clone https://github.com/thunlp/muffin
cd Muffin
# Creating conda environment
conda create -n muffin python=3.10
conda activate muffin
# Installing dependencies
pip install -e .
# Install specific version of transformers to make sure you can reproduce the experimental results in our papers
git clone --recursive [email protected]:huggingface/transformers.git
cd transformers
git checkout a92e0ad2e20ef4ce28410b5e05c5d63a5a304e65
pip install .
cd ..تثبيت حزم إضافية إذا كنت بحاجة إلى التدريب.
git clone --recursive https://github.com/Dao-AILab/flash-attention.git
cd flash-attention
# Note: Uncomment the following line if you have CUDA version <= 11.4
# git checkout ad11394
MAX_JOBS=8 python setup.py install
cd ..لتشغيل تقييم الكائن Halbench ، تحتاج أيضًا إلى الحزم التالية:
jsonlines
nltk==3.8.1
spacy==3.7.0
# Download and install "en_core_web_trf" for spacy
# The wheel version we use can be downloaded from
# https://github.com/explosion/spacy-models/releases/tag/en_core_web_trf-3.7.2
# run pip install en_core_web_trf-3.7.2-py3-none-any.whl قم بتشغيل البرنامج النصي التالي لإنشاء وتقييم وتلخيص النتائج لمقعد LLAVA:
# cd RLHF-V
bash ./script/eval/eval_muffin_llavabench.sh ./RLHF-V_weight ./results/RLHF-V {YOUR_OPENAI_API_KEY}يعتمد تقييم الكائن Halbench على التعليقات التوضيحية للتسمية والتجزئة من مجموعة بيانات COCO2014. يرجى أولاً تنزيل مجموعة بيانات COCO2014 من موقع Coco DataSet الرسمي.
mkdir coco2014
cd coco2014
wget http://images.cocodataset.org/annotations/annotations_trainval2014.zip
unzip annotations_trainval2014.zip يرجى استبدال {YOUR_COCO2014_ANNOTATION_DIR} بمسار دليل التعليقات التوضيحية Coco2014 (على سبيل المثال ./coco2014/annotations ) ، واستبدل {YOUR_OPENAI_API_KEY} بمفتاح api openai صالح.
# cd RLHF-V
bash ./script/eval_muffin_objhal.sh ./RLHF-V_weight ./results/RLHF-V {YOUR_COCO2014_ANNOTATION_DIR} {YOUR_OPENAI_API_KEY} يرجى تنزيل بيانات تقييم MMHAL هنا ، وحفظ الملف في eval/data .
# cd RLHF-V
bash ./script/eval_muffin_mmhal.sh ./RLHF-V_weight ./results/RLHF-V {YOUR_OPENAI_API_KEY}يرجى اتباع التعليمات الواردة في قسم التثبيت لإعداد بيئة التدريب. وتأكد من الترقية إلى أحدث قاعدة كود من الكعك :
cd Muffin
git pull
pip install -e .
يرجى تنزيل نقطة تفتيش طراز SFT وحفظها إلى Muffin/RLHF-V_SFT_weight .
يرجى التأكد من الترقية إلى أحدث قاعدة رمز من الكعك . بعد تثبيت بيئة الكعك ، يمكنك تدريب النموذج الخاص بك على النحو التالي. سيقوم هذا البرنامج النصي تلقائيًا بتنزيل بيانات التدريب المفتوحة من المصادر من HuggingFace ، وإنشاء تسجيلات سجل بواسطة نموذج SFT الخاص بنا ، وتدريب DDPO:
cd Muffin
ref_model=./RLHF-V_SFT_weight
bash ./script/train/run_RLHFV.sh
./RLHFV_checkpoints/dpo_exp
master
RLHFV
1.1
$ref_model
./RLHF-V-Dataset
RLHFV_SFT
2160
360
0.1
False
Trueإشعارات الاستخدام والترخيص : يتم تحديد وترخيص البيانات والرمز ونقطة التفتيش للبحث فقط. وهي مقصورة أيضًا على الاستخدامات التي تتبع اتفاقية ترخيص Llama و Vicuna و Chat GPT. مجموعة البيانات هي CC بواسطة NC 4.0 (مما يسمح فقط بالاستخدام غير التجاري) ويجب عدم استخدام النماذج المدربة باستخدام مجموعة البيانات خارج أغراض البحث.
إذا وجدت طرازنا/الكود/البيانات/الورق مفيدة ، فيرجى مراعاة أوراقنا وتنشطنا ️!
@article { yu2023rlhf ,
title = { Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback } ,
author = { Yu, Tianyu and Yao, Yuan and Zhang, Haoye and He, Taiwen and Han, Yifeng and Cui, Ganqu and Hu, Jinyi and Liu, Zhiyuan and Zheng, Hai-Tao and Sun, Maosong and others } ,
journal = { arXiv preprint arXiv:2312.00849 } ,
year = { 2023 }
}
@article { yu2024rlaifv ,
title = { RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness } ,
author = { Yu, Tianyu and Zhang, Haoye and Yao, Yuan and Dang, Yunkai and Chen, Da and Lu, Xiaoman and Cui, Ganqu and He, Taiwen and Liu, Zhiyuan and Chua, Tat-Seng and Sun, Maosong } ,
journal = { arXiv preprint arXiv:2405.17220 } ,
year = { 2024 } ,
}