ต่อ MLLMs ที่น่าเชื่อถือผ่านการจัดตำแหน่งพฤติกรรมจากข้อเสนอแนะของมนุษย์ที่มีความละเอียด
ที่เก็บนี้เป็นโฮสต์รหัสข้อมูลและแบบจำลองน้ำหนักของ RLHF-V ซึ่งเป็นกรอบใหม่ที่จัดแนวพฤติกรรมภาษาขนาดใหญ่หลายรูปแบบ (MLLMS) ผ่านการตอบรับของมนุษย์
เรารวบรวมข้อมูลข้อเสนอแนะราชทัณฑ์ที่มีความละเอียดซึ่งสามารถให้เครดิตพฤติกรรมที่ต้องการได้ดีขึ้นโดยขอให้ผู้อธิบายความคิดเห็นของมนุษย์แก้ไขกลุ่มภาพหลอนในการตอบสนองแบบจำลอง ได้รับประโยชน์จากประสิทธิภาพของข้อมูลที่สูงใช้เวลาเพียง 1 ชั่วโมงใน 8 A100 GPU สำหรับเราในการลดอัตราการหลอนของโมเดลพื้นฐาน 34.8% โดยเฉพาะเราทำการทดลองเกี่ยวกับ MUFFIN ซึ่งเป็น MLLM ที่มีความสามารถในการทำความเข้าใจภาพและการใช้เหตุผลที่ได้รับการฝึกฝนเกี่ยวกับ UNIMM-Chat
เยี่ยมชมของเรา? หน้าโครงการและ? กระดาษเพื่อสำรวจเพิ่มเติม! และอย่าพลาดที่จะลองสาธิตการโต้ตอบของเรา!
เรานำเสนอ RLHF-V-Dataset ซึ่งเป็นชุดข้อมูลการตั้งค่าของมนุษย์ที่สร้างขึ้นโดยการแก้ไขระดับของมนุษย์ในระดับละเอียด ในทางปฏิบัติเราได้รับข้อมูลคำอธิบายประกอบ 1.4K ทั้งหมดซึ่งรวมถึงชุดคำอธิบายรายละเอียดที่หลากหลายและคำแนะนำในการตอบคำถาม
เราปล่อยน้ำหนักรุ่น RLHF-V บนใบหน้ากอด
นอกจากนี้เรายังให้น้ำหนัก SFT ของเราซึ่งเป็นจุดตรวจสอบแบบจำลองหลังจาก muffin finetuning บนชุดข้อมูล VQAV2
cd RLHF-V
git clone https://github.com/thunlp/muffin
cd Muffin
# Creating conda environment
conda create -n muffin python=3.10
conda activate muffin
# Installing dependencies
pip install -e .
# Install specific version of transformers to make sure you can reproduce the experimental results in our papers
git clone --recursive [email protected]:huggingface/transformers.git
cd transformers
git checkout a92e0ad2e20ef4ce28410b5e05c5d63a5a304e65
pip install .
cd ..ติดตั้งแพ็คเกจเพิ่มเติมหากคุณต้องการฝึกอบรม
git clone --recursive https://github.com/Dao-AILab/flash-attention.git
cd flash-attention
# Note: Uncomment the following line if you have CUDA version <= 11.4
# git checkout ad11394
MAX_JOBS=8 python setup.py install
cd ..ในการเรียกใช้การประเมินผลของ Halbench คุณยังต้องใช้แพ็คเกจต่อไปนี้:
jsonlines
nltk==3.8.1
spacy==3.7.0
# Download and install "en_core_web_trf" for spacy
# The wheel version we use can be downloaded from
# https://github.com/explosion/spacy-models/releases/tag/en_core_web_trf-3.7.2
# run pip install en_core_web_trf-3.7.2-py3-none-any.whl เรียกใช้สคริปต์ต่อไปนี้เพื่อสร้างประเมินและสรุปผลลัพธ์สำหรับ Bench LLAVA:
# cd RLHF-V
bash ./script/eval/eval_muffin_llavabench.sh ./RLHF-V_weight ./results/RLHF-V {YOUR_OPENAI_API_KEY}การประเมินผลของวัตถุ Halbench ขึ้นอยู่กับคำอธิบายภาพและคำอธิบายประกอบการแบ่งส่วนจากชุดข้อมูล COCO2014 โปรดดาวน์โหลดชุดข้อมูล COCO2014 ก่อนจากเว็บไซต์ทางการของ Coco Dataset
mkdir coco2014
cd coco2014
wget http://images.cocodataset.org/annotations/annotations_trainval2014.zip
unzip annotations_trainval2014.zip โปรดแทนที่ {YOUR_COCO2014_ANNOTATION_DIR} ด้วยเส้นทางสำหรับไดเรกทอรีคำอธิบายประกอบ Coco2014 (เช่น ./coco2014/annotations coco2014/annotations) และแทนที่ {YOUR_OPENAI_API_KEY} ด้วย openai api-key ที่ถูกต้อง
# cd RLHF-V
bash ./script/eval_muffin_objhal.sh ./RLHF-V_weight ./results/RLHF-V {YOUR_COCO2014_ANNOTATION_DIR} {YOUR_OPENAI_API_KEY} โปรดดาวน์โหลดข้อมูลการประเมิน MMHAL ที่นี่และบันทึกไฟล์ใน eval/data
# cd RLHF-V
bash ./script/eval_muffin_mmhal.sh ./RLHF-V_weight ./results/RLHF-V {YOUR_OPENAI_API_KEY}โปรดทำตามคำแนะนำในส่วนการติดตั้งเพื่อเตรียมสภาพแวดล้อมการฝึกอบรม และตรวจสอบให้แน่ใจว่าได้ อัพเกรดเป็นฐานรหัสล่าสุดของมัฟฟิน :
cd Muffin
git pull
pip install -e .
โปรดดาวน์โหลดจุดตรวจสอบ SFT Model ของเราและบันทึกลงใน Muffin/RLHF-V_SFT_weight
โปรดตรวจสอบให้แน่ใจว่าได้ อัพเกรดเป็นฐานรหัสล่าสุดของมัฟฟิน หลังจากติดตั้งสภาพแวดล้อมของมัฟฟินคุณสามารถฝึกอบรมโมเดลของคุณได้ดังนี้ สคริปต์นี้จะดาวน์โหลดข้อมูลการฝึกอบรมที่เปิดโล่งของเราโดยอัตโนมัติจาก HuggingFace สร้าง LOGPS โดยโมเดล SFT ของเราและทำการฝึกอบรม DDPO:
cd Muffin
ref_model=./RLHF-V_SFT_weight
bash ./script/train/run_RLHFV.sh
./RLHFV_checkpoints/dpo_exp
master
RLHFV
1.1
$ref_model
./RLHF-V-Dataset
RLHFV_SFT
2160
360
0.1
False
Trueประกาศการใช้งานและใบอนุญาต : ข้อมูลรหัสและจุดตรวจสอบมีวัตถุประสงค์และได้รับอนุญาตสำหรับการใช้งานวิจัยเท่านั้น พวกเขายังถูก จำกัด ให้ใช้ที่ทำตามข้อตกลงใบอนุญาตของ Llama, Vicuna และแชท GPT ชุดข้อมูลคือ CC โดย NC 4.0 (อนุญาตให้ใช้งานที่ไม่ใช่เชิงพาณิชย์เท่านั้น) และแบบจำลองที่ผ่านการฝึกอบรมโดยใช้ชุดข้อมูลไม่ควรใช้นอกวัตถุประสงค์ในการวิจัย
หากคุณพบว่าโมเดล/รหัส/ข้อมูล/กระดาษของเรามีประโยชน์โปรดพิจารณาอ้างอิงเอกสารของเราและแสดงเรา️!
@article { yu2023rlhf ,
title = { Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback } ,
author = { Yu, Tianyu and Yao, Yuan and Zhang, Haoye and He, Taiwen and Han, Yifeng and Cui, Ganqu and Hu, Jinyi and Liu, Zhiyuan and Zheng, Hai-Tao and Sun, Maosong and others } ,
journal = { arXiv preprint arXiv:2312.00849 } ,
year = { 2023 }
}
@article { yu2024rlaifv ,
title = { RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness } ,
author = { Yu, Tianyu and Zhang, Haoye and Yao, Yuan and Dang, Yunkai and Chen, Da and Lu, Xiaoman and Cui, Ganqu and He, Taiwen and Liu, Zhiyuan and Chua, Tat-Seng and Sun, Maosong } ,
journal = { arXiv preprint arXiv:2405.17220 } ,
year = { 2024 } ,
}