ดาวน์โหลด RLHF V - RLHF V ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

RLHF V

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

RLHF-V

ต่อ MLLMs ที่น่าเชื่อถือผ่านการจัดตำแหน่งพฤติกรรมจากข้อเสนอแนะของมนุษย์ที่มีความละเอียด

บทนำสั้น ๆ

ที่เก็บนี้เป็นโฮสต์รหัสข้อมูลและแบบจำลองน้ำหนักของ RLHF-V ซึ่งเป็นกรอบใหม่ที่จัดแนวพฤติกรรมภาษาขนาดใหญ่หลายรูปแบบ (MLLMS) ผ่านการตอบรับของมนุษย์

เรารวบรวมข้อมูลข้อเสนอแนะราชทัณฑ์ที่มีความละเอียดซึ่งสามารถให้เครดิตพฤติกรรมที่ต้องการได้ดีขึ้นโดยขอให้ผู้อธิบายความคิดเห็นของมนุษย์แก้ไขกลุ่มภาพหลอนในการตอบสนองแบบจำลอง ได้รับประโยชน์จากประสิทธิภาพของข้อมูลที่สูงใช้เวลาเพียง 1 ชั่วโมงใน 8 A100 GPU สำหรับเราในการลดอัตราการหลอนของโมเดลพื้นฐาน 34.8% โดยเฉพาะเราทำการทดลองเกี่ยวกับ MUFFIN ซึ่งเป็น MLLM ที่มีความสามารถในการทำความเข้าใจภาพและการใช้เหตุผลที่ได้รับการฝึกฝนเกี่ยวกับ UNIMM-Chat

เยี่ยมชมของเรา? หน้าโครงการและ? กระดาษเพื่อสำรวจเพิ่มเติม! และอย่าพลาดที่จะลองสาธิตการโต้ตอบของเรา!

?ข่าว

- ที่ถูกตรึง

[2024.05.28]? กระดาษ RLAIF-V ของเราสามารถเข้าถึงได้ที่ arxiv ตอนนี้!
[2024.05.20]? เราแนะนำ RLAIF-V ซึ่งเป็นกรอบการจัดตำแหน่งใหม่ของเราที่ใช้โมเดลโอเพนซอร์ซสำหรับการสร้างข้อเสนอแนะและเข้าถึง ความน่าเชื่อถือ Super GPT-4V คุณสามารถดาวน์โหลดชุดข้อมูลที่เกี่ยวข้องได้ทันที!

[2024.04.11] ข้อมูลของเราถูกใช้ใน MinICPM-V 2.0 ซึ่งเป็นแบบจำลองภาษาขนาดใหญ่ หลายด้าน ที่แสดงถึง ความน่าเชื่อถือที่เทียบเท่ากับ GPT-4V !
[2024.03.10]? RLHF-V ของเราได้รับการยอมรับจาก CVPR 2024!
[2024.02.04] OMNILMM-12B ซึ่งสร้างขึ้นด้วย RLHF-V ได้รับ อันดับ #1 ในรุ่นโอเพ่นซอร์สบน MMHAL-BENCH และแม้แต่ ดีกว่า GPT-4V บน Object Halbench! การสาธิตนั้นสามารถใช้ได้ที่นี่!
[2024.01.06] ชุดข้อมูลการแก้ไขของมนุษย์ที่มีขนาด ใหญ่และมีความหลากหลายมากขึ้น มีให้บริการที่ Hugging Face ตอนนี้! ข้อมูลที่เพิ่งเปิดตัวใหม่มีข้อมูลการแก้ไขของมนุษย์ที่มีความละเอียดประมาณ 5.7k ซึ่งครอบคลุม เอาท์พุทของโมเดลที่ทรงพลังกว่า (Qwen-Vl-Chat, InstructBlip ฯลฯ ) นอกจากนี้เรายังขยายประเภทภาพจากฉากในชีวิตประจำวันไปสู่ สไตล์และธีมที่หลากหลาย (Wikiart, สถานที่สำคัญ, ข้อความฉาก ฯลฯ )
[2023.12.15]? เรารวมชุดย่อยใหม่ในชุดข้อมูล HuggingFace ของเรา! มันมีจำนวน ข้อมูลการตั้งค่าของมนุษย์ที่มีความละเอียด 1,065 ราย ที่มีคำอธิบายประกอบในผลลัพธ์ของ LLAVA-13B
[2023.12.04]? กระดาษของเราสามารถเข้าถึงได้ที่ arxiv ตอนนี้ เรายังคงทำงานอย่างหนักเพื่อปรับปรุง ความหลากหลายของ ข้อมูลและ จำนวนเงิน ข้อมูล qulity ที่สูงขึ้นกำลังจะมาถึง!

สารบัญ

ชุดข้อมูล
น้ำหนัก RLHF-V
ติดตั้ง
การประเมิน
การฝึกอบรม RLHF-V
ใบอนุญาต
การรับทราบ

ชุดข้อมูล

เรานำเสนอ RLHF-V-Dataset ซึ่งเป็นชุดข้อมูลการตั้งค่าของมนุษย์ที่สร้างขึ้นโดยการแก้ไขระดับของมนุษย์ในระดับละเอียด ในทางปฏิบัติเราได้รับข้อมูลคำอธิบายประกอบ 1.4K ทั้งหมดซึ่งรวมถึงชุดคำอธิบายรายละเอียดที่หลากหลายและคำแนะนำในการตอบคำถาม

น้ำหนัก RLHF-V

เราปล่อยน้ำหนักรุ่น RLHF-V บนใบหน้ากอด

นอกจากนี้เรายังให้น้ำหนัก SFT ของเราซึ่งเป็นจุดตรวจสอบแบบจำลองหลังจาก muffin finetuning บนชุดข้อมูล VQAV2

ติดตั้ง

ติดตั้งมัฟฟิน

 cd RLHF-V
git clone https://github.com/thunlp/muffin

cd Muffin
# Creating conda environment
conda create -n muffin python=3.10
conda activate muffin

# Installing dependencies
pip install -e .

# Install specific version of transformers to make sure you can reproduce the experimental results in our papers
git clone --recursive [email protected]:huggingface/transformers.git
cd transformers
git checkout a92e0ad2e20ef4ce28410b5e05c5d63a5a304e65
pip install .
cd ..

เตรียมสภาพแวดล้อมการฝึกอบรม

ติดตั้งแพ็คเกจเพิ่มเติมหากคุณต้องการฝึกอบรม

git clone --recursive https://github.com/Dao-AILab/flash-attention.git
cd flash-attention

# Note: Uncomment the following line if you have CUDA version <= 11.4
# git checkout ad11394

MAX_JOBS=8 python setup.py install
cd ..

เตรียมสภาพแวดล้อมการประเมินผล

ในการเรียกใช้การประเมินผลของ Halbench คุณยังต้องใช้แพ็คเกจต่อไปนี้:

jsonlines
nltk==3.8.1
spacy==3.7.0

# Download and install "en_core_web_trf" for spacy
# The wheel version we use can be downloaded from
# https://github.com/explosion/spacy-models/releases/tag/en_core_web_trf-3.7.2
# run pip install en_core_web_trf-3.7.2-py3-none-any.whl

การประเมิน

ม้านั่ง Llava

เรียกใช้สคริปต์ต่อไปนี้เพื่อสร้างประเมินและสรุปผลลัพธ์สำหรับ Bench LLAVA:

 # cd RLHF-V

bash ./script/eval/eval_muffin_llavabench.sh ./RLHF-V_weight ./results/RLHF-V {YOUR_OPENAI_API_KEY}

วัตถุ Halbench

เตรียมคำอธิบายประกอบ Coco2014

การประเมินผลของวัตถุ Halbench ขึ้นอยู่กับคำอธิบายภาพและคำอธิบายประกอบการแบ่งส่วนจากชุดข้อมูล COCO2014 โปรดดาวน์โหลดชุดข้อมูล COCO2014 ก่อนจากเว็บไซต์ทางการของ Coco Dataset

mkdir coco2014
cd coco2014

wget http://images.cocodataset.org/annotations/annotations_trainval2014.zip

unzip annotations_trainval2014.zip

การอนุมานการประเมินและการสรุป

โปรดแทนที่ {YOUR_COCO2014_ANNOTATION_DIR} ด้วยเส้นทางสำหรับไดเรกทอรีคำอธิบายประกอบ Coco2014 (เช่น ./coco2014/annotations coco2014/annotations) และแทนที่ {YOUR_OPENAI_API_KEY} ด้วย openai api-key ที่ถูกต้อง

 # cd RLHF-V

bash ./script/eval_muffin_objhal.sh ./RLHF-V_weight ./results/RLHF-V {YOUR_COCO2014_ANNOTATION_DIR} {YOUR_OPENAI_API_KEY}

ม้านั่ง

เตรียมข้อมูล mmhal

โปรดดาวน์โหลดข้อมูลการประเมิน MMHAL ที่นี่และบันทึกไฟล์ใน eval/data

เรียกใช้สคริปต์ต่อไปนี้เพื่อสร้างประเมินและสรุปผลลัพธ์สำหรับม้านั่ง mmhal:

 # cd RLHF-V

bash ./script/eval_muffin_mmhal.sh ./RLHF-V_weight ./results/RLHF-V {YOUR_OPENAI_API_KEY}

การฝึกอบรม RLHF-V

เตรียมสภาพแวดล้อม

โปรดทำตามคำแนะนำในส่วนการติดตั้งเพื่อเตรียมสภาพแวดล้อมการฝึกอบรม และตรวจสอบให้แน่ใจว่าได้ อัพเกรดเป็นฐานรหัสล่าสุดของมัฟฟิน :

 cd Muffin

git pull
pip install -e .

เตรียมจุดตรวจสอบรุ่น

โปรดดาวน์โหลดจุดตรวจสอบ SFT Model ของเราและบันทึกลงใน Muffin/RLHF-V_SFT_weight

การฝึกอบรม

โปรดตรวจสอบให้แน่ใจว่าได้ อัพเกรดเป็นฐานรหัสล่าสุดของมัฟฟิน หลังจากติดตั้งสภาพแวดล้อมของมัฟฟินคุณสามารถฝึกอบรมโมเดลของคุณได้ดังนี้ สคริปต์นี้จะดาวน์โหลดข้อมูลการฝึกอบรมที่เปิดโล่งของเราโดยอัตโนมัติจาก HuggingFace สร้าง LOGPS โดยโมเดล SFT ของเราและทำการฝึกอบรม DDPO:

 cd Muffin

ref_model=./RLHF-V_SFT_weight

bash ./script/train/run_RLHFV.sh 
    ./RLHFV_checkpoints/dpo_exp 
    master 
    RLHFV 
    1.1 
    $ref_model 
    ./RLHF-V-Dataset 
    RLHFV_SFT 
    2160 
    360 
    0.1 
    False 
    True

ใบอนุญาต

ประกาศการใช้งานและใบอนุญาต : ข้อมูลรหัสและจุดตรวจสอบมีวัตถุประสงค์และได้รับอนุญาตสำหรับการใช้งานวิจัยเท่านั้น พวกเขายังถูก จำกัด ให้ใช้ที่ทำตามข้อตกลงใบอนุญาตของ Llama, Vicuna และแชท GPT ชุดข้อมูลคือ CC โดย NC 4.0 (อนุญาตให้ใช้งานที่ไม่ใช่เชิงพาณิชย์เท่านั้น) และแบบจำลองที่ผ่านการฝึกอบรมโดยใช้ชุดข้อมูลไม่ควรใช้นอกวัตถุประสงค์ในการวิจัย

การรับทราบ

มัฟฟิน: รหัสฐานที่เราสร้างขึ้น
LLAVA-RLHF: เราใช้ข้อมูล MMHAL-BENCH และรหัสการประเมินผลที่สร้างขึ้นโดยพวกเขา
ภาพหลอนวัตถุ: เราอ้างถึงรหัสการประเมินเก้าอี้ที่รวมอยู่ในที่เก็บ

การอ้างอิง

หากคุณพบว่าโมเดล/รหัส/ข้อมูล/กระดาษของเรามีประโยชน์โปรดพิจารณาอ้างอิงเอกสารของเราและแสดงเรา️！

 @article { yu2023rlhf ,
  title = { Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback } ,
  author = { Yu, Tianyu and Yao, Yuan and Zhang, Haoye and He, Taiwen and Han, Yifeng and Cui, Ganqu and Hu, Jinyi and Liu, Zhiyuan and Zheng, Hai-Tao and Sun, Maosong and others } ,
  journal = { arXiv preprint arXiv:2312.00849 } ,
  year = { 2023 }
}

@article { yu2024rlaifv ,
  title = { RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness } , 
  author = { Yu, Tianyu and Zhang, Haoye and Yao, Yuan and Dang, Yunkai and Chen, Da and Lu, Xiaoman and Cui, Ganqu and He, Taiwen and Liu, Zhiyuan and Chua, Tat-Seng and Sun, Maosong } ,
  journal = { arXiv preprint arXiv:2405.17220 } ,
  year = { 2024 } ,
}

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-03-05
ขนาด 71.99MB
มาจาก Github

แอปที่เกี่ยวข้อง

สิ่งประดิษฐ์การค้นหารูปภาพ V

2023-03-20
Feilu Novel Network V

2023-03-13
จัดหางาน Zhaopin V

2023-03-11
สภาพอากาศผ่าน V

2023-03-11
สตรีทไฟท์เตอร์ V

2022-09-04
สนามรบ V

2022-09-03

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด