Unduh RLHF V - Unduh Kode Sumber RLHF V

RLHF V

Kode sumber lainnya

1.0.0

Unduh

Rlhf-v

Menuju MLLMS yang dapat dipercaya melalui penyelarasan perilaku dari umpan balik manusia yang berbutir halus

Pendahuluan singkat

Repositori ini meng-host kode, data, dan berat model RLHF-V , kerangka kerja baru yang menyelaraskan perilaku Model Bahasa Multimodal Besar (MLLM) melalui umpan balik manusia yang berbutir halus.

Kami mengumpulkan data umpan balik pemasyarakatan berbutir halus, yang dapat lebih menghargai perilaku yang diinginkan, dengan meminta annotator manusia untuk memperbaiki segmen berhalusinasi dalam respons model. Manfaat dari efisiensi data yang tinggi, hanya membutuhkan 1 jam pada 8 A100 GPU bagi kami untuk mengurangi tingkat halusinasi model dasar sebesar 34,8%. Secara khusus, kami melakukan percobaan pada muffin, sebuah MLLM yang memiliki kemampuan kuat dalam pemahaman dan penalaran gambar yang dilatih pada Unimm-Chat.

Kunjungi kami? halaman proyek dan? kertas untuk menjelajahi lebih banyak! Dan jangan lewatkan untuk mencoba demo interaktif kami!

?Berita

? Disematkan

[2024.05.28]? Kertas RLAIF-V kami dapat diakses di ARXIV sekarang!
[2024.05.20]? Kami memperkenalkan RLAIF-V, kerangka kerja perataan baru kami yang memanfaatkan model open-source untuk pembuatan umpan balik dan mencapai kepercayaan super GPT-4V . Anda dapat mengunduh dataset yang sesuai sekarang!

[2024.04.11] Data kami digunakan dalam MiniCPM-V 2.0, model bahasa multimoda sisi akhir yang menunjukkan kepercayaan yang sebanding dengan GPT-4V !
[2024.03.10]? RLHF-V kami diterima oleh CVPR 2024!
[2024.02.04] Omnilmm-12b yang dibangun dengan RLHF-V mencapai peringkat #1 di antara model open-source di mmhal-bench dan bahkan mengungguli GPT-4V pada objek Halbench! Demo ini dapat dilakukan di sini!
[2024.01.06] Rangkaian data koreksi manusia yang lebih besar dan lebih beragam tersedia di Hugging Face sekarang! Data yang baru dirilis memiliki sekitar 5,7 ribu data koreksi manusia berbutir halus yang mencakup output dari model yang lebih kuat (Qwen-VL-CHAT, InstructBlip, dll.). Kami juga memperluas jenis gambar dari adegan sehari -hari ke beragam gaya dan tema (wikiart, landmark, teks adegan, dll.).
[2023.12.15]? Kami menggabungkan subset baru dalam dataset pelukan kami! Ini berisi sejumlah 1.065 data preferensi manusia berbutir halus yang dianotasi pada output LLAVA-13B .
[2023.12.04]? Makalah kami dapat diakses di Arxiv sekarang. Kami masih bekerja keras untuk meningkatkan keragaman dan jumlah data. Data yang lebih tinggi hanya dalam perjalanan!

Isi

Dataset
Bobot rlhf-v
Memasang
Evaluasi
Pelatihan RLHF-V
Lisensi
Pengakuan

Dataset

Kami menyajikan Dataset RLHF-V, yang merupakan dataset preferensi manusia yang dibangun oleh koreksi manusia tingkat segmen berbutir halus. Dalam praktiknya, kami memperoleh total data beranotasi 1.4k yang mencakup beragam instruksi deskripsi terperinci dan instruksi jawaban pertanyaan.

Bobot rlhf-v

Kami melepaskan bobot model RLHF-V pada wajah memeluk.

Kami juga memberikan bobot SFT kami, yang merupakan pos pemeriksaan model setelah muffin finetuning pada dataset VQAV2.

Memasang

Pasang muffin

 cd RLHF-V
git clone https://github.com/thunlp/muffin

cd Muffin
# Creating conda environment
conda create -n muffin python=3.10
conda activate muffin

# Installing dependencies
pip install -e .

# Install specific version of transformers to make sure you can reproduce the experimental results in our papers
git clone --recursive [email protected]:huggingface/transformers.git
cd transformers
git checkout a92e0ad2e20ef4ce28410b5e05c5d63a5a304e65
pip install .
cd ..

Siapkan lingkungan pelatihan

Pasang paket tambahan jika Anda perlu melakukan pelatihan.

git clone --recursive https://github.com/Dao-AILab/flash-attention.git
cd flash-attention

# Note: Uncomment the following line if you have CUDA version <= 11.4
# git checkout ad11394

MAX_JOBS=8 python setup.py install
cd ..

Siapkan lingkungan evaluasi

Untuk menjalankan evaluasi Halbench Object, Anda juga memerlukan paket berikut:

jsonlines
nltk==3.8.1
spacy==3.7.0

# Download and install "en_core_web_trf" for spacy
# The wheel version we use can be downloaded from
# https://github.com/explosion/spacy-models/releases/tag/en_core_web_trf-3.7.2
# run pip install en_core_web_trf-3.7.2-py3-none-any.whl

Evaluasi

Bangku Llava

Jalankan skrip berikut untuk menghasilkan, mengevaluasi, dan merangkum hasil untuk bangku llava:

 # cd RLHF-V

bash ./script/eval/eval_muffin_llavabench.sh ./RLHF-V_weight ./results/RLHF-V {YOUR_OPENAI_API_KEY}

Objek Halbench

Siapkan anotasi COCO2014

Evaluasi Object Halbench bergantung pada keterangan dan anotasi segmentasi dari dataset COCO2014. Pertama -tama unduh Dataset Coco2014 dari situs web resmi Dataset Coco.

mkdir coco2014
cd coco2014

wget http://images.cocodataset.org/annotations/annotations_trainval2014.zip

unzip annotations_trainval2014.zip

Inferensi, evaluasi, dan peringkasan

Harap ganti {YOUR_COCO2014_ANNOTATION_DIR} dengan jalur untuk direktori anotasi coco2014 (mis ./coco2014/annotations ), dan ganti {YOUR_OPENAI_API_KEY} dengan opi-kunci openai yang valid.

 # cd RLHF-V

bash ./script/eval_muffin_objhal.sh ./RLHF-V_weight ./results/RLHF-V {YOUR_COCO2014_ANNOTATION_DIR} {YOUR_OPENAI_API_KEY}

Bangku mmhal

Siapkan data mmhal

Silakan unduh data evaluasi MMHAL di sini, dan simpan file dalam eval/data .

Jalankan skrip berikut untuk menghasilkan, mengevaluasi, dan merangkum hasil untuk bangku mmhal:

 # cd RLHF-V

bash ./script/eval_muffin_mmhal.sh ./RLHF-V_weight ./results/RLHF-V {YOUR_OPENAI_API_KEY}

Pelatihan RLHF-V

Persiapkan lingkungan

Harap ikuti instruksi di bagian Instal untuk menyiapkan lingkungan pelatihan. Dan pastikan untuk meningkatkan ke basis kode terbaru muffin :

 cd Muffin

git pull
pip install -e .

Siapkan Model Checkpoint

Silakan unduh SFT Model Checkpoint kami dan simpan ke Muffin/RLHF-V_SFT_weight .

Pelatihan

Pastikan untuk meningkatkan ke basis kode terbaru Muffin . Setelah memasang lingkungan muffin, Anda dapat melatih model Anda sebagai berikut. Skrip ini akan secara otomatis mengunduh data pelatihan open-source kami dari HuggingFace, menghasilkan logps dengan model SFT kami, dan melakukan pelatihan DDPO:

 cd Muffin

ref_model=./RLHF-V_SFT_weight

bash ./script/train/run_RLHFV.sh 
    ./RLHFV_checkpoints/dpo_exp 
    master 
    RLHFV 
    1.1 
    $ref_model 
    ./RLHF-V-Dataset 
    RLHFV_SFT 
    2160 
    360 
    0.1 
    False 
    True

Lisensi

Pemberitahuan Penggunaan dan Lisensi : Data, kode, dan pos pemeriksaan dimaksudkan dan dilisensikan hanya untuk penggunaan penelitian. Mereka juga terbatas pada penggunaan yang mengikuti perjanjian lisensi Llama, Vicuna, dan Obrolan GPT. Dataset adalah CC oleh NC 4.0 (hanya memungkinkan penggunaan non-komersial) dan model yang dilatih menggunakan dataset tidak boleh digunakan di luar tujuan penelitian.

Pengakuan

Muffin: Basis kode yang kami bangun.
LLAVA-RLHF: Kami menggunakan data mmhal-bench dan kode evaluasi yang dibangun oleh mereka.
Halusinasi objek: Kami merujuk pada kode evaluasi kursi yang termasuk dalam repositori.

Kutipan

Jika Anda menemukan model/kode/data/kertas kami bermanfaat, silakan pertimbangkan untuk mengutip makalah kami dan membintangi kami ️！

 @article { yu2023rlhf ,
  title = { Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback } ,
  author = { Yu, Tianyu and Yao, Yuan and Zhang, Haoye and He, Taiwen and Han, Yifeng and Cui, Ganqu and Hu, Jinyi and Liu, Zhiyuan and Zheng, Hai-Tao and Sun, Maosong and others } ,
  journal = { arXiv preprint arXiv:2312.00849 } ,
  year = { 2023 }
}

@article { yu2024rlaifv ,
  title = { RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness } , 
  author = { Yu, Tianyu and Zhang, Haoye and Yao, Yuan and Dang, Yunkai and Chen, Da and Lu, Xiaoman and Cui, Ganqu and He, Taiwen and Liu, Zhiyuan and Chua, Tat-Seng and Sun, Maosong } ,
  journal = { arXiv preprint arXiv:2405.17220 } ,
  year = { 2024 } ,
}

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-03-05
ukuran 71.99MB
Berasal dari Github

Aplikasi Terkait

Artefak pencarian gambar V

2023-03-20
Jaringan Novel Feilu V

2023-03-13
Rekrutmen Zhaopin V

2023-03-11
Tiket Cuaca V

2023-03-11
petarung jalanan V

2022-09-04
Medan Perang V

2022-09-03

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua