RLHF V下载RLHF V源代码下载

RLHF V

其他源码

1.0.0

下载

RLHF-V

通过精细元素矫正人类反馈的行为对齐来朝着值得信赖的MLLM

简介

该存储库托管RLHF-V的代码，数据和模型权重，RLHF-V是一个新颖的框架，该框架通过细粒度的校正人类反馈来对齐多模式大语言模型（MLLMS）行为。

我们通过要求人类注释者纠正模型响应中的幻觉片段来收集细粒度的矫正反馈数据，可以更好地相信所需的行为。从高数据效率中受益，我们在8个A100 GPU中只需要1小时才能将基本模型的幻觉速度降低34.8％。具体而言，我们对松饼进行实验，松饼是一种在图像理解和推理方面具有强大能力的MLLM，该MLLM在UNIMM-CHAT上接受了训练。

拜访我们的？项目页面和？纸探索更多！而且不要错过尝试我们的互动演示！

？消息

？固定

[2024.05.28]？现在，我们的RLAIF-V纸在Arxiv上可以加入！
[2024.05.20]？我们介绍了RLAIF-V，这是我们的新对齐框架，该框架利用开源模型进行反馈生成并达到超级GPT-4V的可信度。您现在可以下载相应的数据集！

[2024.04.11]我们的数据用于MiniCPM-V 2.0，这是一种端侧多模式模型，与GPT-4V具有可比的可信度！
[2024.03.10]？我们的RLHF-V被CVPR 2024接受！
[2024.02.04]使用RLHF-V构建的Omnilmm-12b在MMHAL板凳上的开源模型中获得排名第一，甚至在Object Halbench上均优于GPT-4V ！演示在这里是可用的！
[2024.01.06]现在，拥抱面孔可以使用一组更大，更多样化的细粒度人类校正数据！新发布的数据具有约5.7 k的细粒校正数据，涵盖了功能更强大的模型（QWEN-VL-CHAT，CONSTIONBLIP等）的输出。我们还将图像类型从日常场景扩展到各种样式和主题（Wikiart，Landmarks，场景文本等）。
[2023.12.15]？我们在拥抱面数据集中合并了一个新子集！它包含在LLAVA-13B输出上注释的1,065个细粒度人类偏好数据。
[2023.12.04]？我们的论文现在可以在Arxiv上获得。我们仍在努力改善数据多样性和数量。更多的高问题数据就在路上！

内容

数据集
RLHF-V权重
安装
评估
RLHF-V培训
许可证
致谢

数据集

我们介绍RLHF-V-DATASET，它是由细分细分级人类校正构建的人类偏好数据集。实际上，我们总共获得了1.4K注释的数据，其中包括一套详细的描述说明和提问说明。

RLHF-V权重

我们在拥抱脸上释放RLHF-V型号的权重。

我们还提供SFT权重，这是VQAV2数据集上的Finetuning松饼后的模型检查点。

安装

安装松饼

 cd RLHF-V
git clone https://github.com/thunlp/muffin

cd Muffin
# Creating conda environment
conda create -n muffin python=3.10
conda activate muffin

# Installing dependencies
pip install -e .

# Install specific version of transformers to make sure you can reproduce the experimental results in our papers
git clone --recursive [email protected]:huggingface/transformers.git
cd transformers
git checkout a92e0ad2e20ef4ce28410b5e05c5d63a5a304e65
pip install .
cd ..

准备培训环境

如果需要进行培训，请安装其他软件包。

git clone --recursive https://github.com/Dao-AILab/flash-attention.git
cd flash-attention

# Note: Uncomment the following line if you have CUDA version <= 11.4
# git checkout ad11394

MAX_JOBS=8 python setup.py install
cd ..

准备评估环境

要运行对象Halbench评估，您还需要以下包：

jsonlines
nltk==3.8.1
spacy==3.7.0

# Download and install "en_core_web_trf" for spacy
# The wheel version we use can be downloaded from
# https://github.com/explosion/spacy-models/releases/tag/en_core_web_trf-3.7.2
# run pip install en_core_web_trf-3.7.2-py3-none-any.whl

评估

llava板凳

运行以下脚本以生成，评估和总结LLAVA基准的结果：

 # cd RLHF-V

bash ./script/eval/eval_muffin_llavabench.sh ./RLHF-V_weight ./results/RLHF-V {YOUR_OPENAI_API_KEY}

对象halbench

准备可可2014注释

对象HALBENCH的评估取决于COCO2014数据集的标题和分割注释。请首先从可可数据集的官方网站下载COCO2014数据集。

mkdir coco2014
cd coco2014

wget http://images.cocodataset.org/annotations/annotations_trainval2014.zip

unzip annotations_trainval2014.zip

推论，评估和摘要

请替换{YOUR_COCO2014_ANNOTATION_DIR}用CoCO2014注释目录（例如./coco2014/annotations coco2014/annotations）的路径，然后用有效的OpenAi api-key替换{YOUR_OPENAI_API_KEY} 。

 # cd RLHF-V

bash ./script/eval_muffin_objhal.sh ./RLHF-V_weight ./results/RLHF-V {YOUR_COCO2014_ANNOTATION_DIR} {YOUR_OPENAI_API_KEY}

MMHAL板凳

准备MMHAL数据

请在此处下载MMHAL评估数据，然后将文件保存在eval/data中。

运行以下脚本以生成，评估和总结MMHAL台的结果：

 # cd RLHF-V

bash ./script/eval_muffin_mmhal.sh ./RLHF-V_weight ./results/RLHF-V {YOUR_OPENAI_API_KEY}

RLHF-V培训

准备环境

请按照安装部分中的说明进行准备，以准备培训环境。并确保升级到Muffin的最新代码基础：

 cd Muffin

git pull
pip install -e .

准备模型检查点

请下载我们的SFT型号检查点，然后将其保存到Muffin/RLHF-V_SFT_weight 。

训练

请确保升级到Muffin的最新代码库。安装松饼环境后，您可以按以下方式训练模型。该脚本将自动从HuggingFace下载我们的开源培训数据，通过我们的SFT模型生成日志，并进行DDPO培训：

 cd Muffin

ref_model=./RLHF-V_SFT_weight

bash ./script/train/run_RLHFV.sh 
    ./RLHFV_checkpoints/dpo_exp 
    master 
    RLHFV 
    1.1 
    $ref_model 
    ./RLHF-V-Dataset 
    RLHFV_SFT 
    2160 
    360 
    0.1 
    False 
    True

许可证

用法和许可声明：数据，代码和检查点仅用于研究使用和许可。他们还仅限于遵循骆驼，维库纳和聊天GPT的许可协议的使用。该数据集由NC 4.0（仅允许非商业用途）为CC，并且不应在研究目的之外使用使用数据集进行培训的模型。

致谢

松饼：我们构建的代码库。
LLAVA-RLHF：我们利用了它们构建的MMHAL基础台上数据和评估代码。
物体幻觉：我们参考存储库中包含的椅子评估法。

引用

如果您发现我们的型号/代码/数据/纸张有帮助，请考虑引用我们的论文并出演我们

 @article { yu2023rlhf ,
  title = { Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback } ,
  author = { Yu, Tianyu and Yao, Yuan and Zhang, Haoye and He, Taiwen and Han, Yifeng and Cui, Ganqu and Hu, Jinyi and Liu, Zhiyuan and Zheng, Hai-Tao and Sun, Maosong and others } ,
  journal = { arXiv preprint arXiv:2312.00849 } ,
  year = { 2023 }
}

@article { yu2024rlaifv ,
  title = { RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness } , 
  author = { Yu, Tianyu and Zhang, Haoye and Yao, Yuan and Dang, Yunkai and Chen, Da and Lu, Xiaoman and Cui, Ganqu and He, Taiwen and Liu, Zhiyuan and Chua, Tat-Seng and Sun, Maosong } ,
  journal = { arXiv preprint arXiv:2405.17220 } ,
  year = { 2024 } ,
}

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-03-05
大小 71.99MB
来自于 Github

RLHF V

RLHF-V

简介

？消息

？固定

内容

数据集

RLHF-V权重

安装

评估

llava板凳

对象halbench

MMHAL板凳

RLHF-V培训

许可证

致谢

引用

搜图神器 V

飞卢小说网 V

智联招聘 V

天气通 V

街头霸王5

战地5

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express