RepBelief下载 - RepBelief源代码下载

RepBelief

Ai源码

1.0.0

下载

语言模型代表自我和他人的信念

该存储库为“语言模型代表自我和他人的信念”提供了代码。它表明，LLM在内部代表自己和其他代理人的信念，操纵这些表示可以极大地影响其心理推理能力理论。

安装

 conda create -n lm python=3.8 anaconda
conda activate lm
# Please install PyTorch (<2.4) according to your CUDA version.
conda install pytorch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 pytorch-cuda=12.1 -c pytorch -c nvidia
pip install -r requirements.txt

然后将语言模型（例如Mistral-7b-instruct-V0.2，DeepSeek-llm-7b-chat）下载到models/ 。您还可以在lm_paths.json中指定文件路径。

提取表示

sh scripts/save_reps.sh 0_forward belief
sh scripts/save_reps.sh 0_forward action
sh scripts/save_reps.sh 0_backward belief

探测

二进制：

python probe.py --belief=protagonist --dynamic=0_forward --variable belief 
python probe.py --belief=oracle --dynamic=0_forward --variable belief

python probe.py --belief=protagonist --dynamic=0_forward --variable action 
python probe.py --belief=oracle --dynamic=0_forward --variable action

python probe.py --belief=protagonist --dynamic=0_backward --variable belief 
python probe.py --belief=oracle --dynamic=0_backward --variable belief

多项式：

python probe_multinomial.py --dynamic=0_forward --variable belief
python probe_multinomial.py --dynamic=0_forward --variable action
python probe_multinomial.py --dynamic=0_backward --variable belief

BigTom评估

sh scripts/0_forward_belief.sh
sh scripts/0_forward_action.sh
sh scripts/0_backward_belief.sh

干涉

远期信仰任务的干预：

sh scripts/0_forward_belief_interv_oracle.sh
sh scripts/0_forward_belief_interv_protagonist.sh
sh scripts/0_forward_belief_interv_o0p1.sh

交叉任务干预：

sh scripts/cross_0_forward_belief_to_forward_action_interv_o0p1.sh
sh scripts/cross_0_forward_belief_to_backward_belief_interv_o0p1.sh

引用

 @inproceedings { zhu2024language ,
    title = { Language Models Represent Beliefs of Self and Others } ,
    author = { Zhu, Wentao and Zhang, Zhining and Wang, Yizhou } ,
    booktitle = { Forty-first International Conference on Machine Learning } ,
    year = { 2024 }
}