RepBelief
1.0.0
Dieses Repository enthält den Code für das Papier "Sprachmodelle repräsentieren Überzeugungen von sich selbst und anderen". Es zeigt, dass LLMs intern die Überzeugungen von sich selbst und anderen Vertretern darstellen und diese Darstellungen zu ihrer Theorie der Fähigkeiten zur Begründung des Geistes erheblich beeinflussen können.
conda create -n lm python=3.8 anaconda
conda activate lm
# Please install PyTorch (<2.4) according to your CUDA version.
conda install pytorch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 pytorch-cuda=12.1 -c pytorch -c nvidia
pip install -r requirements.txt
Laden Sie dann die Sprachmodelle (z. B. Mistral-7B-Instruct-V0.2, Deepseek-LlM-7B-Chat) auf models/ herunter. Sie können auch die Dateipfade in lm_paths.json angeben.
sh scripts/save_reps.sh 0_forward belief
sh scripts/save_reps.sh 0_forward action
sh scripts/save_reps.sh 0_backward beliefBinär:
python probe.py --belief=protagonist --dynamic=0_forward --variable belief
python probe.py --belief=oracle --dynamic=0_forward --variable belief
python probe.py --belief=protagonist --dynamic=0_forward --variable action
python probe.py --belief=oracle --dynamic=0_forward --variable action
python probe.py --belief=protagonist --dynamic=0_backward --variable belief
python probe.py --belief=oracle --dynamic=0_backward --variable beliefMultinomial:
python probe_multinomial.py --dynamic=0_forward --variable belief
python probe_multinomial.py --dynamic=0_forward --variable action
python probe_multinomial.py --dynamic=0_backward --variable beliefsh scripts/0_forward_belief.sh
sh scripts/0_forward_action.sh
sh scripts/0_backward_belief.shIntervention für die Vorwärts -Glaubensaufgabe :
sh scripts/0_forward_belief_interv_oracle.sh
sh scripts/0_forward_belief_interv_protagonist.sh
sh scripts/0_forward_belief_interv_o0p1.shKreuzungsintervention:
sh scripts/cross_0_forward_belief_to_forward_action_interv_o0p1.sh
sh scripts/cross_0_forward_belief_to_backward_belief_interv_o0p1.sh @inproceedings { zhu2024language ,
title = { Language Models Represent Beliefs of Self and Others } ,
author = { Zhu, Wentao and Zhang, Zhining and Wang, Yizhou } ,
booktitle = { Forty-first International Conference on Machine Learning } ,
year = { 2024 }
}