RepBelief Download - RepBelief Source Code Download

RepBelief

AI-Quellcode

1.0.0

Herunterladen

Sprachmodelle repräsentieren Überzeugungen des Selbst und anderer

Dieses Repository enthält den Code für das Papier "Sprachmodelle repräsentieren Überzeugungen von sich selbst und anderen". Es zeigt, dass LLMs intern die Überzeugungen von sich selbst und anderen Vertretern darstellen und diese Darstellungen zu ihrer Theorie der Fähigkeiten zur Begründung des Geistes erheblich beeinflussen können.

Installation

 conda create -n lm python=3.8 anaconda
conda activate lm
# Please install PyTorch (<2.4) according to your CUDA version.
conda install pytorch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 pytorch-cuda=12.1 -c pytorch -c nvidia
pip install -r requirements.txt

Laden Sie dann die Sprachmodelle (z. B. Mistral-7B-Instruct-V0.2, Deepseek-LlM-7B-Chat) auf models/ herunter. Sie können auch die Dateipfade in lm_paths.json angeben.

Darstellungen extrahieren

sh scripts/save_reps.sh 0_forward belief
sh scripts/save_reps.sh 0_forward action
sh scripts/save_reps.sh 0_backward belief

Sondierung

Binär:

python probe.py --belief=protagonist --dynamic=0_forward --variable belief 
python probe.py --belief=oracle --dynamic=0_forward --variable belief

python probe.py --belief=protagonist --dynamic=0_forward --variable action 
python probe.py --belief=oracle --dynamic=0_forward --variable action

python probe.py --belief=protagonist --dynamic=0_backward --variable belief 
python probe.py --belief=oracle --dynamic=0_backward --variable belief

Multinomial:

python probe_multinomial.py --dynamic=0_forward --variable belief
python probe_multinomial.py --dynamic=0_forward --variable action
python probe_multinomial.py --dynamic=0_backward --variable belief

Bigtom -Bewertung

sh scripts/0_forward_belief.sh
sh scripts/0_forward_action.sh
sh scripts/0_backward_belief.sh

Intervention

Intervention für die Vorwärts -Glaubensaufgabe :

sh scripts/0_forward_belief_interv_oracle.sh
sh scripts/0_forward_belief_interv_protagonist.sh
sh scripts/0_forward_belief_interv_o0p1.sh

Kreuzungsintervention:

sh scripts/cross_0_forward_belief_to_forward_action_interv_o0p1.sh
sh scripts/cross_0_forward_belief_to_backward_belief_interv_o0p1.sh

Zitat

 @inproceedings { zhu2024language ,
    title = { Language Models Represent Beliefs of Self and Others } ,
    author = { Zhu, Wentao and Zhang, Zhining and Wang, Yizhou } ,
    booktitle = { Forty-first International Conference on Machine Learning } ,
    year = { 2024 }
}