RepBelief
1.0.0
이 저장소는 논문의 코드 "언어 모델이 자기와 타인의 신념을 나타냅니다"를 제공합니다. LLM은 내부적으로 자신과 다른 대리인의 신념을 나타내며, 이러한 표현을 조작하면 마음 추론 능력 이론에 크게 영향을 줄 수 있습니다.
conda create -n lm python=3.8 anaconda
conda activate lm
# Please install PyTorch (<2.4) according to your CUDA version.
conda install pytorch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 pytorch-cuda=12.1 -c pytorch -c nvidia
pip install -r requirements.txt
그런 다음 언어 모델 (예 : Mistral-7B-Instruct-V0.2, DeepSeek-LLM-7B-Chat)을 models/ 로 다운로드하십시오. lm_paths.json 에서 파일 경로를 지정할 수도 있습니다.
sh scripts/save_reps.sh 0_forward belief
sh scripts/save_reps.sh 0_forward action
sh scripts/save_reps.sh 0_backward belief이진 :
python probe.py --belief=protagonist --dynamic=0_forward --variable belief
python probe.py --belief=oracle --dynamic=0_forward --variable belief
python probe.py --belief=protagonist --dynamic=0_forward --variable action
python probe.py --belief=oracle --dynamic=0_forward --variable action
python probe.py --belief=protagonist --dynamic=0_backward --variable belief
python probe.py --belief=oracle --dynamic=0_backward --variable belief다국적 :
python probe_multinomial.py --dynamic=0_forward --variable belief
python probe_multinomial.py --dynamic=0_forward --variable action
python probe_multinomial.py --dynamic=0_backward --variable beliefsh scripts/0_forward_belief.sh
sh scripts/0_forward_action.sh
sh scripts/0_backward_belief.sh미래 신념 과제에 대한 중재 :
sh scripts/0_forward_belief_interv_oracle.sh
sh scripts/0_forward_belief_interv_protagonist.sh
sh scripts/0_forward_belief_interv_o0p1.sh크로스 작업 중재 :
sh scripts/cross_0_forward_belief_to_forward_action_interv_o0p1.sh
sh scripts/cross_0_forward_belief_to_backward_belief_interv_o0p1.sh @inproceedings { zhu2024language ,
title = { Language Models Represent Beliefs of Self and Others } ,
author = { Zhu, Wentao and Zhang, Zhining and Wang, Yizhou } ,
booktitle = { Forty-first International Conference on Machine Learning } ,
year = { 2024 }
}