Download RepBelief - download do código fonte RepBelief

RepBelief

Código-Fonte de IA

1.0.0

Baixar

Modelos de idiomas representam crenças de si e de outros

Este repositório fornece o código para o artigo "Os modelos de idiomas representam crenças de si e de outros". Isso mostra que os LLMs representam internamente crenças de si mesmos e de outros agentes, e a manipulação dessas representações pode afetar significativamente sua teoria das capacidades de raciocínio da mente.

Instalação

 conda create -n lm python=3.8 anaconda
conda activate lm
# Please install PyTorch (<2.4) according to your CUDA version.
conda install pytorch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 pytorch-cuda=12.1 -c pytorch -c nvidia
pip install -r requirements.txt

Em seguida, faça o download dos modelos de idiomas (por exemplo, Mistral-7b-Instruct-V0.2, Deepseek-llm-7b-Chat) para models/ . Você também pode especificar os caminhos do arquivo em lm_paths.json .

Extrair representações

sh scripts/save_reps.sh 0_forward belief
sh scripts/save_reps.sh 0_forward action
sh scripts/save_reps.sh 0_backward belief

Sondagem

Binário:

python probe.py --belief=protagonist --dynamic=0_forward --variable belief 
python probe.py --belief=oracle --dynamic=0_forward --variable belief

python probe.py --belief=protagonist --dynamic=0_forward --variable action 
python probe.py --belief=oracle --dynamic=0_forward --variable action

python probe.py --belief=protagonist --dynamic=0_backward --variable belief 
python probe.py --belief=oracle --dynamic=0_backward --variable belief

Multinomial:

python probe_multinomial.py --dynamic=0_forward --variable belief
python probe_multinomial.py --dynamic=0_forward --variable action
python probe_multinomial.py --dynamic=0_backward --variable belief

Avaliação BIGTOM

sh scripts/0_forward_belief.sh
sh scripts/0_forward_action.sh
sh scripts/0_backward_belief.sh

Intervenção

Intervenção para a tarefa de crença a seguir :

sh scripts/0_forward_belief_interv_oracle.sh
sh scripts/0_forward_belief_interv_protagonist.sh
sh scripts/0_forward_belief_interv_o0p1.sh

Intervenção de tarefas cruzadas:

sh scripts/cross_0_forward_belief_to_forward_action_interv_o0p1.sh
sh scripts/cross_0_forward_belief_to_backward_belief_interv_o0p1.sh

Citação

 @inproceedings { zhu2024language ,
    title = { Language Models Represent Beliefs of Self and Others } ,
    author = { Zhu, Wentao and Zhang, Zhining and Wang, Yizhou } ,
    booktitle = { Forty-first International Conference on Machine Learning } ,
    year = { 2024 }
}

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-10
tamanho 831.66KB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos