Download Prompt OIRL - download de código fonte Prompt OIRL

Prompt OIRL

Código-Fonte de IA

1.0.0

Baixar

? Prompt-OIRL: Aprendendo a solicitar LLMs com conhecimento especializado (palavras mágicas conhecidas?)

Implementação e? Tutorial para o ICLR 2024 Paper

Imagem

Link em papel
Link de revisão aberta

Notícias

(2024.2) (revisão de código interno) Código com GPT3.5 e Tigerbot a serem liberados.
(2024.1) O Prompt-OIRL foi aceito pelo ICLR'2024. Estamos ansiosos para conversar com você em Viena!
(2024.12) O Prompt-Oirl foi apresentado na Conferência Neurips. Obrigado por todo o feedback inestimável!
(2023.10) O código com LLAMA2 foi divulgado.
(2023.10) O Prompt-Oirl foi apresentado em um papel de posicionamento como um exemplo de alinhamento inverso .
(2023.9) O Prompt-OIRL foi selecionado como uma apresentação oral no workshop do ENMSP em Neurips'2023.

Resumo

Neste estudo, pretendemos melhorar a capacidade de raciocínio aritmético de grandes modelos de linguagem (LLMs) através da otimização rápida de tiro zero. Identificamos um objetivo anteriormente esquecido da dependência de consultas em tal otimização e elucidaram dois desafios subsequentes que impedem o design bem -sucedido e econômico de técnicas de otimização imediata. Uma questão primária é a ausência de um método eficaz para avaliar as instruções durante a inferência quando a resposta dourada não estiver disponível. Simultaneamente, o aprendizado por meio de interações com o LLMS para navegar na extensa linguagem natural que provoca espaço é intensiva em recursos. Para abordar isso, introduzimos o Prompt-Oirl, que aproveita o aprendizado de reforço inverso offline para obter informações de dados offline de demonstração. Esses dados existem como subprodutos quando diversos avisos são comparados com conjuntos de dados acessíveis a abertura. Com o Prompt-Oirl, o objetivo de otimização de prompt dependente da consulta é alcançado primeiro aprendendo um modelo de recompensa offline. Este modelo pode avaliar quaisquer pares de promoção de consulta sem acessar o LLMS. Posteriormente, uma estratégia de melhor do N é implantada para recomendar o prompt ideal. Nossas avaliações experimentais em várias escalas de LLM e conjuntos de dados de raciocínio aritmético ressaltam a eficácia e a viabilidade econômica da abordagem proposta.

? Exemplo motivador

Imagem Figura 1. Nenhum prompt é perfeito que funciona para todas as consultas . O prompt ideal depende da consulta. No entanto, a busca de tais instruções pode ser cara e ineficiente. O Prompt-Oirl otimiza o prompt durante o tempo de inferência em um nível dependente da consulta de maneira eficaz e econômica. (Logs de bate -papo originais com GPT4 para esses exemplos motivadores podem ser encontrados à esquerda, à direita)

Reprodução

Preliminares

Para reproduzir nossos resultados (por exemplo, usando llama2)

Obtenha a licença para usar llama-2.
Obtenha acesso aos conjuntos de dados: Svamp, GSM8K, MAWPS

Crie um Env virtual

Clone o repositório

 git clone [email protected]:holarissun/Prompt-OIRL.git

Crie um novo ambiente virtual com Python 3.10, por exemplo,

 conda create --name prompt-oirl python==3.10
conda activate prompt-oirl
cd Prompt-OIRL

Instale os requisitos

 pip install -r requirements.txt

Reproduzir os principais resultados

Etapa 1. (Opcional, como também lançamos o conjunto de dados offline) Gere um conjunto de dados offline interagindo com o LLMS.

Esta etapa levará muito tempo-normalmente alguns dias. Para evitar repetir um processo tão caro (ao executar LLMs em máquinas locais) ou caro (ao ligar para as APIs comerciais como GPT3.5 ou Tigerbot), lançamos todos os registros interativos com os LLMs coletados em nossos experimentos. .

Se você deseja reproduzir o conjunto de dados offline, por exemplo, com o modelo LLAMA2, você precisa trabalhar sob o diretor de

 [email protected]:facebookresearch/llama.git

e mover Prompt-OIRL/llama_exps/llama_step1_gen_offline.py para a pasta llama

então

 torchrun --nproc_per_node 1 llama_step1_gen_offline.py 
   --ckpt_dir llama-2-7b-chat/ 
   --tokenizer_path tokenizer.model 
   --max_seq_len 512 --max_batch_size 8 --prompt_idx 0 --dataset_eval gsm8k

Etapa 2. Reorganize os dados offline coletados

Esta etapa levará alguns segundos para terminar, ele fará alguma renomeação de arquivos e divisão de teste de treinamento e salvará arquivos correspondentes em uma nova pasta LMllama2

 python3 llama_step2_reorg_data.py

Etapa 3. Pré-processo os dados offline

Esta etapa levará alguns segundos para terminar, processará os dados e armazenará incorporação e etiquetas para diferentes configurações de experimentos (ou seja, com diferentes disponibilidade de avisos de treinamento) com arquivos de formato .npy .

 python3 llama_step3_data_processing.py

Etapa 4. Aprendizagem do modelo de recompensa proxy (ou seja, avaliação imediata offline)

Esta etapa levará alguns minutos a algumas horas para terminar, dependendo dos algoritmos escolhidos e do processador. Em geral, o treinamento de um modelo de recompensa XGBoost levará um pouco mais de tempo e o uso de um modelo de recompensa do LightGBM pode ser mais rápido.

 python3 llama_step4_offline_evaluation.py

Etapa 5. (Offline) Otimização imediata

Esta etapa levará alguns minutos para terminar. Avaliar os algoritmos, interagindo com os LLMs também pode ser uma opção, mas pode ser mais lenta. Os resultados em diferentes configurações serão todos salvos nos arquivos .csv

 python3 llama_step5_offline_optimization.py

NOTA: Pode ser necessário baixar um arquivo de incorporação ausente deste link. (Operimizações para Github, ~ 230 MB)

Uma discussão relacionada sobre o RLHF:

O Promp-Oirl aborda os problemas de promoção no LLMS usando uma abordagem RLAIF. Para os leitores que também estão interessados em RLHF e RLAIF e, na interseção entre a pesquisa de RL e LLM, nos referiríamos ao nosso documento de posicionamento relacionado discutindo RL na pesquisa de LLM: RL na era do LLMS: O que é essencial? O que é necessário? RlHf, solicitando e além.

Citação Bibtex

Se você deseja citar nosso código ou papel, use

 @inproceedings{sun2023query,
  title={Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL},
  author={Sun, Hao and H{"u}y{"u}k, Alihan and van der Schaar, Mihaela},
  booktitle={The Twelfth International Conference on Learning Representations},
  year={2024}
}


@article{sun2023reinforcement,
  title={Reinforcement Learning in the Era of LLMs: What is Essential? What is needed? An RL Perspective on RLHF, Prompting, and Beyond},
  author={Sun, Hao},
  journal={arXiv preprint arXiv:2310.06147},
  year={2023}
}

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-06-30
tamanho 183.25MB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
promptl

Código-Fonte de IA

1.0.0
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0

Informações Relacionadas Todos