Xiaoqiang Lin *, Zhaoxuan Wu *, Zhongxiang Dai, Wenyang Hu, Yao Shu, See-Kiong Ng, Patrick Jaillet, Bryan Kian Hsiang Low
Page d'accueil du projet | ArXiv | Papier
Ceci est le code du papier: utilisez votre instinct: optimisation des instructions à l'aide de bandits neuronaux couplés à des transformateurs. Nous fournissons tous les codes pour nos expériences qui comprennent:
Notre code est basé sur le code d'APE et d'instructzero.
Les grands modèles de langue (LLM) ont montré des capacités de suivi des instructions remarquables et ont obtenu des performances impressionnantes dans diverses applications. Cependant, les performances de LLMS dépendent fortement des instructions qui leur ont été données, qui sont généralement réglées manuellement avec des efforts humains importants. Des travaux récents ont utilisé l'algorithme d'optimisation bayésienne économe en question (BO) pour optimiser automatiquement les instructions données aux LLM de Black-Box. Cependant, BO est généralement échoué lors de l'optimisation des fonctions objectives hautement sophistiquées (par exemple, haute dimension), telles que les fonctions cartographiant une instruction sur les performances d'un LLM. Cela est principalement dû à la puissance expressive limitée du modèle de processus gaussien (GP) qui est utilisé par BO comme substitut pour modéliser la fonction objectif. Pendant ce temps, il a été démontré à plusieurs reprises que les réseaux de neurones (NNS), en particulier les transformateurs pré-formés, possèdent une puissance expressive forte et peuvent modéliser des fonctions très complexes. Ainsi, nous adoptons un algorithme de bandit neural qui remplace le GP dans BO par un substitut NN pour optimiser les instructions pour les LLM à boîte noire. Plus important encore, l'algorithme de bandit neural nous permet d'assister naturellement à la substitution NN avec la représentation cachée apprise par un transformateur pré-formé (c'est-à-dire un LLM open-source), ce qui augmente considérablement ses performances. Ceux-ci nous motivent à proposer notre optimisation des instructions en utilisant des bandits neuronaux couplés à l'algorithme Transformers (Instinct). Nous effectuons l'optimisation des instructions pour ChatGpt et utilisons des expériences approfondies pour montrer que notre instinct surpasse constamment les méthodes existantes dans différentes tâches, comme dans diverses tâches d'induction d'instructions et la tâche d'améliorer l'enseignement de la chaîne de réflexion zéro.
Vous pouvez télécharger les données pour l'induction intrinsèque à partir du dépôt GitHub d'Instructzero. Vous pouvez télécharger l'ensemble de données de Samsum à partir du site Web Huggingface. Vous pouvez télécharger l'ensemble de données pour GSM8K, Aquarat et Svamp à partir du repo pour APE.
Nous mettons le cahier de préparations de données sur COT/experiments/data/instruction_induction/pre_aqua.ipynb , COT/experiments/data/instruction_induction/pre_gsm8k.ipynb et Induction/experiments/data/nlptasks/pre_nlp_data.ipynb .
Pour exécuter notre code, vous devez installer l'environnement à l'aide de conda: conda env create -f environment.yml
Nous fournissons des scripts bash pour gérer nos expériences pour l'induction de l'instruction à Induction/experiments/run_neural_bandits.sh . Pour l'exécuter correctement, vous devez exécuter ce qui suit dans le terminal:
cd Induction
bash experiments/run_neural_bandits.sh
De même, pour exécuter notre code pour améliorer l'instruction de la chaîne de pensées, vous devez exécuter le script COT/experiments/run_cot_bandits.sh comme suit:
cd COT
bash experiments/run_cot_bandits.sh
Notez qu'avant d'exécuter le script bash ci-dessus, vous devez spécifier la touche OpenAI pour appeler l'API gpt-turbo-3.5-0301 . Pour ce faire, modifiez ce qui suit dans les deux scripts bash:
export export OPENAI_API_KEY=YOUR_KEY
@inproceedings{lin2024use,
title={Use Your {INSTINCT}: INSTruction optimization for LLMs usIng Neural bandits Coupled with Transformers},
author={Xiaoqiang Lin and Zhaoxuan Wu and Zhongxiang Dai and Wenyang Hu and Yao Shu and See-Kiong Ng and Patrick Jaillet and Bryan Kian Hsiang Low},
year={2024},
booktitle={Proc. ICML}
}