Xiaoqiang Lin*، Zhaoxuan Wu*، Zhongxiang Dai ، Wenyang Hu ، Yao Shu ، See-Kiong Ng ، Patrick Jaillet ، Bryan Kian Hsiang Low
مشروع الصفحة الرئيسية | Arxiv | ورق
هذا هو الرمز للورقة: استخدم غريزة: تحسين التعليمات باستخدام اللقطات العصبية إلى جانب المحولات. نحن نقدم جميع الرموز لتجاربنا التي تشمل:
تعتمد الكود لدينا على الرمز من Ape و Adructzero.
أظهرت نماذج اللغة الكبيرة (LLMS) قدرات رائعة على تتبع التعليمات وحققت عروضًا مثيرة للإعجاب في مختلف التطبيقات. ومع ذلك ، فإن أداء LLMs تعتمد بشكل كبير على التعليمات المقدمة لهم ، والتي عادة ما يتم ضبطها يدويًا بجهود إنسانية كبيرة. استخدم العمل الأخير خوارزمية تحسين Bayesian (BO) الموفرة للاستعلام لتحسين التعليمات الممنوحة تلقائيًا إلى LLMS Black-Box. ومع ذلك ، فإن BO عادةً ما يكون قصيرًا عند تحسين وظائف موضوعية متطورة للغاية (على سبيل المثال ، عالية الأبعاد) ، مثل الوظائف رسم تعليمات لأداء LLM. ويرجع ذلك بشكل أساسي إلى نموذج المعبر المحدود لنموذج العملية الغوسية (GP) والذي يستخدمه BO كبديل لنمذجة الوظيفة الهدف. وفي الوقت نفسه ، فقد تبين مرارًا وتكرارًا أن الشبكات العصبية (NNS) ، وخاصة المحولات التي تم تدريبها مسبقًا ، تمتلك قوة تعبيرية قوية ويمكنها تصميم وظائف معقدة للغاية. لذلك ، نعتمد خوارزمية العصابات العصبية التي تحل محل GP في BO بواسطة بديل NN لتحسين التعليمات الخاصة بـ LLMs Black-Box. والأهم من ذلك ، أن خوارزمية اللصوص العصبية تتيح لنا أن نربط بشكل طبيعي بديل NN مع التمثيل المخفي الذي تعلمه محول تم تدريبه مسبقًا (أي LLM مفتوح المصدر) ، مما يعزز أداءه بشكل كبير. هذه تحفزنا على اقتراح تحسين التعليمات الخاصة بنا باستخدام قطاع الطرق العصبية إلى جانب خوارزمية المحولات (الغريزة). نقوم بإجراء تحسين التعليمات لـ ChatGPT ونستخدم تجارب واسعة لإظهار أن غريزتنا تتفوق باستمرار على الأساليب الحالية في مهام مختلفة ، كما هو الحال في المهام التعليمية المختلفة ومهمة تحسين تعليمات سلسلة الرصاص.
يمكنك تنزيل بيانات الحث الجوهري من Github Repo of Adructzero. يمكنك تنزيل مجموعة بيانات Samsum من موقع Huggingface. يمكنك تنزيل مجموعة البيانات لـ GSM8K و Aquarat و Svamp من repo for APE.
نضع دفتر Predars للبيانات في COT/experiments/data/instruction_induction/pre_aqua.ipynb ، COT/experiments/data/instruction_induction/pre_gsm8k.ipynb Induction/experiments/data/nlptasks/pre_nlp_data.ipynb .
لتشغيل التعليمات البرمجية الخاصة بنا ، تحتاج إلى تثبيت البيئة باستخدام Cerm: conda env create -f environment.yml
نحن نقدم البرامج النصية bash لتشغيل تجاربنا لتحريض التعليمات في Induction/experiments/run_neural_bandits.sh . لتشغيله بشكل صحيح ، تحتاج إلى تشغيل ما يلي في المحطة:
cd Induction
bash experiments/run_neural_bandits.sh
وبالمثل ، لتشغيل التعليمات البرمجية الخاصة بنا لتحسين تعليمات سلسلة الفكرة ، تحتاج إلى تشغيل البرنامج النصي COT/experiments/run_cot_bandits.sh وفقًا لما يلي:
cd COT
bash experiments/run_cot_bandits.sh
لاحظ أنه قبل تشغيل البرنامج النصي BASH أعلاه ، تحتاج إلى تحديد مفتاح OpenAI للاتصال بـ gpt-turbo-3.5-0301 API. للقيام بذلك ، قم بتغيير ما يلي في نصين باش:
export export OPENAI_API_KEY=YOUR_KEY
@inproceedings{lin2024use,
title={Use Your {INSTINCT}: INSTruction optimization for LLMs usIng Neural bandits Coupled with Transformers},
author={Xiaoqiang Lin and Zhaoxuan Wu and Zhongxiang Dai and Wenyang Hu and Yao Shu and See-Kiong Ng and Patrick Jaillet and Bryan Kian Hsiang Low},
year={2024},
booktitle={Proc. ICML}
}