Скачать Prompt OIRL - Скачать Prompt OIRL

Prompt OIRL

AI Исходный код

1.0.0

Скачать

? Rample-oirl: научиться предлагать LLM с экспертными знаниями (известные волшебные слова?)

Реализация и? Учебное пособие для ICLR 2024 Paper

Бумажная ссылка
Открыть ссылку на обзор

Новости

(2024.2) (Внутренний код просмотр) код с GPT3.5 и Tigerbot, который будет выпущен.
(2024.1) Щазмер был принят ICLR'2024. Мы с нетерпением ждем возможности поговорить с вами в Вене!
(2024.12) На конференции Neurips была представлена подсказка. Спасибо за все бесценные отзывы!
(2023.10) Код с Llama2 был выпущен.
(2023.10) Щетка-схема была представлена в позиционирующей статье в качестве примера обратного выравнивания .
(2023.9) Подсказка-сфера была выбрана в качестве устной презентации на семинаре ENLSP в Neurips'2023.

Абстрактный

В этом исследовании мы стремимся повысить способность арифметических рассуждений крупных языковых моделей (LLMS) за счет оперативной оптимизации с нулевым выстрелом. Мы определяем ранее упускаемую из виду цель зависимости запросов в такой оптимизации и выясняем две следственные проблемы, которые препятствуют успешному и экономическому проектированию методов быстрого оптимизации. Одним из основных вопросов является отсутствие эффективного метода оценки подсказок во время вывода, когда золотой ответ недоступен. Одновременно, обучение через взаимодействие с LLMS для навигации по обширному пространству естественного языка оказалось ресурсоемким. Чтобы решить эту проблему, мы вводим Quick-oirl, которая использует автономное обучение обратному подкреплению, чтобы извлечь информацию из о автономных демонстрационных данных. Такие данные существуют как побочные продукты, когда разнообразные подсказки находятся в сравнении с открытыми наборами данных. С помощью подсказок, зависящая от запроса цель, задача оптимизации быстрого оптимизации достигается путем первого изучения модели вознаграждения в автономном режиме. Эта модель может оценить любые пары-запросы, не обращаясь к LLMS. Впоследствии развернута стратегия лучшего в Н-Н, чтобы рекомендовать оптимальную подсказку. Наши экспериментальные оценки в различных масштабах LLM и наборах данных арифметических рассуждений подчеркивают как эффективность, так и экономическую жизнеспособность предлагаемого подхода.

? Мотивирующий пример

Рисунок 1. Никакой подсказка не является идеальной, которая работает для всех запросов . Оптимальная подсказка зависит от запроса. Тем не менее, поиск таких подсказок может быть дорогостоящим и неэффективным. Запрос-съемки оптимизирует быстрое и эффективное и экономически эффективное и экономически эффективное. (Оригинальные журналы чата с GPT4 для этих мотивирующих примеров можно найти слева, справа)

Размножение

Предварительные

Чтобы воспроизвести наши результаты (например, с использованием Llama2)

Получите лицензию на использование Llama-2.
Получите доступ к наборам данных: SVAMP, GSM8K, MAWPS

Создать виртуальную Env

Клонировать репозиторий

 git clone [email protected]:holarissun/Prompt-OIRL.git

Создайте новую виртуальную среду с Python 3.10, например,

 conda create --name prompt-oirl python==3.10
conda activate prompt-oirl
cd Prompt-OIRL

Установите требования

 pip install -r requirements.txt

Воспроизведите основные результаты

Шаг 1. (Необязательно, так как мы также выпустили автономный набор данных) Сгенерируйте автономный набор данных, взаимодействуя с LLMS.

Этот шаг займет много времени-обычно несколько дней. Чтобы не повторять такую вычислительно дорогую (при запуске LLMS на локальных машинах) или дорогостоящего (при вызове коммерческих API, таких как GPT3.5 или Tigerbot), мы выпустили все интерактивные журналы с теми LLM, собранными в наших экспериментах. Полем

Если вы хотите воспроизвести автономный набор данных, например, с помощью модели Llama2, вам нужно работать в соответствии с директором

 [email protected]:facebookresearch/llama.git

и перемещать Prompt-OIRL/llama_exps/llama_step1_gen_offline.py в папку llama

затем

 torchrun --nproc_per_node 1 llama_step1_gen_offline.py 
   --ckpt_dir llama-2-7b-chat/ 
   --tokenizer_path tokenizer.model 
   --max_seq_len 512 --max_batch_size 8 --prompt_idx 0 --dataset_eval gsm8k

Шаг 2. Реорганизуйте собранные в автономных данных

Этот шаг займет несколько секунд, чтобы закончить, он сделает немного переименования файлов и разделения тестирования обучения и сохранить соответствующие файлы в новую папку LMllama2

 python3 llama_step2_reorg_data.py

Шаг 3. Предварительно обрабатывать данные о автономном режиме

Этот шаг займет несколько секунд, чтобы закончить, он обработает данные и сохранит вставки и этикетки для различных настройки эксперимента (т.е. с различной доступностью подсказок обучения) с файлами .npy .

 python3 llama_step3_data_processing.py

Шаг 4. Прокси -вознаграждение

Этот шаг займет несколько минут до нескольких часов, чтобы закончить, в зависимости от выбранных алгоритмов и процессора. В целом, обучение модели вознаграждения XGBOOST займет немного больше времени, и использование модели вознаграждения LightGBM может быть быстрее.

 python3 llama_step4_offline_evaluation.py

Шаг 5. (офлайн) Оптимизация быстрого

Этот шаг займет несколько минут, чтобы закончить. Оценка алгоритмов путем взаимодействия с LLMS также может быть вариантом, но может быть медленнее. Результаты в разных настройках будут сохранены в файлах .csv

 python3 llama_step5_offline_optimization.py

Примечание. Возможно, вам потребуется загрузить недостающий файл встраивания по этой ссылке. (негабаритный для GitHub, ~ 230 МБ)

Связанное обсуждение RLHF:

Romplet-oirl решает проблемы подсказки в LLMS с использованием подхода RLAIF. Для читателей, которые также заинтересованы в RLHF и RLAIF, и на пересечении между RL и LLM -исследованиями мы ссылаемся на нашу связанную статью, обсуждающую RL в исследовании LLM: RL в эпоху LLMS: Что важно? Что нужно? RLHF, подсказка и за его пределами.

Bibtex Citation

Если вы хотите процитировать наш код или бумагу, используйте

 @inproceedings{sun2023query,
  title={Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL},
  author={Sun, Hao and H{"u}y{"u}k, Alihan and van der Schaar, Mihaela},
  booktitle={The Twelfth International Conference on Learning Representations},
  year={2024}
}


@article{sun2023reinforcement,
  title={Reinforcement Learning in the Era of LLMs: What is Essential? What is needed? An RL Perspective on RLHF, Prompting, and Beyond},
  author={Sun, Hao},
  journal={arXiv preprint arXiv:2310.06147},
  year={2023}
}

Расширять

Дополнительная информация