LLaMA MOSS RLHF LoRA скачать - LLaMA MOSS RLHF LoRA Source Code Скачать

LLaMA MOSS RLHF LoRA

AI Исходный код

1.0.0

Скачать

Llama-Moss-Rlhf-Lora

Код RLHF этого кода не требует фреймворка Megatron или Deepspeed, для этого требуется только традиционная алхимическая факела и видеокарты. Критик RLHF использует уменьшенную версию целевого GPT, и вознаграждение мы можем использовать модель сходства, которая сравнивается с целевым выводом. Таким образом, вам нужно только изучить основной алгоритм PPO, а остальные - модели и структуры, которые вы уже поняли. Это очень способствует вступлению NLPER в RLHF, и кажется, что необходим только RLHF может определить модель.

Llama или Moss могут быть выбраны в коде, а метод оптимизации LORA не является обязательным.

Функция:

Определение и использование формата данных RLHF
Модель была точно настроена с использованием только RLHF√
Пусть модель распознает свою мастер
- Измените самооцентритивную стальную марку
  - Имя Мастера
  - Прозвище робота
партия генерирует множество разных сторон, а затем RLHF ×

Установка среда

Среда установки относится к извлеченным требованиям. TXT, в основном факел, трансформаторы

Запуск моха требует библиотеки ускорения
Запуск LORA требует PEFT
- Среди них PEFT сильно изменилась из -за более быстрых обновлений. Здесь вам нужно указать PEFT как версию 0.2.0

Как использовать

0 Выберите необходимую модель (SET MODEL_NAME_OR_PATH в rlhf_train_gpt.py, и необходимо ли Лора), и предварительная обработка

мох
- Нет предварительной обработки
лама
- Необходимо выполнить комбинацию модели на основе ламы и переподготовленных параметров LORA
- python merge_llama_with_chinese_lora_to_hf.py
- Вы можете установить разные величины параметров Llama и Lora
- Сгенерированная модель HF сохраняется

1 Измените имя владельца и псевдоним, который вы хотите, и выполните следующий код. Чтобы сгенерировать целевые данные, вы также можете использовать по умолчанию.

 python data / generate_data . py

2 Start RLHF (LORA) на основе обучающего рога

 python rlhf_train_gpt . py

Потребление ресурсов

мох
- 13b Параметр Количество
- Требуются четыре 3090 -х годов, среди которых модель MOSS должна загрузить около 26G, обучающуюся 46G видео памяти (3 изображения), и необходима еще одна критическая и вознаграждение. Вы можете попробовать A6000, который также может работать.
- Всего примерно 50 г видео памяти
лама
- 7b Параметр Количество
- Требуются два 3090 -х, один для загрузки и обучения ламы, а один для размещения критической модели

Эффект дисплей

Обучение около 6 эпох, или когда соотношение составляет почти 1, это означает, что вероятность генерации модели не сильно изменилась, поэтому вы можете испытать его.

Что такое Meimei?
- Meimei - это прозвище, данный мне моим хозяином.
Кто дал вам мем?
- Баба - мое прозвище.
- Мастер дал мне меймей.
Кто твой хозяин?
- Чжан Сан - мой хозяин.
- Мой хозяин - Чжан Сан
Способность обобщения поддерживается очень хорошо
- Кто ваш хозяин
  - Мой хозяин - Чжан Сан.
- Какое у тебя прозвище
  - Мое прозвище - блин.
- Каковы ваши отношения с Чжан Сан
  - Чжан Сан - мой хозяин.
- Чем у вас отношения
  - Meimei - это прозвище, данный мне моим хозяином.