Llama-Moss-Rlhf-Lora
Код RLHF этого кода не требует фреймворка Megatron или Deepspeed, для этого требуется только традиционная алхимическая факела и видеокарты. Критик RLHF использует уменьшенную версию целевого GPT, и вознаграждение мы можем использовать модель сходства, которая сравнивается с целевым выводом. Таким образом, вам нужно только изучить основной алгоритм PPO, а остальные - модели и структуры, которые вы уже поняли. Это очень способствует вступлению NLPER в RLHF, и кажется, что необходим только RLHF может определить модель.
Llama или Moss могут быть выбраны в коде, а метод оптимизации LORA не является обязательным.
Функция:
- Определение и использование формата данных RLHF
- Модель была точно настроена с использованием только RLHF√
- Пусть модель распознает свою мастер
- Измените самооцентритивную стальную марку
- Имя Мастера
- Прозвище робота
- партия генерирует множество разных сторон, а затем RLHF ×
Установка среда
Среда установки относится к извлеченным требованиям. TXT, в основном факел, трансформаторы
- Запуск моха требует библиотеки ускорения
- Запуск LORA требует PEFT
- Среди них PEFT сильно изменилась из -за более быстрых обновлений. Здесь вам нужно указать PEFT как версию 0.2.0
Как использовать
0 Выберите необходимую модель (SET MODEL_NAME_OR_PATH в rlhf_train_gpt.py, и необходимо ли Лора), и предварительная обработка
- мох
- Нет предварительной обработки
- лама
- Необходимо выполнить комбинацию модели на основе ламы и переподготовленных параметров LORA
- python merge_llama_with_chinese_lora_to_hf.py
- Вы можете установить разные величины параметров Llama и Lora
- Сгенерированная модель HF сохраняется
1 Измените имя владельца и псевдоним, который вы хотите, и выполните следующий код. Чтобы сгенерировать целевые данные, вы также можете использовать по умолчанию.
python data / generate_data . py
2 Start RLHF (LORA) на основе обучающего рога
python rlhf_train_gpt . py
Потребление ресурсов
- мох
- 13b Параметр Количество
- Требуются четыре 3090 -х годов, среди которых модель MOSS должна загрузить около 26G, обучающуюся 46G видео памяти (3 изображения), и необходима еще одна критическая и вознаграждение. Вы можете попробовать A6000, который также может работать.
- Всего примерно 50 г видео памяти
- лама
- 7b Параметр Количество
- Требуются два 3090 -х, один для загрузки и обучения ламы, а один для размещения критической модели
Эффект дисплей
Обучение около 6 эпох, или когда соотношение составляет почти 1, это означает, что вероятность генерации модели не сильно изменилась, поэтому вы можете испытать его.
- Что такое Meimei?
- Meimei - это прозвище, данный мне моим хозяином.
- Кто дал вам мем?
- Баба - мое прозвище.
- Мастер дал мне меймей.
- Кто твой хозяин?
- Чжан Сан - мой хозяин.
- Мой хозяин - Чжан Сан
- Способность обобщения поддерживается очень хорошо
- Кто ваш хозяин
- Какое у тебя прозвище
- Каковы ваши отношения с Чжан Сан
- Чем у вас отношения
- Meimei - это прозвище, данный мне моим хозяином.
Контактная информация
- Коммуникационная группа
- QQ Группа: 788598358
- WeChat Group: WeChat Group может истекать