Скачать trlx - Скачать исходный код trlx

trlx

Питон

v0.7.0: NeMo PPO, PE

Скачать

Преобразование трансформатора Learning x

TRLX-это распределенная учебная структура, разработанная с нуля, чтобы сосредоточиться на тонкой настройке крупных языковых моделей с обучением подкреплением, используя либо предоставленную функцию вознаграждения, либо наборный набор данных.

Поддержка обучения? Модели обнимающего лица предоставляются тренерами, поддерживаемыми ускорением, позволяя пользователям точную настройку причинно-следственных и T5-моделей на параметрах до 20B, таких как facebook/opt-6.7b , EleutherAI/gpt-neox-20b и google/flan-t5-xxl . Для моделей, превышающих 20B, параметры TRLX предоставляет тренеров NEMO, поддерживаемые NVIDIA, которые используют эффективные методы эффективного масштабирования параллелизма для эффективного масштаба.

В настоящее время реализованы следующие алгоритмы RL:

Алгоритм	Ускоренный тренер	Немо тренер
Проксимальная оптимизация политики (PPO)	✅	✅
Неявный язык Q-обучение (ILQL)	✅	✅

Документация

? Сыр собирают человеческие аннотации для вашего приложения RL с нашей библиотекой сбора данных человека в петле.

Установка

git clone https://github.com/CarperAI/trlx.git
cd trlx
pip install torch --extra-index-url https://download.pytorch.org/whl/cu118
pip install -e .

Примеры

Для получения дополнительной информации см. Примеры. Вы также можете попробовать ноутбуки Colab ниже:

Описание	Связь
Simulacra (GPT2, ILQL)
Чувства (GPT2, ILQL)

Последние пробеги примеров - наши веса и предвзятости

Как тренироваться

Вы можете обучить модель, используя функцию вознаграждения или набор данных, меченный вознаграждением.

Использование функции вознаграждения

 trainer = trlx . train ( 'gpt2' , reward_fn = lambda samples , ** kwargs : [ sample . count ( 'cats' ) for sample in samples ])

Для обучения модели вознаграждения обращайтесь к нашей библиотеке Autocrit.

Использование наборов наборов данных

 trainer = trlx . train ( 'EleutherAI/gpt-j-6B' , samples = [ 'dolphins' , 'geese' ], rewards = [ 1.0 , 100.0 ])

Использование набора данных о завершении

 trainer = trlx . train ( 'gpt2' , samples = [[ 'Question: 1 + 2 Answer:' , '3' ], [ 'Question: Solve this equation: ∀n>0, s=2, sum(n ** -s). Answer:' , '(pi ** 2)/ 6' ]])

Тренеры обеспечивают обертку над своей основной моделью

 trainer . generate ( ** tokenizer ( 'Q: Who rules the world? A:' , return_tensors = 'pt' ), do_sample = True )

Настройка гиперпараметров

 from trlx . data . default_configs import default_ppo_config

config = default_ppo_config ()
config . model . model_path = 'EleutherAI/gpt-neox-20b'
config . tokenizer . tokenizer_path = 'EleutherAI/gpt-neox-20b'
config . train . seq_length = 2048

trainer = trlx . train ( config = config , reward_fn = lambda samples , ** kwargs : [ len ( sample ) for sample in samples ])

Чтобы уменьшить использование памяти (если вы испытываете CUDA из ошибок в памяти), сначала попробуйте самую низкую настройку для следующих гиперпараметров и в конечном итоге увеличьте их:

 # micro batch size per gpu
config . train . batch_size = 1
# freeze all transformer layers
config . model . num_layers_unfrozen = 0
# maximum sample length, prompts or samples longer than that will be truncated
config . train . seq_length = 128

# micro batch size for sampling (specific for PPO)
config . method . chunk_size = 1
# use an additional Q-head (specific for ILQL)
config . method . two_qs = False

Сохраните полученную модель в модели с обнимающим лицом, предварительно проведенной языком. (Готовы загрузить в концентратор!)

 trainer . save_pretrained ( '/path/to/output/folder/' )

Использовать ? Ускорить, чтобы запустить распределенное обучение

accelerate config # choose DeepSpeed option
accelerate launch examples/simulacra.py

Используйте Nemo-Megatron для запуска распределенного обучения

Следуйте инструкциям по настройке в Nemo Readme.

python examples/nemo_ilql_sentiments.py

Для получения дополнительной информации увидеть Nemo Readme

Используйте Ray Tune, чтобы запустить гиперпараметр

ray start --head --port=6379
python -m trlx.sweep --config configs/sweeps/ppo_sweep.yml --accelerate_config configs/accelerate/ddp.yaml --num_gpus 4 examples/ppo_sentiments.py

Считайте свою вилку TRLX против `main` филиала TRLX

python -m trlx.reference octocat/trlx-fork:fix-branch

Регистрация

TRLX использует стандартную библиотеку logging Python для регистрации информации об обучении в консоли. Регистратор по умолчанию устанавливается на уровень INFO , что означает, что INFO , WARNING , ERROR и сообщения CRITICAL уровне будут напечатаны на стандартный вывод.

Чтобы напрямую изменить уровень журнала, вы можете использовать установщик условности. Например, чтобы установить уровень журнала на использование WARNING :

 import trlx

trlx . logging . set_verbosity ( trlx . logging . WARNING )

Это подавит сообщения об INFO уровне, но все же печатает WARNING , ERROR и сообщения CRITICAL уровне.

Вы также можете управлять многословной регистрацией, установив переменную среды TRLX_VERBOSITY для одного из стандартных имен уровней журнала:

CRITICAL ( trlx.logging.CRITICAL )
ERROR ( trlx.logging.ERROR )
WARNING ( trlx.logging.WARNING )
INFO ( trlx.logging.INFO )
DEBUG ( trlx.logging.DEBUG )

 export TRLX_VERBOSITY=WARNING

По умолчанию бары прогресса tqdm используются для отображения прогресса обучения. Вы можете отключить их, вызывая trlx.logging.disable_progress_bar() , в противном случае trlx.logging.enable_progress_bar() для включения.

Сообщения могут быть отформатированы с большей детализацией, установив trlx.logging.enable_explicit_format() . Это приведет к отладке информацию о месте вызовов в каждый журнал, что может быть полезно для отладки.

[2023-01-01 05:00:00,000] [INFO] [ppo_orchestrator.py:63:make_experience] [RANK 0] Message...

Совет: Чтобы уменьшить количество выходных данных, вы можете найти полезным изменение уровней журналов сторонних библиотек, используемых TRLX. Например, попробуйте добавить transformers.logging.set_verbosity_error() transformers

Внося

Для разработки ознакомьтесь с этими рекомендациями, а также прочитайте наши документы

Цитируя TRLX

 @inproceedings{havrilla-etal-2023-trlx,
    title = "trl{X}: A Framework for Large Scale Reinforcement Learning from Human Feedback",
    author = "Havrilla, Alexander  and
      Zhuravinskyi, Maksym  and
      Phung, Duy  and
      Tiwari, Aman  and
      Tow, Jonathan  and
      Biderman, Stella  and
      Anthony, Quentin  and
      Castricato, Louis",
    booktitle = "Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing",
    month = dec,
    year = "2023",
    address = "Singapore",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2023.emnlp-main.530",
    doi = "10.18653/v1/2023.emnlp-main.530",
    pages = "8578--8595",
}

Благодарности

Большое спасибо Leandro von Werra за участие в TRL, библиотеке, которая изначально вдохновила это репо.

Расширять

Дополнительная информация

Версия v0.7.0: NeMo PPO, PE
Тип Питон
Время обновления 2025-07-14
размер 383.13KB
От Github

Связанные приложения

ToDo Co

2025-03-22
Python Portfolio

2024-11-10
datamule python

2024-11-08
Инструмент диаграмм данных с открытым исходным кодом Redash v24.10.0

2024-11-27
платформа визуализации данных смарт-диаграмм v6.9

2024-11-27
Инструмент нагрузочного тестирования Locus v2.32.0

2024-11-27

trlx

Преобразование трансформатора Learning x

Установка

Примеры

Как тренироваться

Использование функции вознаграждения

Использование наборов наборов данных

Использование набора данных о завершении

Тренеры обеспечивают обертку над своей основной моделью

Настройка гиперпараметров

Сохраните полученную модель в модели с обнимающим лицом, предварительно проведенной языком. (Готовы загрузить в концентратор!)

Использовать ? Ускорить, чтобы запустить распределенное обучение

Используйте Nemo-Megatron для запуска распределенного обучения

Используйте Ray Tune, чтобы запустить гиперпараметр

Считайте свою вилку TRLX против `main` филиала TRLX

Регистрация

Внося

Цитируя TRLX

Благодарности

ToDo Co

Python Portfolio

datamule python

Инструмент диаграмм данных с открытым исходным кодом Redash v24.10.0

платформа визуализации данных смарт-диаграмм v6.9

Инструмент нагрузочного тестирования Locus v2.32.0

chat.petals.dev

GPT Prompt Templates

GPTyped

ToDo Co

Python Portfolio

datamule python

Google Dorks

shepherd

mongo express

trlx

Преобразование трансформатора Learning x

Установка

Примеры

Как тренироваться

Использование функции вознаграждения

Использование наборов наборов данных

Использование набора данных о завершении

Тренеры обеспечивают обертку над своей основной моделью

Настройка гиперпараметров

Сохраните полученную модель в модели с обнимающим лицом, предварительно проведенной языком. (Готовы загрузить в концентратор!)

Использовать ? Ускорить, чтобы запустить распределенное обучение

Используйте Nemo-Megatron для запуска распределенного обучения

Используйте Ray Tune, чтобы запустить гиперпараметр

Считайте свою вилку TRLX против main филиала TRLX

Регистрация

Внося

Цитируя TRLX

Благодарности

Считайте свою вилку TRLX против `main` филиала TRLX