trlx -Download - trlx -Quellcode -Download

trlx

Python

v0.7.0: NeMo PPO, PE

Herunterladen

Transformator Verstärkung Lernen x

TRLX ist ein verteiltes Trainingsrahmen, das von Grund auf entworfen wurde, um sich auf die Feinabstimmung von großsprachigen Modellen mit Verstärkungslernen zu konzentrieren, indem sie entweder eine bereitgestellte Belohnungsfunktion oder einen Belohnungsdatensatz unter Verwendung einer gelieferten Belohnungsfunktion verwenden.

Trainingsunterstützung für? Umarmende Gesichtsmodelle werden von Accelerate-Backed-Trainern bereitgestellt, mit denen Benutzer kausale und T5-basierte Sprachmodelle von bis zu 20B-Parametern wie facebook/opt-6.7b , EleutherAI/gpt-neox-20b und google/flan-t5-xxl . Für Modelle, die über 20B-Parameter hinausgehen, bietet TRLX NVIDIA NEMO-unterstützte Trainer, die effiziente Parallelitätstechniken nutzen, um effektiv zu skalieren.

Die folgenden RL -Algorithmen werden derzeit implementiert:

Algorithmus	Trainer beschleunigen	Nemo Trainer
Proximale Politikoptimierung (PPO)	✅	✅
Implizite Sprache Q-Learning (ILQL)	✅	✅

Dokumentation

? Käse sammeln menschliche Annotationen für Ihre RL-Anwendung mit unserer Datenerfassungsbibliothek für Mensch.

Installation

git clone https://github.com/CarperAI/trlx.git
cd trlx
pip install torch --extra-index-url https://download.pytorch.org/whl/cu118
pip install -e .

Beispiele

Weitere Verwendung finden Sie unter Beispiele. Sie können auch die folgenden Colab -Notizbücher ausprobieren:

Beschreibung	Link
Simulacra (GPT2, ILQL)
Gefühl (GPT2, ILQL)

Die neuesten Läufe der Beispiele sind auf unseren Gewichten und Vorurteilen

Wie man trainiert

Sie können ein Modell mithilfe einer Belohnungsfunktion oder einem Belohnungsdatensatz trainieren.

Verwenden einer Belohnungsfunktion

 trainer = trlx . train ( 'gpt2' , reward_fn = lambda samples , ** kwargs : [ sample . count ( 'cats' ) for sample in samples ])

Für das Belohnungsmodell Training finden Sie in unserer Autokrit -Bibliothek.

Verwenden eines Datensatzes mit Belohnungsmarkierung

 trainer = trlx . train ( 'EleutherAI/gpt-j-6B' , samples = [ 'dolphins' , 'geese' ], rewards = [ 1.0 , 100.0 ])

Verwenden eines Datensatzes zur Eingabeaufforderung

 trainer = trlx . train ( 'gpt2' , samples = [[ 'Question: 1 + 2 Answer:' , '3' ], [ 'Question: Solve this equation: ∀n>0, s=2, sum(n ** -s). Answer:' , '(pi ** 2)/ 6' ]])

Trainer stellen einen Wrapper über ihr zugrunde liegendes Modell zur Verfügung

 trainer . generate ( ** tokenizer ( 'Q: Who rules the world? A:' , return_tensors = 'pt' ), do_sample = True )

Konfigurieren Sie Hyperparameter

 from trlx . data . default_configs import default_ppo_config

config = default_ppo_config ()
config . model . model_path = 'EleutherAI/gpt-neox-20b'
config . tokenizer . tokenizer_path = 'EleutherAI/gpt-neox-20b'
config . train . seq_length = 2048

trainer = trlx . train ( config = config , reward_fn = lambda samples , ** kwargs : [ len ( sample ) for sample in samples ])

Um die Speicherverwendung zu verringern (wenn Sie CUDA aus Speicherfehlern erleben), versuchen Sie zunächst die niedrigste Einstellung für die folgenden Hyperparameter und erhöhen Sie sie schließlich:

 # micro batch size per gpu
config . train . batch_size = 1
# freeze all transformer layers
config . model . num_layers_unfrozen = 0
# maximum sample length, prompts or samples longer than that will be truncated
config . train . seq_length = 128

# micro batch size for sampling (specific for PPO)
config . method . chunk_size = 1
# use an additional Q-head (specific for ILQL)
config . method . two_qs = False

Speichern Sie das resultierende Modell in einem umarmenden Gesichtsmodell. (Bereit, auf den Hub hochzuladen!)

 trainer . save_pretrained ( '/path/to/output/folder/' )

Verwenden ? Beschleunigen Sie, um verteilte Schulungen zu starten

accelerate config # choose DeepSpeed option
accelerate launch examples/simulacra.py

Verwenden Sie Nemo-Megatron, um ein verteiltes Training zu starten

Befolgen Sie die Setup -Anweisungen im Nemo Readme.

python examples/nemo_ilql_sentiments.py

Weitere Verwendung finden Sie im Nemo Readme

Verwenden Sie Ray Melodie, um Hyperparameter Sweep zu starten

ray start --head --port=6379
python -m trlx.sweep --config configs/sweeps/ppo_sweep.yml --accelerate_config configs/accelerate/ddp.yaml --num_gpus 4 examples/ppo_sentiments.py

Benchmarkmarke Ihre TRLX -Gabel gegen TRLXs `main`

python -m trlx.reference octocat/trlx-fork:fix-branch

Protokollierung

TRLX verwendet die Standard -Python logging , um Trainingsinformationen in der Konsole zu protokollieren. Der Standardprotokoll ist auf die INFO -Ebene eingestellt, was bedeutet, dass INFO , WARNING , ERROR und CRITICAL Level -Nachrichten auf die Standardausgabe gedruckt werden.

Um die Protokollebene direkt zu ändern, können Sie den ausführlichen Setter verwenden. Zum Beispiel, um die Protokollebene auf WARNING festzulegen:

 import trlx

trlx . logging . set_verbosity ( trlx . logging . WARNING )

Dadurch werden Nachrichten auf INFO -Level unterdrückt, aber dennoch WARNING , ERROR und CRITICAL Level -Nachrichten drucken.

Sie können auch die Ausführlichkeit der Protokollierung steuern, indem Sie die Variable der TRLX_VERBOSITY -Umgebung auf einen der Namensnamen der Protokollierungsebene einstellen:

CRITICAL ( trlx.logging.CRITICAL )
ERROR ( trlx.logging.ERROR )
WARNING ( trlx.logging.WARNING )
INFO ( trlx.logging.INFO )
DEBUG ( trlx.logging.DEBUG )

 export TRLX_VERBOSITY=WARNING

Standardmäßig werden tqdm -Fortschrittsbalken verwendet, um den Trainingsfortschritt anzuzeigen. Sie können sie deaktivieren, indem Sie trlx.logging.disable_progress_bar() , ansonsten trlx.logging.enable_progress_bar() aufrufen, um zu aktivieren.

Nachrichten können durch Einstellen trlx.logging.enable_explicit_format() mit größerem Detail formatiert werden. Dadurch wird jedes Protokollinformationen in die Eingabe von Anruf-Site-Informationen eingerichtet, die beim Debuggen hilfreich sein können.

[2023-01-01 05:00:00,000] [INFO] [ppo_orchestrator.py:63:make_experience] [RANK 0] Message...

Tipp: Um die Menge an Protokollierungsausgabe zu reduzieren, ist es möglicherweise hilfreich, die Protokollpegel von von TRLX verwendeten Bibliotheken von Drittanbietern zu ändern. Versuchen Sie beispielsweise, transformers.logging.set_verbosity_error() zu Ihren TRLX -Skripten hinzuzufügen, um aus der transformers -Bibliothek ausführliche Nachrichten zum Schweigen zu bringen (weitere Details finden Sie in ihren Protokollierungsdokumenten).

Beitragen

Für die Entwicklung finden Sie diese Richtlinien und lesen Sie auch unsere Dokumente

Unter Berufung auf trlx

 @inproceedings{havrilla-etal-2023-trlx,
    title = "trl{X}: A Framework for Large Scale Reinforcement Learning from Human Feedback",
    author = "Havrilla, Alexander  and
      Zhuravinskyi, Maksym  and
      Phung, Duy  and
      Tiwari, Aman  and
      Tow, Jonathan  and
      Biderman, Stella  and
      Anthony, Quentin  and
      Castricato, Louis",
    booktitle = "Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing",
    month = dec,
    year = "2023",
    address = "Singapore",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2023.emnlp-main.530",
    doi = "10.18653/v1/2023.emnlp-main.530",
    pages = "8578--8595",
}

Anerkennung

Vielen Dank an Leandro von Werra für den Beitrag zu TRL, einer Bibliothek, die dieses Repo ursprünglich inspirierte.

Expandieren

Zusätzliche Informationen

Version v0.7.0: NeMo PPO, PE
Typ Python
Aktualisierungszeit 2025-07-14
Größe 383.13KB
Kommt von Github

Ähnliche Anwendungen

ToDo Co

2025-03-22
Python Portfolio

2024-11-10
datamule python

2024-11-08
Redash Open-Source-Datendiagramm-Tool v24.10.0

2024-11-27
SmartChart-Datenvisualisierungsplattform v6.9

2024-11-27
Locust-Lasttesttool v2.32.0

2024-11-27

trlx

Transformator Verstärkung Lernen x

Installation

Beispiele

Wie man trainiert

Verwenden einer Belohnungsfunktion

Verwenden eines Datensatzes mit Belohnungsmarkierung

Verwenden eines Datensatzes zur Eingabeaufforderung

Trainer stellen einen Wrapper über ihr zugrunde liegendes Modell zur Verfügung

Konfigurieren Sie Hyperparameter

Speichern Sie das resultierende Modell in einem umarmenden Gesichtsmodell. (Bereit, auf den Hub hochzuladen!)

Verwenden ? Beschleunigen Sie, um verteilte Schulungen zu starten

Verwenden Sie Nemo-Megatron, um ein verteiltes Training zu starten

Verwenden Sie Ray Melodie, um Hyperparameter Sweep zu starten

Benchmarkmarke Ihre TRLX -Gabel gegen TRLXs `main`

Protokollierung

Beitragen

Unter Berufung auf trlx

Anerkennung

ToDo Co

Python Portfolio

datamule python

Redash Open-Source-Datendiagramm-Tool v24.10.0

SmartChart-Datenvisualisierungsplattform v6.9

Locust-Lasttesttool v2.32.0

chat.petals.dev

GPT Prompt Templates

GPTyped

ToDo Co

Python Portfolio

datamule python

Google Dorks

shepherd

mongo express

trlx

Transformator Verstärkung Lernen x

Installation

Beispiele

Wie man trainiert

Verwenden einer Belohnungsfunktion

Verwenden eines Datensatzes mit Belohnungsmarkierung

Verwenden eines Datensatzes zur Eingabeaufforderung

Trainer stellen einen Wrapper über ihr zugrunde liegendes Modell zur Verfügung

Konfigurieren Sie Hyperparameter

Speichern Sie das resultierende Modell in einem umarmenden Gesichtsmodell. (Bereit, auf den Hub hochzuladen!)

Verwenden ? Beschleunigen Sie, um verteilte Schulungen zu starten

Verwenden Sie Nemo-Megatron, um ein verteiltes Training zu starten

Verwenden Sie Ray Melodie, um Hyperparameter Sweep zu starten

Benchmarkmarke Ihre TRLX -Gabel gegen TRLXs main

Protokollierung

Beitragen

Unter Berufung auf trlx

Anerkennung

Benchmarkmarke Ihre TRLX -Gabel gegen TRLXs `main`