Téléchargement EasyRLHF - Téléchargement du code source EasyRLHF

EasyRLHF

Code Source AI

1.0.0

Télécharger

Easyrlhf

Easyrlhf vise à fournir une interface facile et minimale pour former des modèles de langage aligné, en utilisant des solutions et des ensembles de données standard (c'est-à-dire un entraîneur HF, des ensembles de données HF, Deeppeed, TRL).

Les sections suivantes couvriront des concepts approximatifs de méthodes d'alignement (RLHF, RRHF, DPO, IPO) et fourniront des exemples d'exécution.

Présentation du RLHF

Comme le montre le papier instructgpt, nous pouvons former un modèle de récompense et renforcer un modèle de langue pour mieux suivre les instructions humaines. Nous pouvons d'abord entraîner le modèle de récompense et SFT-LM avec un ensemble de données hh-rlhf et un ensemble de données slimorca-dedup respectivement. Ensuite, PPO-LM peut être formé avec la bibliothèque TRL.

flux de travail

Former un modèle de récompense

Nous avons besoin d'un ensemble de données de comparaison par paire pour former un modèle de récompense. Dans le document InstructGpt, les auteurs ont utilisé 4 ~ 9 continuations classées sur la même invite. Par exemple, A < B < C = D < E est une séquence classée et on peut échantillonner deux échantillons arbitraires (A et C). Ici, C gagne sur A sur la préférence humaine. Ainsi, nous modélisons logit of C - logit of A pour être les cotes logarithmiques de C étant une meilleure démonstration que A. logit of X peut être calculé par une tête linéaire attachée en haut d'un décodeur de transformateur. Nous utilisons un ensemble de données standard à partir de HH-RLHF par Anthropic. Cet ensemble de données est déjà plat, nous n'avons donc pas à nous soucier des schémas d'échantillonnage discutés dans InstructGpt Paper.

Former un modèle SFT (supervisé FineTened) (WIP)

Nous pouvons former un modèle SFT avec une prédiction standard à l'aide de Slimorca-Dedup.

Former un modèle PPO (WIP)

Maintenant que nous avons un modèle de récompense et un modèle SFT, nous pouvons faire l'apprentissage du renforcement avec des packages RL standard conçus pour les modèles de langage. Nous utilisons TRLTO renforcer le modèle SFT. Au stade PPO, nous conservons la copie du modèle SFT pour référence. Ce modèle de référence permet au modèle de comportement d'apprendre à augmenter les préférences humaines tout en évitant le piratage de récompense. Plus précisément, le modèle de comportement génère d'abord une invite d'achèvement donnée. Les distributions de jetons sont maintenues à proximité du modèle de référence en minimisant la divergence de KL par rapport à la distribution de jetons du modèle de référence. Un achèvement est alimenté pour récompenser le modèle pour obtenir un score de récompense. Le terme KL et le score de récompense sont additionnés et considérés comme une récompense pour l'algorithme PPO.

Start

Préparer un environnement virtuel (facultatif)

 conda create -n easy-rlhf python=3.8

Exigences de clonage et d'installation

 git clone https://github.com/DaehanKim/EasyRLHF.git
cd EasyRLHF
pip install .

Unzip HH-RLHF Dataset et entraînez un modèle de récompense en utilisant rm_train CMD

 cd data
find . -name '*.gz' -print0 | xargs -0 gzip -d
rm_train --devices "0,1,2,3" 
--output_dir "outputs/my-model" 
--train_data data/helpful-base/train.jsonl,data/helpful-online/train.jsonl,data/helpful-rejection-sampled/train.jsonl 
--valid_data data/helpful-base/test.jsonl,data/helpful-online/test.jsonl,data/helpful-rejection-sampled/test.jsonl

Alternativement, vous pouvez utiliser scripts/rm_train.sh pour des paramètres plus personnalisés

Notes

Le modèle par défaut est GPT2-XL (1,5b) et la perte est l'entropie croisée binaire.
Deeppeed Config est en configs/ds_config.yaml où vous pouvez définir votre paramètre distribué préféré. La valeur par défaut est définie sur un parallélisme zéro-2.
Faire
- Formation du modèle de récompense de base
- Formation de base du modèle SFT
- Formation de base du modèle PPO

Présentation du RRHF

TBD

Présentation du DPO

TBD

Aperçu de l'introduction en bourse

TBD

Références

Papier instructgpt
trl
HH-RLHF
slimorca-dedup
Rrhf
DPO
Introduction en bourse

Licence

Ce projet lie simplement les bibliothèques et les ensembles de données provenant de diverses sources, ce qui est en vertu des termes de licence de sources correspondantes. Le script de liaison lui-même est le MIT sous licence.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-06
taille 75.62MB
Provenant de Github

Applications connexes

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout