Lama-Moss-rlhf-lora
Le code RLHF de ce code ne nécessite pas de framework Megatron ou Deeppeed, il ne nécessite que des cartes de torche d'alchimie traditionnelles et de graphiques. Le critique de RLHF utilise une version réduite du GPT cible, et la récompense, nous pouvons utiliser un modèle de similitude qui se compare à la sortie cible. De cette façon, il vous suffit d'apprendre l'algorithme PPO de base, et les autres sont des modèles et des structures que vous avez déjà compris. Il est très propice à l'entrée de NLPER dans RLHF, et il semble que seul RLHF soit nécessaire peut-être le modèle.
Llama ou Moss peuvent être sélectionnés dans le code et la méthode d'optimisation LORA est facultative.
Fonction:
- Définition et utilisation du format de données RLHF√
- Le modèle a été affiné en utilisant uniquement RLHF√
- Laissez le modèle reconnaître son maître√
- Modifier le tampon en acier autocognitif
- Nom du maître
- Surnom du robot
- Le lot génère plusieurs multipts différents, puis RLHF ×
Environnement d'installation
L'environnement d'installation fait référence à l'exigence extraite.txt, principalement torche, transformateurs
- Exécuter de la mousse nécessite une bibliothèque accélérée
- Running Lora nécessite du PEFT
- Parmi eux, PEFT a beaucoup changé en raison de ses mises à jour plus rapides. Ici, vous devez spécifier PEFT en version 0.2.0
Comment utiliser
0 Sélectionnez le modèle dont vous avez besoin (Définissez Model_name_OR_PATH dans RLHF_TRAIN_GPT.PY, et si LORA est nécessaire), et le prétraitement
- mousse
- lama
- Besoin d'effectuer une combinaison de modèle basé sur LLAMA et de paramètres LORA recyclés
- Python Merge_llama_With_Chinese_lora_To_Hf.py
- Vous pouvez y définir différentes quantités de paramètres de lama et Lora
- Le modèle HF généré est enregistré
1 Modifiez le nom et le surnom du propriétaire que vous souhaitez et exécutez le code suivant. Pour générer des données cibles, vous pouvez également utiliser celle par défaut.
python data / generate_data . py
2 Start RLHF (LORA) Corège d'entraînement basé
python rlhf_train_gpt . py
Consommation de ressources
- mousse
- Quantité de paramètre 13B
- Quatre 3090 sont nécessaires, parmi lesquels le modèle MOSS doit charger environ 26 g de mémoire vidéo de formation 46 g (3 images), et une autre critique et récompense est nécessaire. Vous pouvez essayer un A6000, qui peut également fonctionner.
- Total d'environ 50 g de mémoire vidéo
- lama
- Quantité de paramètre 7B
- Deux 3090 sont nécessaires, un pour le chargement et la formation de lama, et un pour placer le modèle critique
Affichage d'effet
La formation d'environ 6 époques, ou lorsque le rapport est presque 1, cela signifie que la probabilité de génération de modèles n'a pas beaucoup changé, vous pouvez donc en faire l'expérience.
- Qu'est-ce que Meimei?
- Meimei est le surnom qui m'a été donné par mon maître.
- Qui vous a donné le mème?
- Baba est mon surnom.
- Le maître m'a donné le Meimei.
- Qui est votre maître?
- Zhang San est mon maître.
- Mon maître est Zhang San
- La capacité de généralisation est très bien maintenue
- qui est ton maître
- Mon maître est Zhang San.
- Quel est votre surnom
- Quelle est votre relation avec Zhang San
- Zhang San est mon maître.
- Quelle est votre relation avec
- Meimei est le surnom qui m'a été donné par mon maître.
Coordonnées
- Groupe de communication
- Groupe QQ: 788598358
- Groupe WeChat: le groupe WeChat peut expirer