Lama-moss-rlhf-lora
Der RLHF -Code dieses Codes erfordert kein Megatron- oder DeepSpeed -Framework, sondern nur herkömmliche Alchemie -Fackel- und Grafikkarten. Der Kritiker von RLHF verwendet eine reduzierte Version des Ziel -GPT, und Belohnung können wir ein Ähnlichkeitsmodell verwenden, das mit der Zielausgabe verglichen wird. Auf diese Weise müssen Sie nur den Kern -PPO -Algorithmus lernen, und der Rest sind Modelle und Strukturen, die Sie bereits verstanden haben. Es ist sehr förderlich für NLPers Eintritt in RLHF, und es scheint, dass nur RLHF benötigt wird, um das Modell zu beenden.
Lama oder Moos können im Code ausgewählt werden, und die Optimierungsmethode Lora ist optional.
Funktion:
- Definition und Verwendung von RLHF -Datenformatsal
- Das Modell wurde nur mit RLHF√ fein abgestimmt
- Lassen Sie das Modell seinen Meister erkennen
- Modifizieren Sie den selbstkognitiven Stahlstempel
- Name des Meisters
- Roboter -Spitzname
- Batch erzeugt mehrere verschiedene Propts und dann RLHF ×
Installationsumgebung
Die Installationsumgebung bezieht sich auf die extrahierte Anforderung.txt, hauptsächlich Fackel, Transformatoren
- Das Ausführen von Moos erfordert eine beschleunigte Bibliothek
- LORA -LORA erfordert PEFT
- Unter ihnen hat sich PEFT aufgrund seiner schnelleren Updates stark verändert. Hier müssen Sie PEFT als Version 0.2.0 angeben
Wie man benutzt
0 Wählen Sie das von Ihnen benötigte Modell aus (model_name_or_path in rlhf_train_gpt.py und ob lora benötigt wird) und die Vorverarbeitung
- Moos
- Lama
- Müssen eine Kombination aus Lama-basierter Modell und umgeschriebenen LORA-Parametern durchführen
- Python merge_llama_with_chinese_lora_to_hf.py
- Sie können verschiedene Lama -Parametermengen und Lora darin festlegen
- Das generierte HF -Modell wird gespeichert
1 Ändern Sie den gewünschten Besitzernamen und den Spitznamen und führen Sie den folgenden Code aus. Um Zieldaten zu generieren, können Sie auch die Standardeinstellung verwenden.
python data / generate_data . py
2 Start RLHF (LORA) -Basis -Trainingshorn
python rlhf_train_gpt . py
Ressourcenverbrauch
- Moos
- 13b Parametermenge
- Vier 3090er Jahre sind erforderlich, unter denen das Moosmodell etwa 26G -Training 46G -Videospeicher (3 Bilder) laden muss, und eine weitere kritische und Belohnung ist erforderlich. Sie können einen A6000 ausprobieren, der auch laufen kann.
- Insgesamt ungefähr 50 g Videospeicher
- Lama
- 7b Parametermenge
- Zwei 3090er Jahre sind erforderlich, eine für Lama -Beladen und -Training und eine für die Platzierung des kritischen Modells
Effektanzeige
Training etwa 6 Epochen oder wenn das Verhältnis fast 1 ist, bedeutet dies, dass sich die Wahrscheinlichkeit der Modellgenerierung nicht viel verändert hat, sodass Sie es erleben können.
- Was ist Meimei?
- Meimei ist der Spitzname, den ich von meinem Meister gegeben habe.
- Wer hat dir das Mem gegeben?
- Baba ist mein Spitzname.
- Der Meister gab mir die Meimei.
- Wer ist dein Meister?
- Zhang San ist mein Meister.
- Mein Meister ist Zhang San
- Die Verallgemeinerungsfähigkeit wird sehr gut aufrechterhalten
- Wer ist dein Meister
- Mein Meister ist Zhang San.
- Was ist dein Spitzname?
- Wie ist Ihre Beziehung zu Zhang San
- Zhang San ist mein Meister.
- In was ist Ihre Beziehung zu
- Meimei ist der Spitzname, den ich von meinem Meister gegeben habe.
Kontaktinformationen
- Kommunikationsgruppe
- QQ -Gruppe: 788598358
- Wechat Group: Wechat Group kann ausfallen