LLaMA MOSS RLHF LoRA DOWNLOAD - LLaMA MOSS RLHF LoRA Quellcode Download

LLaMA MOSS RLHF LoRA

AI-Quellcode

1.0.0

Herunterladen

Lama-moss-rlhf-lora

Der RLHF -Code dieses Codes erfordert kein Megatron- oder DeepSpeed -Framework, sondern nur herkömmliche Alchemie -Fackel- und Grafikkarten. Der Kritiker von RLHF verwendet eine reduzierte Version des Ziel -GPT, und Belohnung können wir ein Ähnlichkeitsmodell verwenden, das mit der Zielausgabe verglichen wird. Auf diese Weise müssen Sie nur den Kern -PPO -Algorithmus lernen, und der Rest sind Modelle und Strukturen, die Sie bereits verstanden haben. Es ist sehr förderlich für NLPers Eintritt in RLHF, und es scheint, dass nur RLHF benötigt wird, um das Modell zu beenden.

Lama oder Moos können im Code ausgewählt werden, und die Optimierungsmethode Lora ist optional.

Funktion:

Definition und Verwendung von RLHF -Datenformatsal
Das Modell wurde nur mit RLHF√ fein abgestimmt
Lassen Sie das Modell seinen Meister erkennen
- Modifizieren Sie den selbstkognitiven Stahlstempel
  - Name des Meisters
  - Roboter -Spitzname
Batch erzeugt mehrere verschiedene Propts und dann RLHF ×

Installationsumgebung

Die Installationsumgebung bezieht sich auf die extrahierte Anforderung.txt, hauptsächlich Fackel, Transformatoren

Das Ausführen von Moos erfordert eine beschleunigte Bibliothek
LORA -LORA erfordert PEFT
- Unter ihnen hat sich PEFT aufgrund seiner schnelleren Updates stark verändert. Hier müssen Sie PEFT als Version 0.2.0 angeben

Wie man benutzt

0 Wählen Sie das von Ihnen benötigte Modell aus (model_name_or_path in rlhf_train_gpt.py und ob lora benötigt wird) und die Vorverarbeitung

Moos
- Keine Vorverarbeitung
Lama
- Müssen eine Kombination aus Lama-basierter Modell und umgeschriebenen LORA-Parametern durchführen
- Python merge_llama_with_chinese_lora_to_hf.py
- Sie können verschiedene Lama -Parametermengen und Lora darin festlegen
- Das generierte HF -Modell wird gespeichert

1 Ändern Sie den gewünschten Besitzernamen und den Spitznamen und führen Sie den folgenden Code aus. Um Zieldaten zu generieren, können Sie auch die Standardeinstellung verwenden.

 python data / generate_data . py

2 Start RLHF (LORA) -Basis -Trainingshorn

 python rlhf_train_gpt . py

Ressourcenverbrauch

Moos
- 13b Parametermenge
- Vier 3090er Jahre sind erforderlich, unter denen das Moosmodell etwa 26G -Training 46G -Videospeicher (3 Bilder) laden muss, und eine weitere kritische und Belohnung ist erforderlich. Sie können einen A6000 ausprobieren, der auch laufen kann.
- Insgesamt ungefähr 50 g Videospeicher
Lama
- 7b Parametermenge
- Zwei 3090er Jahre sind erforderlich, eine für Lama -Beladen und -Training und eine für die Platzierung des kritischen Modells

Effektanzeige

Training etwa 6 Epochen oder wenn das Verhältnis fast 1 ist, bedeutet dies, dass sich die Wahrscheinlichkeit der Modellgenerierung nicht viel verändert hat, sodass Sie es erleben können.

Was ist Meimei?
- Meimei ist der Spitzname, den ich von meinem Meister gegeben habe.
Wer hat dir das Mem gegeben?
- Baba ist mein Spitzname.
- Der Meister gab mir die Meimei.
Wer ist dein Meister?
- Zhang San ist mein Meister.
- Mein Meister ist Zhang San
Die Verallgemeinerungsfähigkeit wird sehr gut aufrechterhalten
- Wer ist dein Meister
  - Mein Meister ist Zhang San.
- Was ist dein Spitzname?
  - Mein Spitzname ist blöd.
- Wie ist Ihre Beziehung zu Zhang San
  - Zhang San ist mein Meister.
- In was ist Ihre Beziehung zu
  - Meimei ist der Spitzname, den ich von meinem Meister gegeben habe.