Feinabstimmung und Inferenz mit Lama-3.1-8b-Modell
Dieses Projekt zeigt, wie das LAMA-3.1-8B-Modell mit LORA-Adaptern, anwenden Chat-Vorlagen angewendet und das Modell für Inferenz speichern kann. Das Modell wird auf lokalen Daten geschult, für parametereffizientes Training optimiert und im Umarmungs-Face-Hub eingesetzt.
Überblick
- Modell : Lama-3.1-8b mit 4-Bit-Quantisierung für die effiziente Speicherverwendung.
- Techniken : Feinabstimmung mit LORA-Adaptern (Low-Rank-Anpassung), Gradientenprüfungen und Chat-Vorlagen.
- Daten : Benutzerdefinierte lokale CSV -Datei, die für das Training verwendet wird.
- Ziel : Trainieren und bereitstellen Sie ein Chatbot-Modell, mit dem Benutzereingaben in konversationsbasierten Formaten behandelt werden können.
Merkmale
- LORA-Adapter : Parametereffiziente Feinabstimmung.
- Quantisierung : Effizienter Speicherverbrauch mit 4-Bit-Präzision.
- CHAT -Vorlagen : Strukturierter Gesprächsfluss mit Tokenisierung.
- Modellbereitstellung : Speichern und Schieben von Modellen zum Umarmen der Gesichtszentren in verschiedenen Quantisierungsformaten.
Installation
Um dieses Projekt auszuführen, müssen Sie die erforderlichen Pakete installieren. Sie können dies in Google Colab oder in Ihrer lokalen Umgebung einrichten:
pip install torch transformers datasets pandas unsloth trl