Stellen Sie sicher, dass Sie die Anforderungen für diese Beispiele installieren:
pip install -r requirements-examples.txtBeispiele für Schulungskontrollvektoren aus den verborgenen Zuständen eines Modells, die verwendet werden können, um das Verhalten und die erzeugte Ausgabe während der Inferenz zu beeinflussen.
Lora Training Mistral-7b-Instruct-V0.2 mit dem Nvidia HelpSteer-Datensatz.
Rennen Sie train.sh im helpsteer -Verzeichnis, um das Dataset & Modell aus dem Huggingface herunterzuladen und das LORA -Training zu starten. Sie können die Trainingskonfiguration durch Bearbeiten config.yml anpassen.
DPO-Training QWEN1.5-7B-CHAT mit dem DPO-Mix 7K-Datensatz. Das Training besteht aus einer beaufsichtigten Feinabstimmung (SFT), gefolgt von einer direkten Präferenzoptimierung (DPO).
Rennen Sie train.sh im dpo-mix-7k Verzeichnis, um das Datensatz und das Modell von Huggingface herunterzuladen und das Training zu starten. Sie können die Trainingskonfiguration anpassen, indem Sie die Konfigurationsdateien sft.yml und dpo.yml bearbeiten.
Implementierung des Benchmarks "Massive Multitasking Language Dealing" unter Verwendung des MMLU -Datensatzes.
Führen Sie mmlu.py mit dem Modell aus, das Sie bewerten möchten.
Implementierung des MMLU-Pro-Benchmarks mit dem MMLU-Pro-Datensatz.
Führen Sie mmlu-pro.py mit dem Modell aus, das Sie bewerten möchten.
Berechnung von Verwirrungswerten für einen Beispieldatensatz mit Eingabeabsätzen aus Wikipedia -Artikeln.
Rennen Sie perplexity.py mit dem Modell, das Sie bewerten möchten. Fügen Sie Quantisierungsoptionen hinzu, um Verwirrung mit quantisierten Modellen zu bewerten.