Flossen einige Zauberermodelle mit Qlora
https://youtu.be/hkt5nz0buso?si=hnmylp_z5sgzlmbm
Fonetuning kann mit dem finetune.py -Skript durchgeführt werden. In diesem Skript wird ein Modell in einem der Datensätze in 4-Bit-Präzision heruntergeladen und finationstuniert. Wenn Feckergebnisse erzielt werden, werden Checkpoints im angegebenen Ausgabeverzeichnis gespeichert.
Nach dem Training des Modells sollte eine der Checkpoint -Dateien zusammengeführt werden, damit die Lora -Gewichte und alte Gewichte zu einer einzelnen Gewichtsmatrix kombiniert werden, was die Inferenz effizienter macht als wenn Sie sie geteilt haben. merge.py führt den Merge bei einer angegebenen Checkpoint -Datei und dem angegebenen Modelltyp durch.
Inferenz hat ein paar Skripte. infer.py und infer.ipynb sind ähnlich und laufen einfach geradezu in einem bestimmten Modell. infer_interface.ipynb verfügt über eine zusätzliche Schnittstelle mit Gradio.
upload.py kann verwendet werden, um Huggingface -Modelle in den Hub hochzuladen, um einen Repo -Namen zum Hochladen zu erhalten. Stellen Sie sicher, dass Sie ein write -Token vom Umarmungsface zum richtigen Hochladen erhalten.
data_creation.ipynb ist ein einfaches Beispiel für die Datenerstellung.