Fintuning certains modèles de sorcier avec Qlora
https://youtu.be/hkt5nz0buso?si=hnmylp_z5sgzlmbm
Finetuning peut être fait avec le script finetune.py . Dans ce script, un modèle sera téléchargé et finetuné sur l'un des ensembles de données de précision 4 bits. À mesure que les progrès de la fin du Finetuning sont réalisés, les points de contrôle sont enregistrés dans le répertoire de sortie spécifié.
Une fois le modèle formé, l'un des fichiers de point de contrôle doit être fusionné afin que les poids LORA et les anciens poids soient combinés en une matrice de poids unique, ce qui rend l'inférence plus efficace que si vous les aviez divisées. merge.py fait la fusion étant donné un fichier de point de contrôle spécifié et le type de modèle spécifié.
L'inférence a quelques scripts. infer.py et infer.ipynb sont similaires et exécutent simplement une inférence droite sur un modèle donné. infer_interface.ipynb a une interface supplémentaire en utilisant Gradio.
upload.py peut être utilisé pour télécharger des modèles HuggingFace sur le centre facilement, donné un nom de réapprovisionnement à télécharger. Assurez-vous d'obtenir un jeton write de HuggingFace pour télécharger correctement.
data_creation.ipynb est un exemple simple de création de données.