Finetuning alguns modelos de assistência com qlora
https://youtu.be/hkt5nz0buso?si=hnmylp_z5sgzlmbm
Finetuning pode ser feito com o script finetune.py . Neste script, um modelo será baixado e fino em um dos conjuntos de dados com precisão de 4 bits. À medida que o progresso da Finetuning está sendo feito, os pontos de verificação são salvos no diretório de saída especificado.
Depois que o modelo é treinado, um dos arquivos do ponto de verificação deve ser mesclado para que os pesos da Lora e os pesos antigos sejam combinados em uma única matriz de peso, tornando a inferência mais eficiente do que se você tivesse dividido. merge.py faz a mesclagem, recebendo um arquivo de ponto de verificação especificado e o tipo de modelo especificado.
A inferência tem alguns scripts. infer.py e infer.ipynb são semelhantes e apenas executam inferência direta em um determinado modelo. infer_interface.ipynb possui uma interface adicional usando graduio.
upload.py pode ser usado para fazer upload de modelos Huggingface para o hub facilmente, com um nome de repo para fazer upload. Certifique -se de obter um token write do Huggingface para fazer upload corretamente.
data_creation.ipynb é um exemplo simples de criação de dados.