Download de felafax - Download do código fonte felafax

felafax

Outro código-fonte

1.0.0

Baixar

FELAFAX - Tune llama3.1 no Google Cloud TPUS por um custo 30% menor e escala sem problemas!

imagem

O Felafax é uma estrutura para o treinamento contínuo e o ajuste fino LLMS usando o XLA Runtime . Cuidamos da configuração necessária de tempo de execução e fornecemos um notebook Jupyter fora da caixa para começar.

Fácil de usar.
Fácil de configurar todos os aspectos do treinamento (projetados para pesquisadores e hackers de ML).
Treinamento fácil de escalar a partir de uma única VM TPU com 8 núcleos para a POD TPU inteira contendo 6000 núcleos de TPU ( 1000X )!

Nosso objetivo no Felafax é construir a infra para facilitar a execução de cargas de trabalho da IA em hardware não-NVIDIA (TPU, AWS Trainium, AMD GPUs e Intel GPUs).

Finetune gratuitamente

Adicione seu conjunto de dados, clique em "Run All" e você executará o recurso TPU gratuito no Google Colab!

Apoios Felafax	Cadernos grátis
Lhama 3.1 (1b, 3b)	▶ ️ Comece gratuitamente no Google Colab TPU

Modelos atualmente suportados

LLAMA-3.1 JAX IMPLEMENTAÇÃO $$ { color {Red} new!} $$
- Convertido de pytorch em Jax para melhorar o desempenho
- Suporte ao treinamento de precisão completa e Lora para 1B, 3B, 8B, 70B, 405B .
- Corra de maneira eficiente em diversos hardware (TPUS, AWS Trainium, NVIDIA, AMD) através do Backend, otimizado com hardware da Jax, otimizado
- Escala perfeitamente para lidar com comprimentos e conjuntos de dados maiores de contexto, empolgando em vários aceleradores
LLAMA-3/3.1 Pytorch XLA
- Lora e suporte de treinamento de precisão completa
- CodePointer

Executando o ajuste fino via Felafax CLI $$ { color {Red} new!} $$

Comece com o ajuste fino dos seus modelos usando a CLI Felafax em algumas etapas simples.

Etapa 1. Instale a CLI e autentique

Comece instalando a CLI.

pip install pipx
pipx install felafax-cli

Em seguida, gerar um token de autenticação:

Visite FELAFAX.AI e crie/entre na sua conta.
Navegue para a página Tokens e crie um novo token.

Por fim, autentique sua sessão da CLI usando seu token:

felafax-cli auth login --token < your_token >

Etapa 2. Configure a configuração de ajuste fina

Primeiro, gerar um arquivo de configuração padrão para ajuste fino. Este comando gera um arquivo config.yml no diretório atual com valores de hiperparameter padrão.

felafax-cli tune init-config

Segundo, atualize o arquivo de configuração com seus hyperparameters:

Huggingface Knobs:
- Forneça seu token e ID de repositório Huggingface para fazer upload do modelo ajustado.
Parâmetros de pipeline e treinamento do conjunto de dados:
- Ajuste batch_size , max_seq_length para usar para ajustar o conjunto de dados.
- Defina num_steps como null se você deseja que o Trainig seja executado por um conjunto de dados inteiro. Se NUM_STEPS estiver definido como um número, o treinamento será interrompido após o número especificado de etapas.
- Defina learning_rate e lora_rank para usar para ajuste fino.
- eval_interval é o número de etapas entre as avaliações.

Etapa 3. Comece a corrida de ajuste fino

Execute o comando a seguir para ver a lista de modelos básicos que você pode ajustar, apoiamos todas as variantes do llama-3.1 a partir de agora.

felafax-cli tune start --help

Agora, você pode iniciar o processo de ajuste fino com o modelo selecionado da lista acima e o nome do conjunto de dados do HuggingFace (como yahma/alpaca-cleaned ):

felafax-cli tune start --model < your_selected_model > --config ./config.yml --hf-dataset-id < your_hf_dataset_name >

Exemplo de comando para você começar:

felafax-cli tune start --model llama3-2-1b --config ./config.yml --hf-dataset-id yahma/alpaca-cleaned

Depois de iniciar o trabalho de ajuste fino, a Felfaxx CLI cuida de girar as TPUs, executando o treinamento e carrega o modelo de ajuste fino para o hub do Huggingface.

Outros comandos úteis

Monitore o trabalho de ajuste fino

Você pode transmitir logs em tempo real para monitorar o progresso do seu trabalho de ajuste fino:

 # Use `<job_name>` with the job namethat you get after starting the fine-tuning.
felafax-cli tune logs --job-id < job_name > -f

Liste seus modelos de ajuste fino

Após a conclusão do ajuste fino, você pode listar todos os seus modelos de ajuste fino:

felafax-cli model list

Converse com seu modelo de ajuste fino (executa na TPU novamente!):

Você pode iniciar uma sessão interativa do terminal para conversar com seu modelo de ajuste fino:

 # Replace `<model_id>` with model id from `model list` command you ran above.
felafax-cli model chat --model-id < model_id >

Use a ajuda para explorar mais comandos!

A CLI é dividida em três grupos de comando principal:

tune : para iniciar/parar os trabalhos de ajuste fino.
model : para gerenciar e interagir com seus modelos ajustados.
files : Para fazer upload/visualizar seus arquivos do YourDataSet.

Use o sinalizador --help para descobrir mais sobre qualquer grupo de comando:

felafax-cli tune --help

AMD 405B Tuneing Fining Run

Recentemente, ajustamos o modelo LLAMA3.1 405B em GPUs 8xamd MI300X usando JAX em vez de Pytorch. As APIs avançadas de sharding da JAX nos permitiram alcançar um ótimo desempenho. Confira nossa postagem no blog para saber sobre a configuração e os truques de sharding que usamos.

Fizemos um ajuste fino com todos os pesos do modelo e parâmetros de LORA na precisão do BFLOAT16, e com Lora Rank de 8 e Lora Alpha de 16:

Tamanho do modelo: os pesos do modelo de llama ocupam cerca de 800 GB de VRAM.
Pesos Lora + Estado de otimizador: aproximadamente 400 GB de VRAM.
Uso total do VRAM: 77% do VRAM total, cerca de 1200 GB.
Restrições: Devido ao tamanho grande do modelo 405b, havia espaço limitado para o tamanho do lote e o comprimento da sequência. O tamanho do lote usado foi 16 e o comprimento da sequência foi de 64.
Velocidade de treinamento: ~ 35 tokens/segundo
Eficiência de memória: consistentemente cerca de 70%
Escala: com Jax, o escala foi quase linear em 8 GPUs.

Os gráficos de utilização da GPU e utilização de VRAM podem ser encontrados abaixo. No entanto, ainda precisamos calcular a utilização do modelo (MFU). NOTA: Não foi possível executar a versão compilada do JIT do modelo 405B devido a restrições de infraestrutura e VRAM (precisamos investigar mais isso). Toda a execução de treinamento foi executada no modo Jax Eager, portanto, há um potencial significativo para melhorias no desempenho.