Download Bitune - download do código -fonte Bitune

Bitune

Código-Fonte de IA

1.0.0

Baixar

Bitune: Tuneamento de instrução bidirecional

[ Paper ] [ Website ]

Esse código -fonte contém a implementação do Bitune e é suficiente reproduzir os resultados do artigo. Observe que foi usado para explorar idéias diferentes, e muitos componentes têm nomes diferentes ou se referem a conceitos não mencionados no artigo.

Planejamos lançar um repositório limpo para o Bitune em um futuro próximo.

LM-Evaluation-Harness

O Diretório de lm-evaluation-harness contém o repositório de Eleutherai/LM-Evaluation-Harness, adaptado ao nosso método. Você pode instalá -lo com o seguinte comando:

pip install -e lm-evaluation-harness

Configuração

Defina o caminho absoluto adequado para este diretório no arquivo common_0.sh .
O script de avaliação requer wandb para registro. Atualizar a linha 57 do eval.py com seu nome de usuário wandb .

Scripts

Configuração de ajuste de instrução : Execute o script instruct.sh .
Treinamento de tarefas a jusante : execute o script downstream.sh . Certifique -se de definir o número correto de etapas de atualização (com base nos valores fornecidos no apêndice) e descomentar as linhas apropriadas para o nome do conjunto de dados, avaliações (na parte inferior) e o nome do método.
Ablações : Uncomment as linhas para ablação selecionada em ablations.sh e execute o script.

Uma breve visão geral do código _{^{de espaguete}}

A implementação exigiu algumas modificações de classes de modelos Huggingface, disponíveis no diretório models :
- KV-cache modificado, por isso mantém o gráfico de computação para gradientes.
- Adicionado módulos de mistura com coeficientes treináveis ( pass_scale_k , pass_scale_v ).
- Máscara de atenção modificada com base no parâmetro enforce_bidir da função forward() .
- Adicionado um snippet de código dentro da função forward() responsável por chamar o wrapper Bitune .
O wrapper Bitune ( _pass_fn() no arquivo passes.py ):
- Passa o prompt através do modelo duas vezes para obter dois conjuntos de cache KV, enquanto define adaptadores LORA adequados e máscaras de atenção para cada passagem.
- Chamadas Mixing Módulos para combinar dois conjuntos de recursos ( pass_scale_k , pass_scale_v ).
- Faz o passe final na resposta (em caso de treinamento) ou gera o token da primeira resposta (para inferência). No caso de uma geração adicional de tokens, o Bitune Wrapper não é chamado, pois o cache KV do prompt já é obtido e armazenado, portanto a geração continua como no modelo não modificado.
- Define todos os parâmetros de Lora como treináveis novamente, pois, por padrão, a Biblioteca peft define adaptadores inativos como não transíveis.
O módulo de mistura ( PassScale classe definido em models/think_gemma.py ):
- Contém coeficientes treináveis para misturar dois conjuntos de recursos, separados para chaves e valores, portanto, dois coeficientes por bloco de atenção do modelo.
- Define forward() Função que aplica a operação de mistura com base na variante especificada na configuração ( config.pass_type ). Nosso método final é definido pela variante 607 (a usada para experimentos) e sua versão 801 simplificada.

Versões da biblioteca

As seguintes versões das bibliotecas foram usadas:

transformers==4.38.2
peft==0.11.1
datasets==2.18.0
evaluate==0.4.0

Bibtex

 @misc { kopiczko2024bitune ,
      title = { Bitune: Bidirectional Instruction-Tuning } ,
      author = { Dawid J. Kopiczko and Tijmen Blankevoort and Yuki M. Asano } ,
      year = { 2024 } ,
      eprint = { 2405.14862 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CL }
}