Download do lotr - Download do código -fonte lotr

lotr

Código-Fonte de IA

v0.1.0

Baixar

LOTR: Adaptação de baixa classificação de tensores de grandes modelos de linguagem

Adaptação de baixa classificação de tensores de grandes modelos de linguagem

Visão geral

Este repositório é a implementação original do LOTR (ARXIV: 2402.01376), uma abordagem nova para ajuste fino com eficiência de parâmetro, que representa uma atualização de gradiente para parâmetros em uma forma de decomposição tensor. O adaptador de baixo rank para cada camada é construído como um produto de três matrizes, e a estrutura do tensor surge do compartilhamento de multiplicadores esquerda e direita deste produto entre as camadas. A compressão simultânea de uma sequência de camadas com representação de tensor de baixo rank permite que o LOTR arquiva uma eficiência de parâmetros ainda melhor do que o LORA, especialmente para modelos profundos. Além disso, o tensor do núcleo não depende da dimensão do peso original e pode ser pequeno pequeno arbitrário, o que permite o ajuste fino extremamente barato e rápido a jusante.

 @misc { bershatsky2024lotr ,
  title         = { {LoTR}: Low Tensor Rank Weight Adaptation } ,
  author        = { Daniel Bershatsky and Daria Cherniuk and Talgat Daulbaev and Aleksandr Mikhalev and Ivan Oseledets } ,
  year          = { 2024 } ,
  eprint        = { 2402.01376 } ,
  archivePrefix = { arXiv } ,
  primaryClass  = { cs.CL }
}

Experimentos

Arquivos de log

Assumimos que todos os resultados do experimento bruto (por exemplo, arquivos de log, antes de tudo) estão localizados no diretório log . A estrutura de alto nível deste diretório deve refletir a configuração experimental. Portanto, o caminho em relação a esse diretório deve ter estrutura da seguinte forma.

 <dataset>/<model>/<method>/<param1>/<param2>/.../<seed>/<tfevents-file>

O segmento do modelo precede o segmento do caminho do método, pois o número de modelos diferentes geralmente é menor que o número de métodos e o pipeline de treinamento geralmente parametrizados pelo modelo e depois pelo método. Todos os parâmetros de ponto flutuante devem ser usados na notação científica para garantir que nenhum dígito significativo seja perdido. O diretório LAT é semente aleatória usada para executar um experimento.

Observe que os requisitos acima são involuntários, pois não há software de gerenciamento de experimentos de aprendizado de máquina completo.

Converção em seta parquet

O Tensorboard tfvents -File são arquivos bastante grandes que demoram muito tempo para ler e carregar. Por isso, convertemos os arquivos de tfevents em arquivos parquet com o seguinte comando.

python -m lotr.tb2parquet log/glue data/glue.parquet 
    --names model method task lr rank seed

Agora, pode -se ler um único arquivo parquet com todas as séries temporais, como segue.

 import pandas as pd
df = pd . read_parquet ( 'data/glue.parquet' )

Para ser mais específico, 20 MB de tfevents -File são convertidos em 200kb de arquivo parquet .

Expandir

Informações adicionais

Versão v0.1.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-02
tamanho 45.56KB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos