LM Infinite Download - LM Infinite Source Code Download

LM-Infinite: generalização de comprimento extremo de tiro zero para modelos de idiomas grandes

Esses são os códigos do papel LM-Infinite: generalização de comprimento extremo zero para grandes modelos de idiomas (Prêmio NAACL 2024 empréstimo em papel) em Pytorch. O trabalho é feito por Chi Han, Qifan Wang, Hao Peng, Wenhan Xiong, Yu Chen, Heng Ji, Sinong Wang.

Índice

Introdução
??? Agora, um substituto para os Transformers do Huggingface!
Requisitos
Estrutura de diretório
Uso
- Preparação de dados
- Preparação do modelo
- Avaliação
  - Perplexidade
  - Avaliando a perplexidade em comprimentos extremos
  - Geração
  - Avaliação tarefas a jusante
    - Recuperação da Passkey
    - Qasper
Citação

Introdução

Neste artigo, os autores propõem um método simples, chamado LM-Infinite, para melhorar a generalização de comprimento de grandes modelos de linguagem com um comprimento extremo de tokens de 200m , sem atualizações adicionais de treinamento ou parâmetros.

Somos motivados pela primeira vez identificando três fatores subjacentes à falha de generalização do comprimento nos LLMs: (a) Fator 1: As distâncias invisíveis entre os tokens causam logits de atenção a explodir. (b) Fator 2: Um número invisível de tokens pode causar atenção a entropia além da faixa de treinamento à medida que o comprimento aumenta. (c) Fator 3: Iniciar poucos tokens ocupam uma região de características distintos e não deve ser descartada.

A idéia principal é usar (1) um $ Lambda $ -padrão de atenção em forma de $ L_ {pretain} $ Tokens, bem como alguns tokens de partida e (2) um limite de distância $ L_ {pretain} $ , para que a distância de atenção seja limitada em $ L_ {pretain} $ . O método proposto é compatível com vários modelos de idiomas de última geração, incluindo, entre outros, a série LLAMA, LLAMA-2, GPT-J, MPT-7B. LM-Infinite também é eficiente computacional, com apenas $ O (n) $ complexidade do tempo.

??? Agora, um substituto para os Transformers do Huggingface!

Implementamos o método LM-Infinite como um substituto para os Transformadores do Huggingface. Depois de carregar os modelos Transformers e, se for um modelo de llama, um modelo MPT ou um modelo GPT-J, você pode executar os seguintes códigos para ativar o LM-Infinite.

Para o modelo de lhama:

 from models.llama import convert_llama_model
model = convert_llama_model(model, 4096, 10)

Para o modelo MPT:

 from models.mpt_7b import convert_mpt_model
model = convert_mpt_model(model, 4096, 10)

Para o modelo GPT-J:

 from models.gpt_j import convert_gpt_j_model
model = convert_gpt_j_model(model, 4096, 10)

Então, você pode usar o modelo como sempre!

Requisitos

Python 3.11
Pytorch 2.0.1
Conjuntos de dados 2.14.4
Tokenizers 0,13.3
Transformers 4.32.1
Sentença 0,1,99
Avalie 0.4.0
ROUGE-SCORE 0.1.2
Protobuf 3.20.3
Acelere 0,22.0
DeepSpeed 0.10.2
TQDM 4.66.1
Einops 0.6.1

Uma lista detalhada de pacotes Python de uma perspectiva da Anaconda pode ser encontrada no requirements.txt . Alguns pacotes foram instalados pela conda e outros por pip . Meus comandos para instalar os requisitos no ambiente Anaconda & Pip são os seguintes:

 conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
conda install -c conda-forge sentencepiece einops cudatoolkit-dev tqdm ipython datasets evaluate rouge-score protobuf accelerate langchain openai
pip install transformers deepspeed

Estrutura de diretório

 ├── LICENSE
├── README.md
├── requirements.txt
├── configs
│   └── zero3_efficient_config.json         # config for deepspeed acceleration
├── data
│   ├── generation_metrics.py
│   ├── get_data.py                         # dataset loading and preprocessing
│   ├── passkey_retrieval
│   │   ├── create_passkey_data.py
│   │   ├── create_passkey_data.sh
│   │   └── passkey_retrieval_accuracy.py
│   └── split_pile_file.py                  # split the Pile dataset into task-specific files
├── models
│   ├── constant.py                         # a constant function model
│   ├── get_llama2
│   │   ├── convert_llama_weights_to_hf.py  # convert llama-2 weights to huggingface format
│   │   └── download_llama2.sh
│   ├── get_model.py
│   ├── gpt_j.py
│   ├── lambda_attention.py                 # efficient implementation of lambda attention
│   ├── llama.py
│   ├── model_base.py
│   └── mpt_7b.py
├── scripts
│   ├── combine_evaluate_generation.py
│   ├── combine_results.py
│   ├── eval_downstream_tasks.py            # evaluate on passkey retrieval task
│   ├── eval_generation.py                  # evaluate generation metrics
│   └── eval_ppl_deepspeed.py               # evaluate perplexity
├── utils
│   ├── arguments.py
│   └── utils.py
└── visualization
    ├── plot_nll.py
    ├── position_pca.py
    └── relative_attention_explosion.py

Uso

Preparação de dados

Para conjuntos de dados, você precisa preparar um conjunto de dados corpus. Se você baixar a fonte da pilha original (https://pile.eleuther.ai) para ${PILE_PATH}/test.jsonl.zst e ${PILE_PATH}/val.jsonl.zst , execute os seguintes comandos para extrair o conjunto de dados compactado.

 cd ${PILE_PATH}
zstd -d ./ test.jsonl.zst
zstd -d ./ val.jsonl.zst

Em seguida, execute os seguintes comandos para dividir o conjunto de dados em arquivos específicos de tarefas.

 cd ${REPOSITORY_ROOT}
mkdir -p ${PILE_PATH}/val
mkdir -p ${PILE_PATH}/test
python data/split_pile_file.py ${PILE_PATH}/val.jsonl ${PILE_PATH}/val
python data/split_pile_file.py ${PILE_PATH}/test.jsonl ${PILE_PATH}/test

No entanto, a pilha oficial não parece estar mais disponível para download, então você provavelmente precisa descobrir outra fonte (por exemplo, https://huggingface.co/datasets/arxiv_dataset ou https://openwebtext2.readthedocs.io/latest/). Como alternativa, você também pode usar seu próprio corpus. Ambas as duas opções exigem que você edite dados/get_data.py.

Preparação do modelo

Para modelos de backbone, o artigo usa llama-2, llama, GPT-J e MPT-7B. Os últimos três modelos estão diretamente disponíveis no hub de modelos HuggingFace, para que não seja necessária ação de antemão. A chave de download do llama-2 precisa ser solicitada no formulário de solicitação Meta AI. Em seguida, execute o seguinte comando

 bash models/get_llama2/download_llama2.sh

e siga os avisos para baixar os pontos de verificação para ${PATH_TO_LLAMA2_CHECKPOINTS} . Em seguida, corra

 python models/get_llama2/convert_llama_weights_to_hf.py 
    --input_dir ${PATH_TO_LLAMA2_CHECKPOINTS} 
    --model_size 7B 
    --output_dir ${PATH_TO_LLAMA2_CHECKPOINTS}/llama-2-7b-hf

Para converter os pontos de verificação LLAMA-2-7B em formato Huggingface.

Avaliação

Os códigos exigem um ${LOG_DIR} para armazenar os logs e os resultados. Selecione um diretório com espaço suficiente.

Perplexidade

Avaliando a perplexidade do modelo LLAMA-2 no conjunto de testes ARXIV.

 TRIAL=llama2-infinite-ArXiv
mkdir -p $LOG_DIR/$TRIAL
CUDA_VISIBLE_DEVICES=0
MASTER_PORT=$(shuf -i 29500-65535 -n 1)
DS_SKIP_CUDA_CHECK=1 PYTHONPATH=. deepspeed --include localhost:$CUDA_VISIBLE_DEVICES --master_port $MASTER_PORT scripts/eval_ppl_deepspeed.py 
    --deepspeed_config configs/zero3_efficient_config.json 
    --model ${PATH_TO_LLAMA2_CHECKPOINTS}/llama-2-7b-hf --tokenizer_path ${PATH_TO_LLAMA2_CHECKPOINTS} 
    --use_lambda_attention --local_branch 4096 --global_branch 100 --limit_distance 4096 
    --dataset the_pile --dataset_group ArXiv --split test --dataset_dir ${PILE_PATH} 
    --max_length 32770 
    --log_dir $LOG_DIR/$TRIAL

Uma breve explicação dos argumentos:

--model : o caminho ou nome para modelar. PASS decapoda-research/llama-7b-hf para usar llama, mosaicml/mpt-7b para usar o MPT-7B e EleutherAI/gpt-j-6b para usar o GPT-J-6b.
--tokenizer_path : o caminho para o tokenizer. Remova esse argumento se não estiver usando llama-2.
--use_lambda_attention : use a atenção do lambda. (Necessário para LM-Infinite)
--local_branch : o tamanho da filial local. 2048 para llama, MPT-7B e GPT-J (necessário para LM-Infinite)
--global_branch : o tamanho da filial global. A faixa 10-100 fornece efeito geralmente semelhante. (Necessário para LM-Infinite)
--limit_distance : o limite de distância. 2048 para llama, MPT-7B e GPT-J (necessário para LM-Infinite)
--dataset : o nome do conjunto de dados. Consulte Data/get_data.py para descobrir como usar conjuntos de dados personalizados.

Se você deseja avaliar modelos de baunilha sem LM-Infinite, basta remover o --use_lambda_attention --local_branch 4096 --global_branch 100 --limit_distance 4096 .

Se você deseja avaliar apenas um subconjunto do conjunto de testes, poderá usar o argumento --start_data_from para especificar o índice inicial do conjunto de testes e/ou --max_data_num para especificar o número de exemplos após esse índice.

Avaliando a perplexidade em comprimentos extremos


TRIAL=llama2-infinite-ArXiv-extreme
CUDA_VISIBLE_DEVICES=0
MASTER_PORT=$(shuf -i 29500-65535 -n 1)
echo port: $MASTER_PORT
mkdir -p $LOG_DIR/$TRIAL
DS_SKIP_CUDA_CHECK=1 PYTHONPATH=. deepspeed --include localhost:$CUDA_VISIBLE_DEVICES --master_port $MASTER_PORT scripts/eval_infinite_ppl.py 
    --deepspeed_config configs/zero3_efficient_config.json 
    --model ${PATH_TO_LLAMA2_CHECKPOINTS}/llama-2-7b-hf --tokenizer_path ${PATH_TO_LLAMA2_CHECKPOINTS} 
    --use_lambda_attention --local_branch 4096 --global_branch 10 --limit_distance 4096 
    --dataset the_pile --dataset_group ArXiv --split test --dataset_dir ${PILE_PATH} 
    --streaming_length 200000000 --max_length 128000 --start_data_from 2300 
    --log_dir $LOG_DIR/$TRIAL

Geração

Gerando avaliação do modelo LLAMA-2 no conjunto de testes ARXIV.


TRIAL=llama2-infinite-generate-ArXiv
mkdir -p $LOG_DIR/$TRIAL
CUDA_VISIBLE_DEVICES=0
MASTER_PORT=$(shuf -i 29500-65535 -n 1)
DS_SKIP_CUDA_CHECK=1 PYTHONPATH=. deepspeed --include localhost:$CUDA_VISIBLE_DEVICES --master_port $MASTER_PORT scripts/eval_generation.py 
    --deepspeed_config configs/zero3_efficient_config.json 
    --model ${PATH_TO_LLAMA2_CHECKPOINTS}/llama-2-7b-hf --tokenizer_path ${PATH_TO_LLAMA2_CHECKPOINTS} 
    --use_lambda_attention --local_branch 4096 --global_branch 100 --limit_distance 4096 
    --dataset the_pile --dataset_group ArXiv --split test --dataset_dir ${PILE_PATH} 
    --max_length 33000 
    --max_generation_length 100 --evaluate_metrics --evaluate_positions 4096 8192 12288 16384 
    --log_dir $LOG_DIR/$TRIAL

Avaliação tarefas a jusante

Recuperação da Passkey

Primeiro, precisamos preparar o conjunto de dados de recuperação da Passkey.

 for MAX_LENGTH in 2048 3072 4096 5120 6144 7168 8192 10240 12288 14335 16384; do
    echo $MAX_LENGTH
    python data/passkey_retrieval/create_passkey_data.py 
        --token-length $MAX_LENGTH 
        --dump-file-path ${PASSKEY_DATA}/${MAX_LENGTH} 
        --tokenizer-path ${PATH_TO_LLAMA2_CHECKPOINTS} 
        --num-samples 1000
done

Então, vamos avaliar a tarefa de recuperação da Passkey.


CUDA_VISIBLE_DEVICES=0
for MAX_LENGTH in 6144 8192 10240 12288 16384; do
    TRIAL=llama2-infinite-passkey-$MAX_LENGTH
    mkdir -p $LOG_DIR/$TRIAL
    MASTER_PORT=$(shuf -i 29500-65535 -n 1)
    DS_SKIP_CUDA_CHECK=1 PYTHONPATH=. deepspeed --master_port $MASTER_PORT --include localhost:$CUDA_VISIBLE_DEVICES scripts/eval_downstream_tasks.py 
        --deepspeed_config configs/zero3_efficient_config.json 
        --model ${PATH_TO_LLAMA2_CHECKPOINTS}/llama-2-7b-hf --tokenizer_path ${PATH_TO_LLAMA2_CHECKPOINTS} 
        --use_lambda_attention --local_branch 4096 --global_branch 10 --limit_distance 4096 --triangle_offset 0 
        --top_k_attention 5 --top_k_from_layer 4 
        --dataset passkey_retrieval --dataset_dir ${PASSKEY_DATA} --dataset_group ${MAX_LENGTH} 
        --max_generation_length 7 --evaluate_metrics 
        --log_dir $LOG_DIR/$TRIAL
done

Qasper

Executando a tarefa Qasper:


CUDA_VISIBLE_DEVICES=0
DATASET=qasper
TRIAL=llama2-infinite-$DATASET
mkdir -p $LOG_DIR/$TRIAL
MASTER_PORT=$(shuf -i 29500-65535 -n 1)
echo port: $MASTER_PORT
DS_SKIP_CUDA_CHECK=1 PYTHONPATH=. deepspeed --include localhost:$CUDA_VISIBLE_DEVICES --master_port $MASTER_PORT scripts/eval_downstream_tasks.py 
    --deepspeed_config configs/zero3_efficient_config_large.json 
    --model ${PATH_TO_LLAMA2_CHECKPOINTS}/llama-2-7b-hf --tokenizer_path ${PATH_TO_LLAMA2_CHECKPOINTS} 
    --use_lambda_attention --local_branch 4096 --global_branch 10 --limit_distance 4096 --triangle_offset 0 
    --top_k_attention 5 --top_k_from_layer 4 
    --dataset $DATASET --split test --evaluate_metrics 
    --max_length 6144 --truncation_side center 
    --log_dir $LOG_DIR/$TRIAL

Citação

 @inproceedings{han2024lm,
  title={LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models},
  author={Han, Chi and Wang, Qifan and Peng, Hao and Xiong, Wenhan and Chen, Yu and Ji, Heng and Wang, Sinong},
  booktitle={Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers)},
  pages={3991--4008},
  year={2024}
}

Expandir