Download ContinualLM - download do código -fonte ContinualLM

ContinualLM

Código-Fonte de IA

1.0.0

Baixar

Continuaallm

Imagine um LM que não apenas adquire novos conhecimentos, mas também mantém seu domínio das habilidades, enquanto transferiu com sucesso o conhecimento. É possível?

Notícias

Adicionamos pontos de verificação no rosto abraçando para facilitar a reprodução!
Adicionamos continual_pretrain.ipynb como um exemplo independente do cenário de mascaramento suave. Funciona bem sem GPUs!
A mascaração macia também pode funcionar em ajustes finos contínuos convencionais . Confira nosso mais recente papel EMNLP23!
Quer saber se você pode adaptar um LLM de caixa preta sem se preocupar com a atualização de seus parâmetros? Confira nosso último artigo sobre Geração de Recuperação (RAG) aqui!

Introdução

Em 2021, introduzimos o PyContinual, uma estrutura direta e flexível para o aprendizado contínuo. Nossa pesquisa se beneficiou significativamente com essa estrutura. Hoje, estamos entusiasmados em compartilhar o Continuallm , uma estrutura de aprendizado contínua extensível focada nos modelos de idiomas (LMS), projetada para sustentar os benefícios do aprendizado contínuo (CL) nesse campo.

O aprendizado contínuo para o LMS é distinto do CL tradicional porque

Cada tarefa é tratada como um corpus específico do domínio (atualmente, nosso foco principal está no pré-treinamento adaptativo do domínio, que também é conhecido como pré-finetuning ou pós-treinamento).
Além disso, o processo de avaliação envolve o ajuste fino da tarefa final correspondente.

Nosso repositório inclui uma implementação de Pytorch de uma coleção de métodos de última geração (SOTA), usando o mesmo pipeline de treinamento e avaliação. Este repositório está comprometido em avançar o campo de aprendizado contínuo para o LMS. Os métodos incluídos são:

Do nosso grupo:
- DAS : aprendizado contínuo de modelos de idiomas, ICLR 2023
- CPT : Treinamento contínuo de modelos de idiomas para aprendizado de poucos tiros, EMNLP 2022
- DGA : Adaptando um modelo de idioma ao preservar seu conhecimento geral, EMNLP 2022
- CTR : alcançar o esquecimento da prevenção e transferência de conhecimento em aprendizado contínuo, Neurips 2021
- Classic : Classic: Aprendizagem contínua e contrastiva de tarefas de classificação de sentimentos de aspecto, EMNLP 2021
- B-Cl : Adaptando Bert para o aprendizado contínuo de uma sequência de tarefas de classificação de sentimentos de aspecto, NAACL 2021
De outros grupos (mais por vir) :
- Demix : Demix Camadas: Domínios de desconto para modelagem de linguagem modular; Gururangan et al., NAACL 2022)
- EWC : Superando o esquecimento catastrófico nas redes neurais, Kirkpatrick et al., PNAS 2017
- Der ++ : Experiência sombria para aprendizado contínuo geral: uma linha de base forte e simples, BuzzEga et al., Neurips 2020
- Hat : Superando o esquecimento catastrófico com dura atenção à tarefa, Serrà et al., ICML 2018
Linhas de base amplamente empregadas para aprendizado contínuo:
- NCL : Aprendizagem contínua ingênua: pré-treinamento contínuo de domínio de domínio de uma sequência de domínios, sem nenhuma atenção específica dada aos problemas de esquecimento ou transferência.
- Um : condutor individual de pré-treinamento adaptativo para cada domínio.
- Adaptador-one : adiciona adaptador ao transformador para cada domínio
- Prompt-One : Adiciona prompt ao transformador para cada domínio
- KD : Destilação ingênua de Knoweldge

Exemplo simples

Adicionamos continual_pretrain.ipynb como um exemplo independente do cenário de mascaramento suave. Funciona bem sem GPUs!

Conjunto de dados

Quando se trata do aprendizado contínuo dos modelos de idiomas (LMS), encontrar conjuntos de dados apropriados é crucial. Os conjuntos de dados que fornecemos aderem aos seguintes princípios:

Específico do domínio: o corpus de domínio deve ser específico o suficiente para melhorar o desempenho da tarefa final.
Tarda final disponível : favorecemos a avaliação dos modelos de linguagem treinados através da tarefa final, em vez de confiar na perplexidade, uma vez que o primeiro representa uma abordagem de avaliação mais confiável.

Lançamos nosso conjunto de dados compreendendo 6 domínios distintos, cada um acompanhado por sua tarefa final correspondente. O conjunto de dados pode ser encontrado aqui. Abaixo estão algumas estatísticas para cada domínio:

Corpus de domínio	Tamanho	Tarda final	Tarefa	#Treinamento	#Testing	#Classes
Restaurante Yelp	758 MB	Restaurante	Classificação de sentimentos de aspecto (ASC)	3.452	1.120	3
Amazon Telefone	724 MB	Telefone	Classificação de sentimentos de aspecto (ASC)	239	553	2
Câmera da Amazon	319 MB	Câmera	Classificação de sentimentos de aspecto (ASC)	230	626	2
Documentos da ACL	867 MB	ACL	Classificação de intenção de citação	1.520	421	6
Documentos da IA	507 MB	Ai	Classificação da relação	2.260	2.388	7
PubMed Papers	989 MB	PubMed	Previsão de interação com proteínas químicas	2.667	7.398	13

Arquitetura

A arquitetura de continua a seguir segue em grande parte a de PyContinual, CPT e DGA.

Instalação

conda create --name continuallm --file requirements.txt

️ Nosso modelo é baseado em transformers==4.17.0 e adapter-transformers==3.0.1 . Recomendamos o uso dessas versões específicas, pois o uso de outras versões pode resultar em bugs inesperados.

Pré-treinamento adaptativo para domínio

É aqui que o aprendizado contínuo acontece. Aprenderemos um Sequnce de domínios.

max_samples=640000 
for idrandom in 0 
do    
 for pt_task in 0 1 2 3 4 5    
  do    
 python -m torch.distributed.launch --nproc_per_node 4 --use_env posttrain.py     
 --per_device_train_batch_size 62  
 --fp16     
 --max_seq_length 164  
 --max_samples ${max_samples}  
 --idrandom ${idrandom}  
 --ntasks 6  
 --pt_task ${pt_task}  
 --baseline ' das '
 done 
done

--idrandom : escolha a sequência de tarefas. Veja ./sequences para obter mais detalhes.
--baseline : consulte a introdução para modelos de linha de base disponíveis (consulte choices em config.py ).

Ajuste fina da tarefa final

Após a aprendizagem coníptina do LMS, agora somos capazes de avaliar o desempenho executando o ajuste fino da tarefa final individualmente .

max_samples=640000    
 seed=(2021 111 222 333 444 555 666 777 888 999)    
 for round in 0 ; do    
  for idrandom in 0 ;    
  do    
    for pt_task in 0 1 2 3 4 5   
    do    
      for ft_task in $( seq 0 ${pt_task} ) ;    
      do    
       python finetune.py     
       --max_seq_length 164  
       --pt_task ${pt_task}  
       --ft_task ${ft_task}  
       --idrandom ${idrandom}  
       --ntasks 6  
       --max_samples ${max_samples} 
       --seed ${seed[$round]}  
       --baseline ' das '    
       done    
    done   
  done  
done

Pontos de verificação no huggingface

Para aqueles que estão interessados apenas no modelo resultante ou desejam continuar por treinamento do modelo com seus próprios dados, temos boas notícias! Oferecemos pontos de verificação através do rosto abraçando.

Você pode importar facilmente nosso modelo pós-treino continuamente com transformers da Huggingface!

 import torch
from transformers import AutoTokenizer , AutoModelForSequenceClassification

# Import our model. The package will take care of downloading the models automatically
tokenizer = AutoTokenizer . from_pretrained ( "UIC-Liu-Lab/DAS-Rest2Cam" )
model = AutoModelForSequenceClassification . from_pretrained ( "UIC-Liu-Lab/DAS-Rest2Cam" , trust_remote_code = True )

# Tokenize input texts
texts = [
    "There's a kid on a skateboard." ,
    "A kid is skateboarding." ,
    "A kid is inside the house."
]
inputs = tokenizer ( texts , padding = True , truncation = True , return_tensors = "pt" )

# Get the model output!
res = model ( ** inputs )

Se você encontrar algum problema ao carregar diretamente os modelos pela API do HuggingFace, também poderá baixar os modelos manualmente do repo e usar model = AutoModel.from_pretrained({PATH TO THE DOWNLOAD MODEL}) .

A sequência de pré-treinamento contínua é a primeira sequência em ./sequences/posttrain (do restaurante para a câmera ), você pode usar os pesos baixados para ajustar a tarefa final correspondente.

Se você estiver interessado nos arquivos de importância, consulte before_distill0 e after_mlm{domain_id} . before significa a importância calculada antes do pré-treinamento, o que é feito apenas uma vez antes do primeiro domínio para o conhecimento geral pré-treinado. after indica a importância calculada após o pré-treinamento do domain_id.

Referência

Agradecemos muito o seu ato de olhar e citar. Sua atenção aos detalhes e reconhecimento é muito valorizada.

  
@inproceedings { ke2022dgs ,  
 title = { Continual Learning of Language Models } , author = { Ke, Zixuan and Shao, Yijia and Lin, Haowei and Konishi, Tatsuya and Kim, Gyuhak and Liu, Bing } , booktitle = { International Conference on Learning Representations (ICLR) } , year = { 2023 } }  
  
@inproceedings { ke2022dga ,  
 title = { Adapting a Language Model While Preserving its General Knowledge } , author = { Ke, Zixuan and Shao, Yijia and Lin, Haowei and Xu, Hu and Shu, Lei, and Liu, Bing } , booktitle = { Empirical Methods in Natural Language Processing (EMNLP) } , year = { 2022 } }  
  
@inproceedings { ke2022continual ,  
 title = { Continual Training of Language Models for Few-Shot Learning } , author = { Ke, Zixuan and Lin, Haowei and Shao, Yijia and Xu, Hu and Shu, Lei, and Liu, Bing } , booktitle = { Empirical Methods in Natural Language Processing (EMNLP) } , year = { 2022 } }

Contato

Se você tiver alguma dúvida sobre o código, não hesite em enviar um email para Zixuan KE, Yijia Shao ou Haowei Lin. Como alternativa, você pode abrir um problema. Gostaríamos de expressar nossa gratidão a Bing Liu, Hu Xu e Lei Shu por seus valiosos comentários e opiniões

Expandir

Informações adicionais