Download universal distillation - Download de código -fonte universal distillation

universal distillation

Código-Fonte de IA

1.0.0

Baixar

Destilação do modelo de linguagem universal

Teste de IC

Descrição

Crie modelos destilados a partir de todos os modelos de idiomas mascarados no hub Huggingface com apenas um comando bash.

Características:

Destilação em linguagem-agnóstico dos modelos Bert.
Treinamento automático distribuído e multi-GPU.
Avalie o uso de medidas padrão e mais avançado, como a pseudo-templexidade.
Adicione restrições para reduzir a estereótipos usando nossa técnica de distribuição de justa.
Próximo : destilar vários modelos em um modelo, com tradução automatizada de token.

Como correr

Primeiro, clone o projeto e instale as dependências.

 # clone project   
git clone https://github.com/iPieter/universal-distillation

# install project   
cd universal-distillation
pip install -e .   
pip install -r requirements.txt

Destilação usando a interface da linha de comando

Neste tutorial, mostraremos como configurar uma tarefa de destilação na linha de comando. Você precisará de duas coisas:

Um modelo de professor que você deseja destilar. Todos os modelos do repositório de modelos Hugginface com uma cabeça de máscara de enchimento / mlm funcionarão. Neste tutorial, usaremos o modelo padrão bert-base-uncased .
Um conjunto de dados que você deseja usar para destilação. Neste tutorial, nós é um conjunto de dados 'pequeno', mas de alta qualidade: Europarl.

Etapa 1: Obtenha seu conjunto de dados

Usaremos a seção em inglês do Europarl Corpus. Este é um corpus paralelo de alta qualidade do Parlamento Europeu criado por intérpretes e tradutores profissionais. Atualmente, é muito pequeno para um corpus de idioma, apenas 114 MB, mas para o nosso tutorial de destilação, tudo bem.

wget https://opus.nlpl.eu/download.php ? f = Europarl/v8/mono/en.txt.gz -O en.txt.gz
gunzip en.txt.gz

Os dados agora estão descompactados e armazenados no arquivo en.txt .

Etapa 2: Comece a treinar

Agora temos os dados, podemos começar a treinar. O download do modelo do professor acontecerá automaticamente, portanto, não há necessidade de fazer isso manualmente. Se você acha que isso leva muito tempo e só deseja experimentar o treinamento, por exemplo, para ter uma sensação de horários, você pode adicionar --limit_train_batches N . Isso limita cada época a N lotes durante o treinamento.

python universal_distillation/distillation.py 
    --batch_size 8 
    --gpus 1 
    --max_epochs 3 
    --save_dir my_distilled_model/ 
    --teacher bert-base-uncased 
    --data en.txt

Existem algumas coisas que acontecem em segundo plano depois de executar esse comando. Primeiro, esta biblioteca cria um estudante e um modelo de professor. O professor é bert-base-uncased e o aluno usará a mesma arquitetura que o professor por padrão, apenas o número de cabeças é menor: 6 em vez de 12. Como estamos treinando em um domínio específico (Europarl), isso deve ser suficiente. Obviamente, você pode misturar e combinar professores diferentes e maiores com alunos menores, mas o desempenho variará muito.

Segundo, a biblioteca Huggingface baixa o modelo do professor e o tokenizer. Terceiro, o conjunto de dados é carregado do disco e inicializado com o tokenizer, observe que a própria tokenização ocorre posteriormente por padrão. Finalmente, o loop de destilação começa.

Etapa 3: use seu modelo

Finalmente, você pode usar o modelo com a biblioteca Huggingface! Todos os arquivos do aluno (Modelo Pytorch e Tokenizer) são salvos na pasta que definimos anteriormente: my_distilled_model/ . Você pode importar o modelo diretamente desta pasta e testar a tarefa de modelagem de linguagem mascarada com apenas 3 linhas:

 from transformers import pipeline
p = pipeline ( "fill-mask" , model = "my_distilled_model/" )

p ( "This is a [MASK]." )

Embora este tenha sido um exemplo estranho, isso geralmente é suficiente para criar seu próprio modelo adaptado ao domínio. Nesse caso, é

Avaliando modelos de linguagem

Você também pode executar uma avaliação intrínseca usando a pseudo-templexidade. Você precisa especificar o professor e o modelo destilado, mas se você executar apenas a avaliação, poderá fornecer o modelo de destino para ambos os argumentos.

python universal_distillation/evaluation.py 
    --gpus=0 
    --limit_test_batches=500 
    --teacher=pdelobelle/robbert-v2-dutch-base
    --data=data/oscar_dutch/nl_dedup_part_2.txt 
    --checkpoint=DTAI-KULeuven/robbertje-39-gb-non-shuffled

Fairdistilação

Essa base de código também é usada para o nosso artigo ECML-PKDD 2022, onde combinamos a destilação do conhecimento de modelos de linguagem com restrições de justiça. As restrições que testamos no artigo são uma substituição estrondosa dos pronomes de gênero, mas o código suporta qualquer substituição de toque único. Estes podem ser adicionados ao processo de destilação, definindo quais tokens que você deseja equalizar. Por exemplo, he e she têm token IDs 2016 e 2002, para que possamos definir um par de substituição com os dois tokens. As probabilidades em relação aos dois tokens são equalizadas.

Você pode adicionar tokens modificando universal-distillation/distillation.py em torno da linha 90. Não se esqueça de incluir também as restrições ao criar o modelo BaseTransformer .

 constraints = [[ 2016 , 2002 ]]  # she  # he
model = BaseTransformer ( args . teacher , constraints = constraints , ** vars ( args ))

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-09
tamanho 27.56KB
Vindo de Github

Aplicativos Relacionados

Universal Downloader

2024-11-07
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Site universal da UWA como este

2013-12-24

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos