Download electra_pytorch - electra_pytorch download do código -fonte

electra_pytorch

Outro código-fonte

1.0.0

Baixar

Implementação não oficial de Pytorch de

Electra: codificadores de texto pré-treinamento como discriminadores, em vez de geradores de Kevin Clark. Minh-Thang Luong. Quoc V. Le. Christopher D. Manning

※ Para atualizações e mais trabalho no futuro, siga

Resultados replicados

Eu pré-atreso Electra-Small do zero e repliquei com sucesso os resultados do papel em cola.

Modelo	Cola	SST	Mrpc	Sts	Qqp	Mnli	Qnli	Rte	Avg. de avg.
Electra-small-owt	56.8	88.3	87.4	86.8	88.3	78.9	87.9	68.5	80.36
Electra-small-owt (meu)	58.72	88.03	86.04	86.16	88.63	80.4	87.45	67.46	80.36

Tabela 1: Resultados no conjunto de dev cola. O resultado oficial vem dos resultados esperados. As pontuações são as pontuações médias do FinetUned do mesmo ponto de verificação. (Veja esta questão) Meu resultado vem de pré -treinar um modelo do zero e tenhas assumindo a média de 10 execuções de Finetuning para cada tarefa. Ambos os resultados são treinados no OpenWebtext Corpus

Modelo	Cola	SST	Mrpc	Sts	Qqp	Mnli	Qnli	Rte	Avg.
Electra-small ++	55.6	91.1	84.9	84.6	88.0	81.6	88.3	63.6	79.7
Electra-small ++ (meu)	54.8	91.6	84.6	84.2	88.5	82	89	64.7	79.92

Tabela 2: Resultados no conjunto de testes de cola. Meu resultado fino, o ponto de verificação pré -treinado carregado do huggingface.

Curva de perda de treinamento oficial	Minha curva de perda de treinamento

Tabela 3: Ambos são pequenos modelos treinados no OpenWebtext. O oficial é daqui. Você deve obter o valor da perda de treinamento com um grão de sal, pois isso não reflete o desempenho das tarefas a jusante.

Recursos desta implementação

Você não precisa baixar e processar os conjuntos de dados manualmente, o Scirpt cuida daqueles para você automaticamente. (Graças a Huggingface/DataSets e Hugginface/Transformers)
Afaik, a reimplementação mais próxima do original, cuidando de muitos detalhes facilmente esquecidos (descritos abaixo).
Afaik, o único valida com sucesso replicando os resultados no artigo.
Vem com notebooks Jupyter, que você pode explorar o código e inspecionar os dados processados.
Você não precisa baixar e pré -processar nada sozinho, tudo o que você precisa é executar o script de treinamento.

Mais resultados

Quão estável é electra pré -treinamento?

Significar	Std	Máx	Min	#Models
81.38	0,57	82.23	80.42	14

Tabel 4: Estatísticas dos resultados do Devset de cola para modelos pequenos. Todo modelo é pré -treinado do zero com sementes diferentes e FinetUned para 10 execuções aleatórias para cada tarefa de cola. A pontuação de um modelo é a média do melhor de 10 para cada tarefa. (O processo é o mesmo que o descrito no artigo), como podemos ver, embora a Electra esteja zombando do treinamento da AdeasTeSarial, ele tem uma boa estabilidade de treinamento.

Quão estável é electra fins na cola?

Modelo	Cola	SST	Mrpc	Sts	Qqp	Mnli	Qnli	Rte
Electra-small-owt (meu)	1,30	0,49	0,7	0,29	0.1	0,15	0,33	1.93

Tabela 5: Desvio padrão para cada tarefa. Este é o mesmo modelo da Tabela 1, que Finetunes 10 executa para cada tarefa.

Discussão

Postagem do Fórum de Huggingface
Postagem do fórum fastai

Uso

Nota: Este projeto é realmente para minha pesquisa pessoal. Por isso, não tentei facilitar o uso de todos os usuários, mas tentando facilitar a leitura e a modificação.

Instale requisitos

pip3 install -r requirements.txt

Passos

python pretrain.py
Definir pretrained_checkcpoint em finetune.py para usar o ponto de verificação que você pré -criou e salvo em electra_pytorch/checkpoints/pretrain .
python finetune.py (com do_finetune definido como True )
Vá para Netuno, escolha a melhor corrida de 10 corridas para cada tarefa e defina th_runs no finetune.py de acordo com os números nos nomes das execuções que você escolheu.
python finetune.py (com do_finetune definido como False ), este outpus previsões no teste de teste, você pode comprimir e enviar .tsv s em electra_pytorch/test_outputs/<group_name>/*.tsv para colar o site para obter a pontuação do teste.

Notas

Não usei argumentos da CLI; portanto, configure as opções fechadas no MyConfig nos arquivos Python para suas necessidades antes de executá -las. (Existem comentários abaixo, mostrando as opções para configurações de baunilha)
Você precisará de uma conta Neptune e criará um projeto Neptune no site para registrar os resultados da cola do Finetuning. Não se esqueça de substituir richarddwang/electra-glue pelo nome do seu projeto Netuno
Os arquivos python pretrain.py , finetune.py são de fato convertidos de Pretrain.ipynb e Finetune_GLUE.ipynb . Você também pode usar esses notebooks para explorar o treinamento e o Finetuning.

Detalhes avançados

Abaixo, lista os detalhes da implementação/artigo original que são fáceis de serem negligenciados e eu cuidei. Descobri que esses detalhes são indispensáveis para replicar com sucesso os resultados do artigo.

Otimização

Usando o Adam Optimizer sem correção de viés (a correção de polarização é padrão para o Adam Optimizer em Pytorch e Fastai)
Há um inseto de decaimento das taxas de aprendizado por meio de camadas na implementação oficial, de modo que, ao financiar, a LR decaa mais do que a declarada no artigo. Veja _get_layer_lrs. Veja também este problema.
Usando gradiente de clipe
Usando 0 decaimento de peso ao Finetuning na cola
Não fazia aquecimento e depois fazia decaimento linear, mas os faz juntos, o que significa que os aquecimentos de taxa de aprendizado e decaimentos ao mesmo tempo durante a fase de aquecimento. Veja aqui

Processamento de dados

Para o pré -processamento de dados com pré -atuação, ele concatena e trunca as setências para se ajustar ao comprimento máximo e para a conclusão do que se trata do final de um documento.
Para pré -atuar o pré -processamento de dados, por acaso divide o texto na frase A e na sentença B, e também por acaso muda o comprimento máximo
Para o pré -processamento dos dados da Finetuning, segue a maneira de Bert truncar o mais longo da frase A e B para se ajustar ao comprimento máximo

Truque

Para tarefas MRPC e STS, ele aumenta os dados de treinamento adicionando os mesmos dados de treinamento, mas com a sentença A e B. Isso é chamado de "Double_unordered" na implementação oficial.
Não mascarou a frase como Bert, dentro da probabilidade de máscara (15% ou outro valor) dos tokens, um token tem 85% de chance de ser substituído por [máscara] e 15% permanece o mesmo, mas nenhuma chance de ser substituída por um token aleatório.

Parâmetro de amarração

Incorporação de palavras de entrada e saída do gerador e incorporação de palavras de entrada do discriminador. Os três estão amarrados.
Ele amarra não apenas as incorporações do tipo Word/POS/token, mas também a norma de camadas nas camadas de incorporação do gerador e do discriminador.

Outro

A camada de saída é inicializada pela inicialização padrão do TensorFlow V1 (ou seja, uniforme Xavier)
Usando Gumbel Softmax para amostrar gerações de geneartor como entrada do discriminador
Ele usa um abandono e uma camada linear na camada de saída para finetuning de cola, não o que ElectraClassificationHead usa.
Todo o modelo público de pontos de verificação Electra são realmente o modelo ++. Veja esta questão
Ele reduz o gerador por Hidden_size, número de cabeças de atenção e tamanho intermediário, mas não um número de camadas.

Arquitetura de arquivo

Se você pré -atrelar, Finetune e gerar resultados de testes. electra_pytorch os gerará para você.

 project root
|
|── datasets
|   |── glue
|       |── <task>
|       ...
|
|── checkpoints
|   |── pretrain
|   |   |── <base_run_name>_<seed>_<percent>.pth
|   |    ...
|   |
|   |── glue
|       |── <group_name>_<task>_<ith_run>.pth
|       ...
|
|── test_outputs
|   |── <group_name>
|   |   |── CoLA.tsv
|   |   ...
|   | 
|   | ...

Citação

Papel original

 @inproceedings{clark2020electra,
  title = {{ELECTRA}: Pre-training Text Encoders as Discriminators Rather Than Generators},
  author = {Kevin Clark and Minh-Thang Luong and Quoc V. Le and Christopher D. Manning},
  booktitle = {ICLR},
  year = {2020},
  url = {https://openreview.net/pdf?id=r1xMH1BtvB}
}

Esta implementação.

 @misc{electra_pytorch,
  author = {Richard Wang},
  title = {PyTorch implementation of ELECTRA},
  year = {2020},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/richarddwang/electra_pytorch}}
}

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-04-16
tamanho 51.92KB
Vindo de Github

Aplicativos Relacionados

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
pytorch image models

2024-11-03
nextcloud_share_url_downloader

2024-11-01
Mecanismo de análise de dados Lihua versão gratuita 3.0_search_navigation_collection_public parecer_ranking_api

2022-06-28

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos