download de gerpt2 - download de código fonte gerpt2

gerpt2

Código-Fonte de IA

1.0.0

Baixar

Gerpt2

Versões grandes e pequenas alemãs do GPT2:

https://huggingface.co/benjamin/gerpt2
https://huggingface.co/benjamin/gerpt2-large

Consulte o cartão do modelo GPT2 para considerações sobre limitações e viés. Consulte a documentação do GPT2 para obter detalhes sobre o GPT2.

Comparação com DBMDZ/German-GPT2

Avaliei o Gerpt2-Large e o outro GPT2 alemão, DBMDZ/German-GPT2 no conjunto de dados CC-100 e na Wikipedia alemã:

	CC-100 (PPL)	Wikipedia (PPL)
DBMDZ/German-GPT2	49.47	62.92
Gerpt2	24.78	35.33
Gerpt2-Large	16.08	23.26

Consulte o script evaluate.py no repositório Gerpt2 GitHub para o código.

Uso

 from transformers import AutoModelForCausalLM , AutoTokenizer , pipeline

tokenizer = AutoTokenizer . from_pretrained ( "benjamin/gerpt2-large" )
model = AutoModelForCausalLM . from_pretrained ( "benjamin/gerpt2-large" )

prompt = "<your prompt>"

pipe = pipeline ( "text-generation" , model = model , tokenizer = tokenizer )
print ( pipe ( prompt )[ 0 ][ "generated_text" ])

Além disso, dois truques podem melhorar o texto gerado:

 output = model . generate (
    # during training an EOS token was used to mark the beginning of each text
    # so it can help to insert it at the start
    torch . tensor (
        [ tokenizer . eos_token_id ] + tokenizer . encode ( prompt )
    ). unsqueeze ( 0 ),
    do_sample = True ,
    # try setting bad_words_ids=[[0]] to disallow generating an EOS token, without this the model is
    # prone to ending generation early because a significant number of texts from the training corpus
    # is quite short
    bad_words_ids = [[ 0 ]],
    max_length = max_length ,
)[ 0 ]
print ( tokenizer . decode ( output ))

Detalhes de treinamento

O Gerpt2-Large é treinado em todos os dados alemães do corpus CC-100 e os pesos foram inicializados no modelo GPT2 inglês. Gerpt2-Large foi treinado com:

um tamanho de lote de 256
Usando a taxa de aprendizado de onecycle com um máximo de 5e-3
com Adamw com uma decaimento de peso de 0,01
Para 2 épocas

O treinamento levou cerca de 12 dias em 8 núcleos TPUV3.

Para treinar Gerpt2-Large, siga estas etapas. Os scripts estão localizados no repositório do GitHub:

Download de dados de treinamento e descompactação de http://data.statmt.org/cc-100/.
Treine um tokenizer usando prepare/train_tokenizer.py . Como dados de treinamento para o tokenizer, usei um subconjunto aleatório de 5% dos dados do CC-100.
(Opcionalmente) Gere uma matriz de incorporação de entrada alemã com prepare/generate_aligned_wte.py . Isso usa um truque interessante para mapear semanticamente os tokens do tokenizador inglês a tokens do tokenizador alemão usando incorporações alinhadas de palavras. E. G.:

 ĠMinde -> Ġleast
Ġjed -> Ġwhatsoever
flughafen -> Air
vermittlung -> employment
teilung -> ignment
ĠInterpretation -> Ġinterpretation
Ġimport -> Ġimported
hansa -> irl
genehmigungen -> exempt
ĠAuflist -> Ġlists
Ġverschwunden -> Ġdisappeared
ĠFlyers -> ĠFlyers
Kanal -> Channel
Ġlehr -> Ġteachers
Ġnahelie -> Ġconvenient
gener -> Generally
mitarbeiter -> staff

Isso ajuda muito em uma execução de teste, embora não tenha sido capaz de fazer uma comparação completa devido a restrições de orçamento e tempo. Para usar essa matriz WTE, ela pode ser passada através do wte_path para o script de treinamento. Crédito a este post do blog pela idéia de inicializar o GPT2 a partir de pesos em inglês.

Tokenize o corpus usando prepare/tokenize_text.py . Isso gera arquivos para tokens de trem e validação no formato JSON Lines.
Execute o train.py de script de treinamento.py! run.sh mostra como isso foi executado para a execução completa com o Config configs/tpu_large.json .

Licença

O GERPT2 é licenciado sob a licença do MIT.

Citando

Cite Gerpt2 da seguinte forma:

 @misc{Minixhofer_GerPT2_German_large_2020,
author = {Minixhofer, Benjamin},
doi = {10.5281/zenodo.5509984},
month = {12},
title = {{GerPT2: German large and small versions of GPT2}},
url = {https://github.com/bminixhofer/gerpt2},
year = {2020}
}

Agradecimentos

Graças a abraçar o rosto por ferramentas e infraestrutura incríveis. Agradecimentos enormes a Artus Krohn-Grimberghe na Lytiq por tornar isso possível patrocinar os recursos usados para o treinamento.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-10
tamanho 14.89KB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos