Descargar gerpt2 - Descargar código fuente gerpt2

gerpt2

Código Fuente de IA

1.0.0

Descargar

Gerpt2

Versiones alemanas grandes y pequeñas de GPT2:

https://huggingface.co/benjamin/gerpt2
https://huggingface.co/benjamin/gergpt2-large

Consulte la tarjeta modelo GPT2 para obtener consideraciones sobre limitaciones y sesgo. Consulte la documentación GPT2 para obtener detalles sobre GPT2.

Comparación con DBMDZ/German-GPT2

Evalué tanto GERPT2-Large como el otro GPT2 alemán, DBMDZ/German-GPT2 en el conjunto de datos CC-100 y en el Wikipedia alemán:

	CC-100 (PPL)	Wikipedia (PPL)
DBMDZ/German-GPT2	49.47	62.92
Gerpt2	24.78	35.33
Gerpt2-Large	16.08	23.26

Consulte el script evaluate.py en el repositorio de github GERPT2 para el código.

Uso

 from transformers import AutoModelForCausalLM , AutoTokenizer , pipeline

tokenizer = AutoTokenizer . from_pretrained ( "benjamin/gerpt2-large" )
model = AutoModelForCausalLM . from_pretrained ( "benjamin/gerpt2-large" )

prompt = "<your prompt>"

pipe = pipeline ( "text-generation" , model = model , tokenizer = tokenizer )
print ( pipe ( prompt )[ 0 ][ "generated_text" ])

Además, dos trucos podrían mejorar el texto generado:

 output = model . generate (
    # during training an EOS token was used to mark the beginning of each text
    # so it can help to insert it at the start
    torch . tensor (
        [ tokenizer . eos_token_id ] + tokenizer . encode ( prompt )
    ). unsqueeze ( 0 ),
    do_sample = True ,
    # try setting bad_words_ids=[[0]] to disallow generating an EOS token, without this the model is
    # prone to ending generation early because a significant number of texts from the training corpus
    # is quite short
    bad_words_ids = [[ 0 ]],
    max_length = max_length ,
)[ 0 ]
print ( tokenizer . decode ( output ))

Detalles de capacitación

Gerpt2-Large está entrenado en todos los datos alemanes del CC-100 Corpus y los pesos se inicializaron del modelo inglés GPT2. Gerpt2-Large fue entrenado con:

un tamaño de lote de 256
Uso de la tasa de aprendizaje de OneCycle con un máximo de 5E-3
con Adamw con una descomposición de peso de 0.01
para 2 épocas

El entrenamiento tomó aproximadamente 12 días en 8 núcleos TPUV3.

Para entrenar a Gerpt2-Large, siga estos pasos. Los scripts se encuentran en el repositorio de GitHub:

Descargar y descifrar datos de capacitación de http://data.statmt.org/cc-100/.
Entrena un tokenizador con prepare/train_tokenizer.py . Como datos de entrenamiento para el tokenizador, utilicé un subconjunto aleatorio del 5% de los datos CC-100.
(opcionalmente) Genere una matriz de incrustación de entrada alemana con prepare/generate_aligned_wte.py . Esto utiliza un truco ordenado para mapear semánticamente tokens de tokenizador inglés a tokens desde el tokenizador alemán utilizando incrustaciones de palabras alineadas. P.ej.:

 ĠMinde -> Ġleast
Ġjed -> Ġwhatsoever
flughafen -> Air
vermittlung -> employment
teilung -> ignment
ĠInterpretation -> Ġinterpretation
Ġimport -> Ġimported
hansa -> irl
genehmigungen -> exempt
ĠAuflist -> Ġlists
Ġverschwunden -> Ġdisappeared
ĠFlyers -> ĠFlyers
Kanal -> Channel
Ġlehr -> Ġteachers
Ġnahelie -> Ġconvenient
gener -> Generally
mitarbeiter -> staff

Esto ayuda mucho en una prueba de prueba que hice, aunque no pude hacer una comparación completa debido a las limitaciones de presupuesto y tiempo. Para usar esta matriz WTE, se puede pasar a través del wte_path al script de entrenamiento. Crédito a este blog Post por la idea de inicializar GPT2 a partir de pesas en inglés.

Tokenize el corpus usando prepare/tokenize_text.py . Esto genera archivos para tokens de tren y validación en formato de líneas JSON.
Ejecute el guión de entrenamiento train.py ! run.sh muestra cómo se ejecutó esto para la ejecución completa con config configs/tpu_large.json .

Licencia

Gerpt2 tiene licencia bajo la licencia MIT.

Citando

Por favor cite Gerpt2 de la siguiente manera:

 @misc{Minixhofer_GerPT2_German_large_2020,
author = {Minixhofer, Benjamin},
doi = {10.5281/zenodo.5509984},
month = {12},
title = {{GerPT2: German large and small versions of GPT2}},
url = {https://github.com/bminixhofer/gerpt2},
year = {2020}
}

Expresiones de gratitud

Gracias a abrazar la cara por herramientas e infraestructura increíbles. Muchas gracias a Artus Krohn-Grimberghe en Lytiq por hacer esto posible patrocinando los recursos utilizados para la capacitación.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-10
tamaño 14.89KB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo