Unduh gerpt2 - Unduh Kode Sumber gerpt2

gerpt2

Kode Sumber AI

1.0.0

Unduh

GERPT2

Versi besar dan kecil Jerman dari GPT2:

https://huggingface.co/benjamin/gerpt2
https://huggingface.co/benjamin/gerpt2-large

Lihat kartu model GPT2 untuk pertimbangan tentang keterbatasan dan bias. Lihat dokumentasi GPT2 untuk detail tentang GPT2.

Perbandingan dengan DBMDZ/Jerman-GPT2

Saya mengevaluasi GERPT2-Large dan GPT2 Jerman lainnya, DBMDZ/Jerman-GPT2 pada dataset CC-100 dan di Wikipedia Jerman:

	CC-100 (ppl)	Wikipedia (ppl)
DBMDZ/Jerman-GPT2	49.47	62.92
GERPT2	24.78	35.33
GERPT2-Large	16.08	23.26

Lihat skrip evaluate.py di repositori gitub GERPT2 untuk kode.

Penggunaan

 from transformers import AutoModelForCausalLM , AutoTokenizer , pipeline

tokenizer = AutoTokenizer . from_pretrained ( "benjamin/gerpt2-large" )
model = AutoModelForCausalLM . from_pretrained ( "benjamin/gerpt2-large" )

prompt = "<your prompt>"

pipe = pipeline ( "text-generation" , model = model , tokenizer = tokenizer )
print ( pipe ( prompt )[ 0 ][ "generated_text" ])

Juga, dua trik mungkin meningkatkan teks yang dihasilkan:

 output = model . generate (
    # during training an EOS token was used to mark the beginning of each text
    # so it can help to insert it at the start
    torch . tensor (
        [ tokenizer . eos_token_id ] + tokenizer . encode ( prompt )
    ). unsqueeze ( 0 ),
    do_sample = True ,
    # try setting bad_words_ids=[[0]] to disallow generating an EOS token, without this the model is
    # prone to ending generation early because a significant number of texts from the training corpus
    # is quite short
    bad_words_ids = [[ 0 ]],
    max_length = max_length ,
)[ 0 ]
print ( tokenizer . decode ( output ))

Detail Pelatihan

GERPT2-Large dilatih pada seluruh data Jerman dari corpus CC-100 dan bobot diinisialisasi dari model GPT2 Inggris. GERPT2-Large dilatih dengan:

Ukuran batch 256
Menggunakan tingkat pembelajaran siklus siklus dengan maksimum 5E-3
dengan AdamW dengan pembusukan berat 0,01
untuk 2 zaman

Pelatihan memakan waktu sekitar 12 hari dengan 8 inti TPUV3.

Untuk melatih GERPT2-Large, ikuti langkah-langkah ini. Script terletak di repositori GitHub:

Unduh dan unzip data pelatihan dari http://data.statmt.org/cc-100/.
Latih tokenizer menggunakan prepare/train_tokenizer.py . Sebagai data pelatihan untuk tokenizer saya menggunakan subset acak 5% dari data CC-100.
(Secara opsional) menghasilkan matriks embedding input Jerman dengan prepare/generate_aligned_wte.py . Ini menggunakan trik yang rapi untuk secara semantik memetakan token dari tokenizer Inggris ke token dari tokenizer Jerman menggunakan embeddings kata yang selaras. E. G.:

 ĠMinde -> Ġleast
Ġjed -> Ġwhatsoever
flughafen -> Air
vermittlung -> employment
teilung -> ignment
ĠInterpretation -> Ġinterpretation
Ġimport -> Ġimported
hansa -> irl
genehmigungen -> exempt
ĠAuflist -> Ġlists
Ġverschwunden -> Ġdisappeared
ĠFlyers -> ĠFlyers
Kanal -> Channel
Ġlehr -> Ġteachers
Ġnahelie -> Ġconvenient
gener -> Generally
mitarbeiter -> staff

Ini banyak membantu dalam uji coba yang saya lakukan, meskipun saya tidak dapat melakukan perbandingan penuh karena batasan anggaran dan waktu. Untuk menggunakan matriks wte ini dapat diteruskan melalui wte_path ke skrip pelatihan. Kredit ke posting blog ini untuk ide menginisialisasi GPT2 dari bobot bahasa Inggris.

Tokenize corpus menggunakan prepare/tokenize_text.py . Ini menghasilkan file untuk token kereta dan validasi dalam format baris JSON.
Jalankan pelatihan script train.py ! run.sh menunjukkan bagaimana ini dieksekusi untuk menjalankan penuh dengan config configs/tpu_large.json .

Lisensi

GERPT2 dilisensikan di bawah lisensi MIT.

Mengutip

Harap kutip GERPT2 sebagai berikut:

 @misc{Minixhofer_GerPT2_German_large_2020,
author = {Minixhofer, Benjamin},
doi = {10.5281/zenodo.5509984},
month = {12},
title = {{GerPT2: German large and small versions of GPT2}},
url = {https://github.com/bminixhofer/gerpt2},
year = {2020}
}

Ucapan Terima Kasih

Terima kasih untuk memeluk wajah untuk alat dan infrastruktur yang luar biasa. Terima kasih banyak kepada Artus Krohn-Grimberghe di Lytiq karena memungkinkan ini dengan mensponsori sumber daya yang digunakan untuk pelatihan.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-09-10
ukuran 14.89KB
Berasal dari Github

Aplikasi Terkait

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua