ดาวน์โหลด gerpt2 - ดาวน์โหลดซอร์สโค้ด gerpt2

gerpt2

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

Gerpt2

GPT2 รุ่นใหญ่และเล็กของเยอรมัน:

https://huggingface.co/benjamin/gerpt2
https://huggingface.co/benjamin/gerpt2-large

ดูการ์ดรุ่น GPT2 สำหรับการพิจารณาเกี่ยวกับข้อ จำกัด และอคติ ดูเอกสาร GPT2 สำหรับรายละเอียดเกี่ยวกับ GPT2

เปรียบเทียบกับ DBMDZ/German-GPT2

ฉันประเมินทั้ง Gerpt2-Large และ GPT2 GPT2, DBMDZ/German-GPT2 อื่น ๆ ในชุดข้อมูล CC-100 และ Wikipedia เยอรมัน:

	CC-100 (ppl)	Wikipedia (ppl)
DBMDZ/GERMAN-GPT2	49.47	62.92
Gerpt2	24.78	35.33
ขนาดใหญ่ของ Gerpt2	16.08	23.26

ดูสคริปต์ evaluate.py ในพื้นที่เก็บข้อมูล Gerpt2 GitHub สำหรับรหัส

การใช้งาน

 from transformers import AutoModelForCausalLM , AutoTokenizer , pipeline

tokenizer = AutoTokenizer . from_pretrained ( "benjamin/gerpt2-large" )
model = AutoModelForCausalLM . from_pretrained ( "benjamin/gerpt2-large" )

prompt = "<your prompt>"

pipe = pipeline ( "text-generation" , model = model , tokenizer = tokenizer )
print ( pipe ( prompt )[ 0 ][ "generated_text" ])

นอกจากนี้สองเทคนิคอาจปรับปรุงข้อความที่สร้างขึ้น:

 output = model . generate (
    # during training an EOS token was used to mark the beginning of each text
    # so it can help to insert it at the start
    torch . tensor (
        [ tokenizer . eos_token_id ] + tokenizer . encode ( prompt )
    ). unsqueeze ( 0 ),
    do_sample = True ,
    # try setting bad_words_ids=[[0]] to disallow generating an EOS token, without this the model is
    # prone to ending generation early because a significant number of texts from the training corpus
    # is quite short
    bad_words_ids = [[ 0 ]],
    max_length = max_length ,
)[ 0 ]
print ( tokenizer . decode ( output ))

รายละเอียดการฝึกอบรม

Gerpt2-Large ได้รับการฝึกฝนเกี่ยวกับข้อมูลภาษาเยอรมันทั้งหมดจาก CC-100 Corpus และน้ำหนักเริ่มต้นจากรุ่น GPT2 ภาษาอังกฤษ Gerpt2- ใหญ่ได้รับการฝึกฝนด้วย:

ขนาดแบทช์ 256
การใช้อัตราการเรียนรู้แบบ onecycle สูงสุด 5e-3
ด้วย ADAMW ที่มีน้ำหนักลดลง 0.01
สำหรับ 2 ยุค

การฝึกอบรมใช้เวลาประมาณ 12 วันใน 8 คอร์ TPUV3

หากต้องการฝึกอบรม Gerpt2- ใหญ่ให้ทำตามขั้นตอนเหล่านี้ สคริปต์ตั้งอยู่ในที่เก็บ GitHub:

ดาวน์โหลดและ UNZIP ข้อมูลการฝึกอบรมจาก http://data.statmt.org/cc-100/
ฝึก tokenizer โดยใช้ prepare/train_tokenizer.py ในฐานะที่เป็นข้อมูลการฝึกอบรมสำหรับ tokenizer ฉันใช้ชุดย่อยแบบสุ่ม 5% ของข้อมูล CC-100
(ทางเลือก) สร้างเมทริกซ์การฝังอินพุตของเยอรมันด้วย prepare/generate_aligned_wte.py สิ่งนี้ใช้เคล็ดลับที่ประณีตในการทำแผนที่ความหมายโทเค็นจากโทเค็นภาษาอังกฤษไปจนถึงโทเค็นจากโทเค็นเยอรมันโดยใช้การฝังคำที่จัดเรียง E. G.:

 ĠMinde -> Ġleast
Ġjed -> Ġwhatsoever
flughafen -> Air
vermittlung -> employment
teilung -> ignment
ĠInterpretation -> Ġinterpretation
Ġimport -> Ġimported
hansa -> irl
genehmigungen -> exempt
ĠAuflist -> Ġlists
Ġverschwunden -> Ġdisappeared
ĠFlyers -> ĠFlyers
Kanal -> Channel
Ġlehr -> Ġteachers
Ġnahelie -> Ġconvenient
gener -> Generally
mitarbeiter -> staff

สิ่งนี้ช่วยได้มากในการทดลองใช้งานที่ฉันทำแม้ว่าฉันจะไม่สามารถทำการเปรียบเทียบเต็มรูปแบบได้เนื่องจากข้อ จำกัด ด้านงบประมาณและเวลา ในการใช้เมทริกซ์ WTE นี้สามารถส่งผ่าน wte_path ไปยังสคริปต์การฝึกอบรม ให้เครดิตกับบล็อกนี้สำหรับแนวคิดในการเริ่มต้น GPT2 จากน้ำหนักภาษาอังกฤษ

โทเค็นคลังข้อมูลโดยใช้ prepare/tokenize_text.py สิ่งนี้สร้างไฟล์สำหรับโทเค็นรถไฟและการตรวจสอบในรูปแบบบรรทัด JSON
เรียกใช้ Training Script train.py ! run.sh แสดงให้เห็นว่าสิ่งนี้ถูกดำเนินการอย่างไรสำหรับการเรียกใช้เต็มรูปแบบด้วย configs/tpu_large.json

ใบอนุญาต

Gerpt2 ได้รับใบอนุญาตภายใต้ใบอนุญาต MIT

การอ้าง

กรุณาอ้างอิง Gerpt2 ดังนี้:

 @misc{Minixhofer_GerPT2_German_large_2020,
author = {Minixhofer, Benjamin},
doi = {10.5281/zenodo.5509984},
month = {12},
title = {{GerPT2: German large and small versions of GPT2}},
url = {https://github.com/bminixhofer/gerpt2},
year = {2020}
}

กิตติกรรมประกาศ

ขอบคุณการกอดหน้าสำหรับเครื่องมือและโครงสร้างพื้นฐานที่ยอดเยี่ยม ขอขอบคุณ Artus Krohn-Grimberghe ที่ Lytiq ที่ทำให้สิ่งนี้เป็นไปได้โดยสนับสนุนทรัพยากรที่ใช้สำหรับการฝึกอบรม

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-09-10
ขนาด 14.89KB
มาจาก Github

แอปที่เกี่ยวข้อง

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด