shakespeareGPT
1.0.0
بناء وتدريب GPT من نقطة الصفر على أساس أندريج كارباشي: دعنا نبني GPT: من الصفر ، في الكود ، مكتوبة. درس تعليمي
تستخدم رمز مستوى حرف. تدرب نسختين مع تكوينات مختلفة لفهم بشكل أفضل لتأثير المقاييس الفائقة مثل n_embeds ، num_heads.
V1:
V2:
استخدم رمز ترميز بايت بايت.
huggingface tokenizers من نقطة الصفر مماثلة لـ GPT-2 المحفوظة في Tokenizer V1
n_embed = 384
n_heads = 12
head_size = 32
n_layers = 4
lr = 6e-4
attn_dropout = 0.1
block_dropout = 0.1
Train Loss: 4.020419597625732
Valid Loss: 6.213085174560547
V2
n_embed = 384
n_heads = 6
head_size = 64
n_layers = 3
lr = 5e-4
attn_dropout = 0.2
block_dropout = 0.2
Train Loss: 3.933095216751099
Valid Loss: 5.970513820648193
كما هو الحال دائمًا ، برنامج تعليمي لا يصدق بواسطة Andrej!