shakespeareGPT
1.0.0
基於Andrej Karpathy的建築和培訓GPT從頭開始:讓我們構建GPT:從頭開始,代碼,闡明。教程
使用字符級令牌。訓練有兩個具有不同配置的版本,以更好地了解超參數,例如N_Embeds,num_heads。
V1:
v2:
使用了字節對編碼令牌。
huggingface tokenizers從頭開始的BPE令牌,類似於保存在Tokenizer上的GPT-2 V1
n_embed = 384
n_heads = 12
head_size = 32
n_layers = 4
lr = 6e-4
attn_dropout = 0.1
block_dropout = 0.1
Train Loss: 4.020419597625732
Valid Loss: 6.213085174560547
V2
n_embed = 384
n_heads = 6
head_size = 64
n_layers = 3
lr = 5e-4
attn_dropout = 0.2
block_dropout = 0.2
Train Loss: 3.933095216751099
Valid Loss: 5.970513820648193
和往常一樣,安德烈·伊斯特里(Andrej)的一個令人難以置信的教程!