shakespeareGPT
1.0.0
Andrej Karpathy를 기반으로 한 처음부터 GPT 빌딩 및 훈련 : GPT를 구축하자. 지도 시간
캐릭터 레벨 토큰 화기를 사용했습니다. n_embeds, num_heads와 같은 하이퍼 파라미터의 영향을 더 잘 이해하기 위해 다른 구성으로 두 가지 버전을 훈련 시켰습니다.
v1 :
v2 :
바이트 페어 인코딩 토큰 화기를 사용했습니다.
huggingface tokenizers 사용한 BPE 토큰 화기 V1
n_embed = 384
n_heads = 12
head_size = 32
n_layers = 4
lr = 6e-4
attn_dropout = 0.1
block_dropout = 0.1
Train Loss: 4.020419597625732
Valid Loss: 6.213085174560547
V2
n_embed = 384
n_heads = 6
head_size = 64
n_layers = 3
lr = 5e-4
attn_dropout = 0.2
block_dropout = 0.2
Train Loss: 3.933095216751099
Valid Loss: 5.970513820648193
항상 그렇듯이 Andrej의 놀라운 튜토리얼!