Шекспирегпт
Строительство и обучение GPT с нуля на основе Андрея Карпати: Давайте построим GPT: с нуля, в коде. Учебник
Набор данных Tiny-Shakspeare: оригинал с небольшими модификациями.
Tutorialgpt (после видео)
- basic_bigramlm.py: построил базовую модель Bigram с Generate, чтобы заставить вещи катиться.
- Turning.ipynb: понял основной механизм внимания, используя Tril, Masked_fill, Softmax + заметки о внимании.
- Lmwithattuention.py: продолжить модель, но теперь с единственной головой внимания, встроения токенов, позиционных встраиваний.
- Внимание block.py: построил одну голову внимание
- Lm_multihead_attument_ffwd.ipynb: продолжение модели, чтобы теперь иметь согласные с несколькими вниманиями, и отдельный слой подачи вперед до lm_head.
- Tutorialgpt.ipynb: создал блок трансформатора, наслоение, остаточные соединения, лучшая оценка потерь, отсечение, Layerorm.
Уровень персонажа GPT
использовал токенизатор уровня персонажа. Обучали две версии с различными конфигурациями, чтобы лучше понять влияние гиперпараметров, таких как N_EMBEDS, num_heads.
Попробуйте Kaggle
v1:
- блокнот
- Сохраненная модель
- результаты
v2:
- блокнот
- Сохраненная модель
- результаты
Шекспирегпт
Используется токенизатор кодирования байтовой пары.
Попробуйте Kaggle
- gpt.py: полная модель GPT
- DataSet.py: набор данных Torch
- build_tokenizer.py: токенизатор BPE с использованием
huggingface tokenizers с нуля, похожий на GPT-2, сохраненный в Tokenizer - Train.py: тренировочный сценарий содержит оптимизатор, конфигурацию, функцию потери, петлю поезда, цикл проверки, сохранение модели
- Generate.py: генерируйте текст, загрузив модель на процессор.
Версии
V1
n_embed = 384
n_heads = 12
head_size = 32
n_layers = 4
lr = 6e-4
attn_dropout = 0.1
block_dropout = 0.1
Train Loss: 4.020419597625732
Valid Loss: 6.213085174560547
- блокнот
- Сохраненная модель
- результаты
V2
n_embed = 384
n_heads = 6
head_size = 64
n_layers = 3
lr = 5e-4
attn_dropout = 0.2
block_dropout = 0.2
Train Loss: 3.933095216751099
Valid Loss: 5.970513820648193
- блокнот
- Сохраненная модель
- результаты
Как всегда, невероятный учебник от Андрея!