Labml.ai глубокие учебные бумаги реализации бумаги
Это набор простых реализаций нейронных сетей и связанных с ними алгоритмов. Эти реализации документированы с объяснениями,
Веб-сайт делает их в виде заметок бок о бок. Мы считаем, что это поможет вам лучше понять эти алгоритмы.
Мы активно поддерживаем это репо и добавляем новые реализации почти еженедельно. для обновлений.
Бумажные реализации
Трансформеры
- Многоголовое внимание
- Строительные блоки трансформатора
- Трансформатор XL
- Относительное многожиевое внимание
- Роторные позиционные вторжения
- Внимание с линейными смещениями (алиби)
- РЕТРО
- Сжимающий трансформатор
- GPT Architecture
- Варианты Glu
- KNN-LM: обобщение через запоминание
- Трансформатор обратной связи
- Переключатель трансформатора
- Быстрый вес трансформатора
- Фон
- Внимание свободного трансформатора
- Модель в масках
- MLP-Mixer: архитектура All-MLP для видения
- Обратите внимание на MLP (GMLP)
- Vision Transformer (Vit)
- Праймер ez
- Песочные часы
Адаптация с низким уровнем ранга (Лора)
Eleuther GPT-neox
- Генерировать графический процессор 48 ГБ
- Finetune на двух графических процессорах 48 ГБ
- Llm.int8 ()
Диффузионные модели
- Вероятностные модели Denoing Diffusion (DDPM)
- Разоблачение диффузии неявных моделей (DDIM)
- Скрытые диффузионные модели
- Стабильная диффузия
Генеративные состязательные сети
- Оригинальный Ган
- Ган с глубокой сверточной сетью
- Цикл Ган
- Вассерштейн Ган
- Вассерштейн Ган с градиентным штрафом
- Стиль 2
Повторяющиеся сети шоссе
LSTM
Hypernetworks - Hyperlstm
Resnet
Convmixer
Капсульные сети
U-Net
Эскиз RNN
График нейронные сети
- График сетей внимания (GAT)
- График сети внимания v2 (gatv2)
Минимизация контрфактивного сожаления (CFR)
Решение игр с неполной информацией, такой как покер с CFR.
Подкрепление обучения
- Проксимальная оптимизация политики с общей оценкой преимуществ
- Глубокие сети
Оптимизаторы
- Адам
- Амсглай
- Адам оптимизатор с разминкой
- NOAM Optimizer
- Исправлен Адам Оптимизатор
- Adabelief Optimizer
- Sophia-G Optimizer
Нормализационные слои
- Нормализация партии
- Нормализация слоя
- Нормализация экземпляра
- Нормализация группы
- Стандартизация веса
- Нормализация партийной канала
- Deepnorm
Дистилляция
Адаптивные вычисления
Неопределенность
- Доказательство глубокого обучения для количественной оценки неопределенности классификации
Активации
Методы отбора проб Langauge
- Жадная выборка
- Температура выборка
- Выборка верха-K
- Отбор проб ядра
Масштабируемое обучение/вывод
Установка