Labml.ai Deep Learning Paper Implémentations
Il s'agit d'une collection d'implémentations Pytorch simples des réseaux de neurones et des algorithmes connexes. Ces implémentations sont documentées avec des explications,
Le site Web les rend comme des notes à formater côte à côte. Nous pensons que ceux-ci vous aideraient à mieux comprendre ces algorithmes.
Nous maintenons activement ce dépôt et ajoutons de nouvelles implémentations presque chaque semaine. pour les mises à jour.
Implémentations de papier
Transformateurs
- Attention à plusieurs têtes
- Blocs de construction du transformateur
- Transformateur XL
- Attention à plusieurs têtes relatives
- Incorporation de position rotative
- Attention aux biais linéaires (alibi)
- Rétro
- Transformateur compressif
- Architecture GPT
- Variantes Glu
- KNN-LM: Généralisation par mémorisation
- Transformateur de rétroaction
- Transformateur de commutateur
- Transformateur de poids rapide
- FNET
- Transformateur sans attention
- Modèle de langue masquée
- MLP-MIXER: Une architecture All-MLP pour la vision
- Faites attention à MLPS (GMLP)
- Transformateur de vision (VIT)
- Primer EZ
- Sablier
Adaptation de faible rang (LORA)
Eleuther gpt-neox
- Générer sur un GPU de 48 Go
- Finetune sur deux GPU de 48 Go
- Llm.int8 ()
Modèles de diffusion
- Modèles probabilistes de diffusion de débrassement (DDPM)
- Modèles implicites de diffusion de dénoçage (DDIM)
- Modèles de diffusion latente
- Diffusion stable
Réseaux adversaires génératifs
- Gan d'origine
- Gan avec un réseau convolutionnel profond
- Gan à vélo
- Wasserstein Gan
- Wasserstein Gan avec pénalité de gradient
- Stylegan 2
Réseaux routiers récurrents
LSTM
HyperNetworks - Hyperlstm
Resnet
Convalier
Réseaux de capsule
U-net
Sketch RNN
Graphique des réseaux de neurones
- Réseaux d'attention graphiques (GAT)
- Graphiques Networks d'attention V2 (GATV2)
Minimisation des regrets contrefactuels (CFR)
Résolution de jeux avec des informations incomplètes telles que le poker avec CFR.
Apprentissage du renforcement
- Optimisation de la politique proximale avec une estimation des avantages généralisés
- Réseaux profonds Q avec réseau de duel, relecture prioritaire et réseau double Q.
Optimisateurs
- Adam
- Amsgrad
- Adam Optimizer avec échauffement
- Optimiseur NOAM
- Adam Optimizer rectifié
- Adabelief Optimizer
- Sophia-G Optimiseur
Couches de normalisation
- Normalisation par lots
- Normalisation de la couche
- Normalisation d'instance
- Normalisation du groupe
- Standardisation du poids
- Normalisation du canal par lots
- De profondeur
Distillation
Calcul adaptatif
Incertitude
- Apprentissage en profondeur probante pour quantifier l'incertitude de la classification
Activations
- Activations de carrelage flou
Techniques d'échantillonnage du modèle Langauge
- Échantillonnage gourmand
- Échantillonnage de température
- Échantillonnage supérieur
- Échantillonnage du noyau
Formation / inférence évolutive
- Optimisations de mémoire zéro3
Installation