Téléchargement de lmtool fwp - Téléchargement du code source lmtool fwp

lmtool fwp

Code Source AI

1.0.0

Télécharger

Boîte à outils de modélisation du langage Pytorch (pour les programmeurs de poids rapide)

Ce référentiel contient le code officiel utilisé pour les expériences de modélisation du langage dans le ou les documents:

Les transformateurs linéaires sont secrètement des programmeurs de poids rapide (ICML 2021)
Aller au-delà des transformateurs linéaires avec des programmeurs de poids rapide récurrent
...

Plus généralement, cela peut être utilisé comme boîte à outils de modélisation des langues à Pytorch pour expérimenter:

Transformers standard
Transformateur-xl
Programmeurs de poids rapide avec différentes règles de mise à jour et fonctions d'attention linéaire :
- Règles de mise à jour: "Sum" et notre règle "Delta" (comme proposé dans notre article; Sec 4.2)
- Fonctions d'attention linéaire: "" Attention linéaire "basée sur l'ELU", favori + "," Projection sans paramètre déterministe (DPFP) "
Par exemple, certaines combinaisons entraînent des modèles bien connus:
- Linear Transformers = "SUM" Règle de mise à jour + "Aattendue linéaire basée sur ELU
- Performers = "SUM" Règle de mise à jour + "Favor +"

Implémentations de poids rapide

Cette dépôt contient deux implémentations de poids rapides.

Kernel Cuda personnalisé (voir utils / fast_fast_weight et utils / cuda_fast_weight_layer.py)
Personnalisé torch.autograd.Function (voir utils / fast_weight.py)

Bien que nous n'ayons utilisés l'implémentation CUDA que pour toutes nos expériences finales (utilisation de GPU plus rapide / bien meilleure), la version torch.autograd.Function peut être utile pour un prototypage rapide avec de nouvelles extensions.

Exigences

Cette boîte à outils nécessite torch Pytorch et ninja (pour compiler les noyaux Cuda).

Les expériences du papier ont été réalisées avec Python 3.6 et Pytorch 1.4.0 (note le 24 août 2023: Le code fonctionne également avec Python 3.11 et Pytorch 2.0.1 + Cu117).

Les versions plus récentes de Pytorch ne sont pas encore bien prises en charge par cette boîte à outils qui utilise toujours torch.nn.DataParallel pour une formation multi-GPU. Si vous devez vraiment utiliser une version plus récente de Pytorch, vérifiez la documentation pour utiliser torch.nn.parallel.DistributedDataParallel à la place. Nous espérons que nous le réparerons bientôt, mais nous ne pouvons pas dire exactement quand.

La boîte à outils prend en charge les poids et les biais pour surveiller les emplois. Si vous l'utilisez, installez également wandb .

Remerciements

Cette reprise contient de nombreuses lignes de code prises et adaptées des sources suivantes:

Cette reprise a été à l'origine fourchue à partir de la mise en œuvre officielle de Transformer-XL Kimiyoung / Transformer-XL. Le code pour les modèles transformateurs-xl et transformateurs standard, ainsi que les fonctionnalités de base nécessaires à la modélisation du langage (y compris les intégres adaptatifs d'entrée et de sortie) et la préparation des données (wikitext-103, enwik8, ...) provient du référentiel correspondant.
Pour les interprètes, les fonctions d'assistance de LucidRains / Performer-Pytorch sont utilisées.
Pour les implémentations CUDA de nos programmeurs de poids rapide avec la règle Delta:
- Le code d'IDIAP / Transformateurs accélérés est utilisé avec des modifications mineures pour la règle de mise à jour de la somme.
- Nous l'avons modifié pour implémenter notre règle de mise à jour. Voir les commentaires dans le code pour les emplacements et modifications exacts.

Instructions générales

Veuillez vérifier les fichiers sous example_scripts pour les instructions générales et les exemples pour former et évaluer les modèles.

Bibtex

 @inproceedings{schlag2021linear,
      title={Linear Transformers Are Secretly Fast Weight Programmers}, 
      author={Imanol Schlag and Kazuki Irie and J"urgen Schmidhuber},
      booktitle={Proc. Int. Conf. on Machine Learning (ICML)},
      address = {Virtual only},
      month = jul,
      year={2021}
}

 @article{irie2021going,
      title={Going Beyond Linear Transformers with Recurrent Fast Weight Programmers}, 
      author={Kazuki Irie and Imanol Schlag and R'obert Csord'as and J"urgen Schmidhuber},
      journal={Preprint arXiv:2106.06295},
      year={2021}
}

Links

Le code pour les expériences de récupération synthétique dans l'article "Les transformateurs linéaires sont secrètement des programmeurs de poids rapide" (ICML 2021) peuvent être trouvés à Ischlag / Transformateurs de poids rapide.
Le référentiel complet pour le papier "allant au-delà des transformateurs linéaires avec des programmeurs récurrents de poids rapide" peut être trouvé sur: idsia / récurrent-fwp
Article de blog sur l'IA de Jürgen Schmidhuber sur les programmeurs de poids rapide (26 mars 2021).

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-07
taille 147.08KB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub actions/download artifact

2024-11-01

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout