Échelle des lois pour l'apprentissage du transfert de langue
Code et modèles des lois sur l'échelle des articles de blog pour l'apprentissage du transfert de langue
Motivation
S'appuyant sur le travail à partir de lois sur le transfert (Hernandez et al.
Usage
Ce repo contient le code pour:
- Reproduction des transformateurs pré-formés au décodeur uniquement utilisant des hyperparamètres à partir de lois sur l'échelle des langues neuronales mais formées sur OpenWebText2 au lieu de WebText
- Reproduction des expériences de transfert de langue pour les modèles anglais pré-formés aux textes chinois, espagnol et allemand
Tous les modèles pré-formés en anglais ont été formés pour 26 milliards de jetons sans répétition:
- Paramètres X6Small 3,3M non surclassage
- Paramètres X5SMALL 16M
- Paramètres X4SMALL 39M
- Paramètres X3SMALL 51M
- Paramètres X2Small 70M
- Petits paramètres de non-incliné 124m
Ensembles de données
- Anglais: OpenWebText2
- Allemand: Oscar
- Espagnol: Oscar
- Chinois: QA communautaire (WebText2091ZH)