Skalierungsgesetze für das Lernen von Sprachtransfer
Code und Modelle aus dem Blog -Post -Skalierungsgesetz für Sprachtransferlernen
Motivation
Aufbauend auf Arbeiten aus Skalierungsgesetzen für den Transfer (Hernandez ET.
Verwendung
Dieses Repo enthält den Code für:
- Reproduktionieren Sie nur vorgeschriebene Decoder-Transformatoren, die Hyperparameter aus Skalierungsgesetzen für neuronale Sprachen verwenden, aber auf OpenWebText2 anstelle von WebText trainiert wurden
- Reproduzieren von Sprachtransferexperimenten für vorgeborene englische Modelle an chinesische, spanische und deutsche Texte
Alle englischen vorgeborenen Modelle wurden für 26 Milliarden Token ohne Wiederholungen trainiert:
- X6Small 3,3 m Nicht-Embedding-Parameter
- X5Small 16m Nicht-Embedding-Parameter
- X4Small 39m Nicht-Embedding-Parameter
- X3Small 51m Nicht-Embedding-Parameter
- X2Small 70 m Nicht-Embedding-Parameter
- Kleine 124-m-Nicht-Embedding-Parameter
Datensätze
- Englisch: OpenWebtext2
- Deutsch: Oscar
- Spanisch: Oscar
- Chinesisch: Community -QA (WebText2091zh)