moe paper models
1.0.0
| auteur | titre |
|---|---|
Adam G | Configuration expérimentale du papier moe |
Ce référentiel sert de collection de configurations expérimentales en papier notables. Notez que ceux-ci pourraient être incomplets ou erronés pour certaines mesures, si c'est le cas, n'hésitez pas à soulever un problème et je le modifierai dès que possible.
Tâches majeures examinées dans ces articles:
| Papier | Année | Taille experte | Taille totale | Num exp (par couche) | Couches de num |
| Mégablocks | 11/2022 | N / A | 839m-13b | 64 | 3/6/12 |
| Moussin de profondeur | 01/2022 | 1.3 / 2,4 / 8/24/47B | 52/107/349/1064.9 / 2024B | 128 | 24/16/30/40/58 |
| Moussin de profondeur | 01/2022 | 1.3 / 2,4 / 8/24/47B | 52/107/349/1064.9 / 2024B | 128 | 24/16/30/40/58 |
| Routage de choix d'experts | 02/2022 | 0.145 / 9.8b | 1.9 / 143b | 64 | 16 |
| MOE au niveau de la tâche | 09/2022 | Taille 4096 FFN | 533m / 13b | 32/128 | 11 |
| Couches de hachage (VS Switch) | 06/2021 | Taille 4096 FFN | 751m / 852m / 1.28b | 64/16/128 | 1/5/1 |
| Couches de hachage (vs base) | 06/2021 | 100m / 33m | 4.5b | 32 / 3x32 | 1/3 |
| Gshard | 06/2020 | 8196 FNN Taille | 37/150/600B | 128/512/2048 | 12/36 (pour chaque num exp) |
| Plus rapide | 03/2022 | 1024/2048/4096 FFN Taille | 13.1 / 13.7 / 27.4b | 64/16/16 | 12/12/24 |
| Moustique | 02/2022 | 2816/20480 | 4.1 / 269b | 32/64 | 6/6 (tous les 4) |
| Routage aléatoire | 09/2022 | 20m-200m | 8/16 | 4/12 | |
| Décrochage de déclenchement | 05/2022 | 5.6 / 10b | 128/64 | 12/24 | |
| Couches de base | 03/2021 | 135/335 / 911m | 1.5 / 44/117B | 128? | 1 (couche de base) |
| Transformateur de commutateur | 01/2021 | 768/1024/4096 FFN Taille | 7/26/395/1571B | 128/128/64/2048 | 24/12/24/15 (tous les autres) |
| Evo Moe | 12/2021 | 335m (MT / MLM / LM) | 1.5 (MT) /1.8 (MLM LM) | 4 (MT) / 16 (MLM LM) | 6 (MT) / 12 (MLM LM) |
| Mousse stable (LM) | 04/2022 | 3072/4096 FFN Taille | 454m / 3.22b | 32/64 | 1/1 |
| Moustique stable (MT) | 04/2022 | Taille 2048 FFN | 480m | 32 | 2 |
| Modes scandaleusement grands (LM) | 01/2017 | 1m (DIMS = 1024x512) | 0,8 / 0,9 / 1,1 / 1,1 / 1,9 / 5.1 | 32/04/256/256/1024/4096 | 1 |
| Modes scandaleusement grands (LM-Gar | 01/2017 | 1m | 0,1 / 0,4 / 1,2 / 4,4 / 17,3 / 68.9 / 137.7 | 32 & 256/1024/4096/16384/65536 / 131072-H | 1 |
| Modes scandaleusement grands (MT) | 01/2017 | 2m | 8.7b | 32 et 512/2048-H | 2 (un entre codeur empilé et décodeur) |
| Modes scandaleusement grands (MTMT) | 01/2017 | 8192 FFN Taille | 8.7b | 512 | 2 |
| NLLB | 07/2022 | 8192 FFN Taille / 33,6 m | 54,5b / 51,6b Expert Taille | 128 | 6 couches expantes |
| NLLB efficace de la mémoire | 12/2022 | 8192 FFN Taille / 33,6 m | ~ 10,32B en supposant une élagage à 80% | ~ 24 par couche, 288 au total | 6 couches expantes |
| Glamour | 12/2021 | 8192 et 16384 et 32768 FFN Taille | 20/27/53 & 105/143B & 1.2T | 32/64/128 & 256/64 & 64 | 24 & 32 & 64 (toutes les autres couche) |
| Amazon Sagemaker | |||||
| Experts clairsemés M6-T | 05/2021 | 1024x4096 et 1024x21248 | 1.4 & 10.8 et 103.2 et 1002,7b | 32 & 128 & 512 et 960 (total) | 5 & 10 & 24 & 24 |
= Valeurs non confirmées ou insinuées de leurs expériences.
Pour les exigences matérielles, les barres obliques indiquent différentes configurations.
| Papier | Base de base | Exigences matérielles | Mémoire | Top-k | Capacité |
| Mégablocks | Transformateur-base vers GPT3-XL (46m à 1,3b) | 8x A100 80 Go | 1 | 1/1,5 / 2x | |
| Moussin de profondeur | Moe évolutif | 128x A100 80 Go | 2 * | 2 | |
| Routage de choix d'experts | Gshard | 512x TPU V4 | N / A* | 2 * | |
| MOE au niveau de la tâche | Base de transformateur (142m) / jeton / phrase Moe | 32x TPU V3 | 1 | ||
| Couches de hachage (VS Switch) | Transformateur-base (225 / 755m) / transformateur de commutateur | 8 32 Go V100 | * 1 | ||
| Couches de hachage (vs base) | Couches de base | 16 32 Go V100 | * 1 | ||
| Gshard | Gpipe / Transformateur de base | 128/512 / 2048X TPU V3 | 2 | 2 | |
| Plus rapide | Fastmoe / Gshard / base | 16/64X V100 | 2 | ||
| Moustique | Dense-l / t5 xxl / commutateur xxl | TPU | 2 | 1,25 facteur de plafond | |
| Routage aléatoire | Thor / Transformateur dense | 8x V100 | 1/2/4/8/16 | ||
| Décrochage de déclenchement | Moe évolutif | 16/64x de V100 / A100 | 1 | 1/2 (train / test) | |
| Couches de base | Smoe et commutateur (52b) | 8/32/128 32 Go V100 | |||
| Transformateur de commutateur | T5 (base de 223 m / 739 m de grande) | 32x TPUV3 | 1 | ||
| Evo Moe | Commutateur / couches de hachage / base / stable | 8x A100 | 1 | ||
| Mousse stable (LM) | Transformateur de commutateur / couche de base / couche de hachage / base de transformateur | ? X V100 GPUS | 1 | 1 (de Switch) | |
| Moustique stable (MT) | Transformateur-base et couche grande / base / couche de hachage / interrupteur | ? X V100 GPUS | 1 | 1 | |
| Modes scandaleusement grands (LM) | Moe-1 Wide & Deep / 4xlstm-512 / LSTM-2048 & 8192 | 4-16x K40 | 4 ou 2 pour Moe-H | ||
| Modes scandaleusement grands (LM-Gar | Moe-1 Wide & Deep / 4xlstm-512 / LSTM-2048 & 8192 | 32/64/128X K40S | 4 ou 2 pour Moe-H | ||
| Modes scandaleusement grands (MT) | GNMT / PBMT / LSTM-6 / DEEPATT | 64 K40 | 4 ou 2 pour Moe-H | ||
| Modes scandaleusement grands (MTMT) | GNMT-MONO / GNMT-MULTI | 64 K40 | 2 | ||
| NLLB | 101.6GIB / Chaque GPU détient un expert | ||||
| NLLB efficace de la mémoire | 3.3b NLLB-dense / NLLB-200 54.5b | GPU 1/4X V100 | |||
| Glamour | Switch / gpt-3 / kg-fid / megatron-nlg | 1024x TPU V4 (plus grand) | Pour les plus grands experts, ne tiennent pas à un seul TPU | 2 | 2 * |
| Amazon Sagemaker | |||||
| Experts clairsemés M6-T | Leurs propres comparaisons avec différents top-k | 480 V100 32 Go |
Le plus grand numéro de citation est pris sur Google Scholar et le savant sémantique
| Papier | Ensemble de données | Taille de lot | Open source | Citations | Notes |
| Mégablocks | La pile | 512 | N | 0 | |
| Moussin de profondeur | Lambada / piqa / boolq / race-h / trivia-QA / webqs | 256/512 | Y | 15/36 | |
| Routage de choix d'experts | Glamour | N / A | N | 6 | |
| MOE au niveau de la tâche | WMT | N / A | N | 13 | |
| Couches de hachage (VS Switch) | Pushshift.io/roberta/wikitext-103/bst | 40 | Y (en partie) | 43 | |
| Couches de hachage (vs base) | Pushshift.io/roberta/wikitext-103/bst | 2 | Y (en partie) | 43 | |
| Gshard | Ensemble de données personnalisé | 4m | Y (tpu uniquement) | 305 | |
| Plus rapide | Texte wiki | Y | 22 | ||
| Moustique | C4 1.5T | 1m | Y | 26 | |
| Routage aléatoire | enwik8 / bookcorpus | 128/256 | En cours d'examen | En cours d'examen | |
| Décrochage de déclenchement | WMT / Web-50 | 435k | N | 1/5 | |
| Couches de base | Roberta Corpus et CC100 | Y | 64/79 | ||
| Transformateur de commutateur | Grand corpus C4 (180b) | 1m | Y | 525 | |
| Evo Moe | WMT (MT) / OpenWebText (LM MLM) / Wikipedia / OpenWebText | N / A | Y | 11 | |
| Mousse stable (LM) | Roberta et CC100 | 512K | Y | 9 | |
| Moustique stable (MT) | WMT | 512K | Y | 9 | |
| Modes scandaleusement grands (LM) | Benchmark 1B Word | ? | N (mais a été recréé) | 1117/1050 | Utilise la couche MOE entre deux LSTM. 8.4 / 37.8 / 272.9 / 1079 / 4303m. |
| Modes scandaleusement grands (LM-Gar | 100 milliards Google Corpus | 2,5 m | "" | "" | S'adapter à 1 milliard de paramètres par GPU. Les tests GPU 64 et 128 sont pour les deux derniers modèles d'experts |
| Modes scandaleusement grands (MT) | WMT | ? | "" | "" | S'adapter à 1 milliard de paramètres par GPU. |
| Modes scandaleusement grands (MTMT) | Corner | 1m (16k par GPU) | "" | "" | |
| NLLB | Flores-200 (EVAL) / Données organisées par le couvercle / Paracrawl et CommonCrawl (monolingue) | 16K | Y | 26/49 | Chaque quatrième couche est une couche MOE. |
| NLLB efficace de la mémoire | Flores-200 (EVAL) | 16K | N | 0 | La libération de certains résultats tels que des experts élagués, etc. tous les quatrième sous-couches FFN est remplacé par une couche MOE. NLLB-200 nécessite 4x32 V100S pour fonctionner. Ce modèle usesthée à 80%. |
| Glamour | Ensemble de données personnalisé Glam de pages Web / Wikipedia / Forums, etc. | 1m | N | 59/84 | |
| Amazon Sagemaker | |||||
| Experts clairsemés M6-T |