moe paper models
1.0.0
| Autor | Titel |
|---|---|
Adam g | Experimentelle MOE -Papier -Setups |
Dieses Repository dient als Sammlung bemerkenswerter Papier -experitaler Setups. Beachten Sie, dass diese für einige Metriken unvollständig oder fehlerhaft sein könnten, wenn Sie dies gerne ein Problem ansprechen können, und ich werde es so schnell wie möglich ändern.
Wichtige Aufgaben, die in diesen Papieren untersucht wurden:
| Papier | Jahr | Expertengröße | Gesamtgröße | Num exp (pro Schicht) | Numschichten |
| Megablocks | 11/2022 | N / A | 839m-13b | 64 | 3/6/12 |
| Deepspeed-Moe | 01/2022 | 1,3/2,4/8/24/47b | 52/107/349/1064.9/2024B | 128 | 24/16/30/40/58 |
| Deepspeed-Moe | 01/2022 | 1,3/2,4/8/24/47b | 52/107/349/1064.9/2024B | 128 | 24/16/30/40/58 |
| Expertenauswahl Routing | 02/2022 | 0,145/9,8b | 1,9/143b | 64 | 16 |
| Aufgabenebene Moe | 09.09.2022 | 4096 FFN -Größe | 533 m/13b | 32/128 | 11 |
| Hash -Schichten (VS Switch) | 06/2021 | 4096 FFN -Größe | 751 m/852 m/1,28B | 64/16/128 | 1/5/1 |
| Hash -Schichten (gegen Basis) | 06/2021 | 100 m/33 m | 4,5b | 32/3x32 | 1/3 |
| Gshard | 06/2020 | 8196 FNN Größe | 37/150/600b | 128/512/2048 | 12/36 (für jede Num exp) |
| Schneller | 03/2022 | 1024/2048/4096 FFN Größe | 13.1/13.7/27.4b | 64/16/16 | 12.12.24 |
| St-moe | 02/2022 | 2816/20480 | 4.1/269b | 32/64 | 6/6 (alle 4) |
| Zufälliger Routing | 09.09.2022 | 20m-200m | 8/16 | 4/12 | |
| Gating Dropout | 05/2022 | 5.6/10b | 128/64 | 12/24 | |
| Grundschichten | 03/2021 | 135/335/911m | 1,5/44/117b | 128? | 1 (Basisschicht) |
| Transformator schalten | 01/2021 | 768/1024/4096 FFN Größe | 7/26/395/1571b | 128/128/64/2048 | 24.12.24.15 (alle anderen) |
| Evo Moe | 12/2021 | 335 m (MT/MLM/LM) | 1,5 (MT) /1.8 (MLM LM) | 4 (MT)/16 (MLM LM) | 6 (MT)/12 (MLM LM) |
| Stall-MOE (LM) | 04/2022 | 3072/4096 FFN Größe | 454 m/3,22b | 32/64 | 1/1 |
| Stall-MOE (MT) | 04/2022 | 2048 FFN -Größe | 480 m | 32 | 2 |
| Unverschämt große Moes (LM) | 01/2017 | 1m (Dims = 1024x512) | 0,8/0,9/1,1/1,1/1,9/5,1 | 4/32/256/256/1024/4096 | 1 |
| Unverschämt große Moes (LM-Large) | 01/2017 | 1m | 0,1/0,4/1,2/4,4/17.3/68,9/137,7 | 32 & 256/1024/4096/16384/65536/131072-H | 1 |
| Unverschämt große Moes (MT) | 01/2017 | 2m | 8.7b | 32 & 512/2048-H | 2 (einer zwischen gestapeltem Encoder und Decoder) |
| Unverschämt große Moes (MTMT) | 01/2017 | 8192 FFN -Größe | 8.7b | 512 | 2 |
| Nllb | 07/2022 | 8192 FFN Größe/33,6 m | 54,5B/51.6B Expertengröße | 128 | 6 EXP -Schichten |
| Speichereffizienter NLLB | 12/2022 | 8192 FFN Größe/33,6 m | ~ 10,32B unter der Annahme von 80% Beschneidung | ~ 24 pro Schicht, 288 insgesamt | 6 EXP -Schichten |
| Glam | 12/2021 | 8192 & 16384 & 32768 FFN Größe | 20/27/53 & 105/143b & 1,2t | 32/64/128 & 256/64 & 64 | 24 & 32 & 64 (jede andere Schicht) |
| Amazon Sagemaker | |||||
| M6-T-spärliche Experten | 05/2021 | 1024x4096 & 1024x21248 | 1.4 & 10.8 & 103.2 & 1002.7b | 32 & 128 & 512 & 960 (Gesamt) | 5 & 10 & 24 & 24 |
= Werte, die nicht bestätigt oder aus ihren Experimenten unterstellt sind.
Für Hardwareanforderungen kennzeichnen Schrägstriche unterschiedliche Konfigurationen.
| Papier | Grundlinie | Hardwareanforderungen | Erinnerung | Top-K | Kapazität |
| Megablocks | Transformator-Basis zu GPT3-XL (46 m bis 1,3B) | 8x A100 80GB | 1 | 1/1,5/2x | |
| Deepspeed-Moe | Skalierbares Moe | 128x A100 80GB | 2* | 2 | |
| Expertenauswahl Routing | Gshard | 512x TPU V4 | N / A* | 2* | |
| Aufgabenebene Moe | Transformator Basis (142 m)/Token/Satz MOE | 32x TPU V3 | 1 | ||
| Hash -Schichten (VS Switch) | Transformator-Base (225/755M)/Switch-Transformator | 8 32 GB V100 | *1 | ||
| Hash -Schichten (gegen Basis) | Grundschichten | 16 32 GB V100 | *1 | ||
| Gshard | GPIPE/BASE -Transformator | 128/512/2048X TPU V3 | 2 | 2 | |
| Schneller | FASTMOE/ GSHARD/ BASE | 16/64x V100 | 2 | ||
| St-moe | Dichte L/ T5 XXL/ Switch xxl | TPU | 2 | 1,25 Cap -Faktor | |
| Zufälliger Routing | Thor/Transformator dicht | 8x V100 | 2/4/8/16 | ||
| Gating Dropout | Skalierbares Moe | 16/64x V100/A100 | 1 | 1/2 (Zug/Test) | |
| Grundschichten | Smoe und Switch (52B) | 8/32/128 32 GB V100 | |||
| Transformator schalten | T5 (223 m Basis/ 739 m groß) | 32x TPUV3 | 1 | ||
| Evo Moe | Schalt-/Hash -Schichten/Basis/Stablemoe | 8x A100 | 1 | ||
| Stall-MOE (LM) | Schaltertransformator/Basisschicht/Hash-Schicht/Transformator-Base | ? X V100 GPUS | 1 | 1 (aus Switch) | |
| Stall-MOE (MT) | Transformator-Base und große/Basisschicht/Hash-Schicht/Schalter | ? X V100 GPUS | 1 | 1 | |
| Unverschämt große Moes (LM) | MOE-1 Wide & Deep/ 4XLSTM-512/ LSTM-2048 & 8192 | 4-16x K40s | 4 oder 2 für Moe-H | ||
| Unverschämt große Moes (LM-Large) | MOE-1 Wide & Deep/ 4XLSTM-512/ LSTM-2048 & 8192 | 32/64/128x K40s | 4 oder 2 für Moe-H | ||
| Unverschämt große Moes (MT) | GNMT/PBMT/LSTM-6/Deepatt | 64 K40s | 4 oder 2 für Moe-H | ||
| Unverschämt große Moes (MTMT) | Gnmt-mono/gnmt-multi | 64 K40s | 2 | ||
| Nllb | 101.6GIB/ jede GPU hält einen Experten | ||||
| Speichereffizienter NLLB | 3.3B NLLB-DENSE/NLLB-200 54,5B | 1/4x V100 GPUs | |||
| Glam | Switch/GPT-3/kg-fid/megatron-nlg | 1024x TPU V4 (größte) | Für die größten Experten passt nicht auf eine einzige TPU | 2 | 2* |
| Amazon Sagemaker | |||||
| M6-T-spärliche Experten | Ihre eigenen Vergleiche mit unterschiedlichem Top-k | 480 V100 32 GB |
Die höchste Zitiernummer wird in Google Scholar und Semantic Scholar übernommen
| Papier | Datensatz | Chargengröße | Open Source | Zitate | Notizen |
| Megablocks | Der Stapel | 512 | N | 0 | |
| Deepspeed-Moe | Lambada/Piqa/Boolq/Race-H/Trivia-Qa/Webqs | 256/512 | Y | 15/36 | |
| Expertenauswahl Routing | Glam | N / A | N | 6 | |
| Aufgabenebene Moe | WMT | N / A | N | 13 | |
| Hash -Schichten (VS Switch) | Pushshift.io/roberta/wikitext-103/bst | 40 | Y (teilweise) | 43 | |
| Hash -Schichten (gegen Basis) | Pushshift.io/roberta/wikitext-103/bst | 2 | Y (teilweise) | 43 | |
| Gshard | Benutzerdefinierter Datensatz | 4m | Y (nur TPU) | 305 | |
| Schneller | Wiki -Text | Y | 22 | ||
| St-moe | C4 1.5T | 1m | Y | 26 | |
| Zufälliger Routing | Enwik8/bookCorpus | 128/256 | In Überprüfung | In Überprüfung | |
| Gating Dropout | WMT/Web-50 | 435k | N | 1/5 | |
| Grundschichten | Roberta Corpus und CC100 | Y | 64/79 | ||
| Transformator schalten | Großer C4 Corpus (180b) | 1m | Y | 525 | |
| Evo Moe | WMT (MT)/OpenWebtext (LM MLM)/Wikipedia/OpenWebtext | N / A | Y | 11 | |
| Stall-MOE (LM) | Roberta und CC100 | 512K | Y | 9 | |
| Stall-MOE (MT) | WMT | 512K | Y | 9 | |
| Unverschämt große Moes (LM) | 1B Wort Benchmark | ? | N (wurde nachgebaut) | 1117/1050 | Verwendet die MOE -Schicht zwischen zwei LSTMs. 8.4/37.8/272.9/1079/4303m. |
| Unverschämt große Moes (LM-Large) | 100 Milliarden Google Corpus | 2,5 m | "" " | "" " | Machen Sie bis zu 1 Milliarde Parameter pro GPU. Die 64- und 128 GPU -Tests bestehen für die letzten beiden Expertenmodelle |
| Unverschämt große Moes (MT) | WMT | ? | "" " | "" " | Machen Sie bis zu 1 Milliarde Parameter pro GPU. |
| Unverschämt große Moes (MTMT) | Korrigieren | 1 m (16K pro GPU) | "" " | "" " | |
| Nllb | Flores-200 (Eval)/Deckel kuratierte Daten/Parakrawl und Commoncrawl (einsprachig) | 16k | Y | 26/49 | Jede vierte Schicht ist eine MOE -Schicht. |
| Speichereffizienter NLLB | Flores-200 (Eval) | 16k | N | 0 | Die Veröffentlichung einiger Ergebnisse wie Experten usw. jeder vierte FFN -Unterschicht wird durch eine MOE -Schicht ersetzt. NllB-200 erfordert 4x32 V100s zum Ausführen. Dies wird ein 80% iger Schnürmodell verwendet. |
| Glam | Glam benutzerdefinierter Datensatz mit Webseiten/Wikipedia/Foren usw. | 1m | N | 59/84 | |
| Amazon Sagemaker | |||||
| M6-T-spärliche Experten |