moe paper models
1.0.0
| 著者 | タイトル |
|---|---|
アダムg | MOEペーパーの実験セットアップ |
このリポジトリは、注目すべき紙の実験セットアップのコレクションとして機能します。これらはいくつかのメトリックでは不完全または誤っている可能性があることに注意してください。もしそうなら、問題を提起してください。できるだけ早く修正します。
これらの論文で検討された主要なタスク:
| 紙 | 年 | エキスパートサイズ | 合計サイズ | numExp(レイヤーごと) | numレイヤー |
| Megablocks | 11/2022 | n/a | 839m-13b | 64 | 3/6/12 |
| deepspeed-moe | 01/2022 | 1.3/2.4/8/24/47b | 52/107/349/1064.9/2024b | 128 | 24/16/30/40/58 |
| deepspeed-moe | 01/2022 | 1.3/2.4/8/24/47b | 52/107/349/1064.9/2024b | 128 | 24/16/30/40/58 |
| 専門家の選択ルーティング | 02/2022 | 0.145/9.8b | 1.9/143b | 64 | 16 |
| タスクレベルのMOE | 09/2022 | 4096 FFNサイズ | 533m/13b | 32/128 | 11 |
| ハッシュレイヤー(vsスイッチ) | 06/2021 | 4096 FFNサイズ | 751M/852M/1.28B | 64/16/128 | 1/5/1 |
| ハッシュレイヤー(vsベース) | 06/2021 | 100m/33m | 4.5b | 32/3x32 | 1/3 |
| Gshard | 06/2020 | 8196 FNNサイズ | 37/150/600b | 128/512/2048 | 12/36(各numExpに対して) |
| より速い | 03/2022 | 1024/2048/4096 FFNサイズ | 13.1/13.7/27.4b | 64/16/16 | 12/12/24 |
| st-moe | 02/2022 | 2816/20480 | 4.1/269b | 32/64 | 6/6(4人ごと) |
| ランダムルーティング | 09/2022 | 20m-200m | 8/16 | 4/12 | |
| ゲーティングドロップアウト | 05/2022 | 5.6/10b | 128/64 | 12/24 | |
| 基本層 | 03/2021 | 135/335/911M | 1.5/44/117b | 128? | 1(ベースレイヤー) |
| スイッチトランス | 01/2021 | 768/1024/4096 FFNサイズ | 7/26/395/1571b | 128/128/64/2048 | 12/24/24/15(他のすべて) |
| エボ・モー | 12/2021 | 335m(MT/MLM/LM) | 1.5(MT)/1.8(MLM LM) | 4(mt)/16(mlm lm) | 6(MT)/12(MLM LM) |
| stable-moe(lm) | 04/2022 | 3072/4096 FFNサイズ | 454m/3.22b | 32/64 | 1/1 |
| stable-moe(mt) | 04/2022 | 2048 FFNサイズ | 480m | 32 | 2 |
| とんでもない大きなoes(lm) | 01/2017 | 1m(dims = 1024x512) | 0.8/0.9/1.1/1.1/1.9/5.1 | 4/32/256/256/1024/4096 | 1 |
| とんでもない大きなoes(lm-large) | 01/2017 | 1m | 0.1/0.4/1.2/4.4/17.3/68.9/137.7 | 32&256/1024/4096/16384/65536/131072-H | 1 |
| とんでもない大きなoes(mt) | 01/2017 | 2m | 8.7b | 32&512/2048-H | 2(積み上げエンコーダーとデコーダーの間) |
| とんでもない大きなoes(mtmt) | 01/2017 | 8192 FFNサイズ | 8.7b | 512 | 2 |
| nllb | 07/2022 | 8192 FFNサイズ/33.6m | 54.5B/51.6Bエキスパートサイズ | 128 | 6 exp層 |
| メモリ効率的なnllb | 12/2022 | 8192 FFNサイズ/33.6m | 80%の剪定を想定している〜10.32b | レイヤーあたり約24、全体で288 | 6 exp層 |
| グラム | 12/2021 | 8192&16384&32768 FFNサイズ | 20/27/53&105/143b&1.2t | 32/64/128&256/64&64 | 24&32&64(他のすべてのレイヤー) |
| Amazon Sagemaker | |||||
| M6-Tスパースの専門家 | 05/2021 | 1024x4096&1024x21248 | 1.4&10.8&103.2&1002.7b | 32&128&512&960(合計) | 5&10&24&24 |
=実験から未確認またはほのめかされていない値。
ハードウェアの要件については、スラッシュは異なる構成を示します。
| 紙 | ベースライン | ハードウェア要件 | メモリ | TOP-K | 容量 |
| Megablocks | 変圧器ベースからGPT3-XL(46m〜1.3b) | 8x A100 80GB | 1 | 1/1.5/2x | |
| deepspeed-moe | スケーラブルなMOE | 128X A100 80GB | 2* | 2 | |
| 専門家の選択ルーティング | Gshard | 512x TPU V4 | n/a* | 2* | |
| タスクレベルのMOE | トランスベース(142m)/トークン/文moe | 32x TPU V3 | 1 | ||
| ハッシュレイヤー(vsスイッチ) | トランスベース(225/755m)/スイッチトランス | 8 32GB V100 | *1 | ||
| ハッシュレイヤー(vsベース) | 基本層 | 16 32GB V100 | *1 | ||
| Gshard | GPIPE/ベーストランス | 128/512/2048X TPU V3 | 2 | 2 | |
| より速い | fastmoe/ gshard/ base | 16/64X V100 | 2 | ||
| st-moe | 濃度l/ t5 xxl/ switch xxl | TPU | 2 | 1.25キャップファクター | |
| ランダムルーティング | トール/トランス濃い | 8x V100 | 1/2/4/8/16 | ||
| ゲーティングドロップアウト | スケーラブルなMOE | V100/A100の16/64X | 1 | 1/2(電車/テスト) | |
| 基本層 | smoe and switch(52b) | 8/32/128 32GB V100 | |||
| スイッチトランス | T5(223mベース/ 739m大きい) | 32X TPUV3 | 1 | ||
| エボ・モー | スイッチ/ハッシュレイヤー/ベース/stablemoe | 8x A100 | 1 | ||
| stable-moe(lm) | スイッチトランス/ベースレイヤー/ハッシュレイヤー/トランスベース | ?x v100 gpus | 1 | 1(スイッチから) | |
| stable-moe(mt) | トランスベースと大型/ベースレイヤー/ハッシュレイヤー/スイッチ | ?x v100 gpus | 1 | 1 | |
| とんでもない大きなoes(lm) | MOE-1 WIDE&DEEP/ 4XLSTM-512/ LSTM-2048および8192 | 4-16X K40S | MOE-Hの4または2 | ||
| とんでもない大きなoes(lm-large) | MOE-1 WIDE&DEEP/ 4XLSTM-512/ LSTM-2048および8192 | 32/64/128X K40S | MOE-Hの4または2 | ||
| とんでもない大きなoes(mt) | GNMT/PBMT/LSTM-6/DEEPATT | 64 k40s | MOE-Hの4または2 | ||
| とんでもない大きなoes(mtmt) | gnmt-mono/gnmt-multi | 64 k40s | 2 | ||
| nllb | 101.6GIB/各GPUには1人の専門家がいます | ||||
| メモリ効率的なnllb | 3.3b nllb-dense/nllb-200 54.5b | 1/4x V100 GPU | |||
| グラム | スイッチ/GPT-3/kg-FID/MEGATRON-NLG | 1024X TPU V4(最大) | 最大の専門家にとっては、単一のTPUに適合しません | 2 | 2* |
| Amazon Sagemaker | |||||
| M6-Tスパースの専門家 | 異なるTop-Kとの独自の比較 | 480 V100 32GB |
Google ScholarおよびSemantic Scholarで最高の引用番号が取られます
| 紙 | データセット | バッチサイズ | オープンソース | 引用 | メモ |
| Megablocks | 山 | 512 | n | 0 | |
| deepspeed-moe | Lambada/Piqa/Boolq/Race-H/Trivia-Qa/WebQs | 256/512 | y | 15/36 | |
| 専門家の選択ルーティング | グラム | n/a | n | 6 | |
| タスクレベルのMOE | WMT | n/a | n | 13 | |
| ハッシュレイヤー(vsスイッチ) | pushshift.io/roberta/wikitext-103/bst | 40 | y(部分的に) | 43 | |
| ハッシュレイヤー(vsベース) | pushshift.io/roberta/wikitext-103/bst | 2 | y(部分的に) | 43 | |
| Gshard | カスタムデータセット | 4m | Y(TPUのみ) | 305 | |
| より速い | ウィキテキスト | y | 22 | ||
| st-moe | C4 1.5T | 1m | y | 26 | |
| ランダムルーティング | enwik8/bookcorpus | 128/256 | レビュー中 | レビュー中 | |
| ゲーティングドロップアウト | WMT/Web-50 | 435k | n | 1/5 | |
| 基本層 | Roberta CorpusおよびCC100 | y | 64/79 | ||
| スイッチトランス | 大きなC4コーパス(180b) | 1m | y | 525 | |
| エボ・モー | WMT(MT)/OpenWeBtext(LM MLM)/Wikipedia/OpenWebtext | n/a | y | 11 | |
| stable-moe(lm) | ロベルタとCC100 | 512K | y | 9 | |
| stable-moe(mt) | WMT | 512K | y | 9 | |
| とんでもない大きなoes(lm) | 1bワードベンチマーク | ? | n(ただし、再現されています) | 1117/1050 | 2つのLSTMの間でMOEレイヤーを使用します。 8.4/37.8/272.9/1079/4303M。 |
| とんでもない大きなoes(lm-large) | 1,000億のGoogleコーパス | 2.5m | "" | "" | GPUあたり最大10億パラメーターに適合します。 64および128のGPUテストは、最後の2つのエキスパートモデル用です |
| とんでもない大きなoes(mt) | WMT | ? | "" | "" | GPUあたり最大10億パラメーターに適合します。 |
| とんでもない大きなoes(mtmt) | corr | 1M(GPUあたり16K) | "" | "" | |
| nllb | flores-200(eval)/lidキュレーションデータ/パラクラールとCommoncrawl(Monolingual) | 16K | y | 26/49 | 4番目の層ごとにMOE層があります。 |
| メモリ効率的なnllb | フローレス-200(評価) | 16K | n | 0 | 4番目のFFNサブレイヤーごとに、専門家などのいくつかの結果をリリースすると、MOE層に置き換えられます。 NLLB-200には、実行するには4x32 V100が必要です。これにより、80%のプルーニングモデルがあります。 |
| グラム | Webページ/ウィキペディア/フォーラムなどのGLAMカスタムデータセット | 1m | n | 59/84 | |
| Amazon Sagemaker | |||||
| M6-Tスパースの専門家 |