moe paper models
1.0.0
| 作者 | 標題 |
|---|---|
亞當·G | 郵政紙實驗設置 |
該存儲庫用作著名的紙質實驗設置的集合。請注意,對於某些指標,這些可能是不完整或錯誤的,如果可以隨意提出問題,我會盡快對其進行修改。
在這些論文中檢查的主要任務:
| 紙 | 年 | 專家規模 | 總尺寸 | num exp(每一層) | 數層 |
| 巨型 | 11/2022 | N/A。 | 839m-13b | 64 | 3/6/12 |
| DeepSpeed-Moe | 01/2022 | 1.3/2.4/8/24/47b | 52/107/349/1064.9/2024b | 128 | 24/16/30/40/58 |
| DeepSpeed-Moe | 01/2022 | 1.3/2.4/8/24/47b | 52/107/349/1064.9/2024b | 128 | 24/16/30/40/58 |
| 專家選擇路由 | 02/2022 | 0.145/9.8b | 1.9/143b | 64 | 16 |
| 任務級的萌 | 09/2022 | 4096 FFN尺寸 | 533m/13b | 32/128 | 11 |
| 哈希層(vs開關) | 06/2021 | 4096 FFN尺寸 | 751m/852m/1.28b | 64/16/128 | 1/5/1 |
| 哈希層(vs基礎) | 06/2021 | 100m/33m | 4.5b | 32/3x32 | 1/3 |
| GSHARD | 06/2020 | 8196 FNN尺寸 | 37/150/600B | 128/512/2048 | 12/36(對於每個數字) |
| Fastermoe | 03/2022 | 1024/2048/4096 FFN尺寸 | 13.1/13.7/27.4b | 16/64/16 | 12/12/24 |
| St-Moe | 02/2022 | 2816/20480 | 4.1/269b | 32/64 | 6/6(每4) |
| 隨機路由 | 09/2022 | 20m-200m | 8/16 | 4/12 | |
| 門控輟學 | 05/2022 | 5.6/10b | 128/64 | 12/24 | |
| 基層 | 03/2021 | 135/335/911m | 1.5/44/117B | 128? | 1(基礎層) |
| 開關變壓器 | 01/2021 | 768/1024/4096 FFN尺寸 | 7/26/395/1571b | 128/128/64/2048 | 12/24/24/15(其他) |
| Evo Moe | 12/2021 | 335m(MT/MLM/LM) | 1.5(MT)/1.8(MLM LM) | 4(MT)/16(MLM LM) | 6(MT)/12(MLM LM) |
| 穩定的莫克(LM) | 04/2022 | 3072/4096 FFN尺寸 | 454m/3.22b | 32/64 | 1/1 |
| 穩定的莫克(MT) | 04/2022 | 2048 FFN尺寸 | 480m | 32 | 2 |
| 巨大的穆斯(LM) | 01/2017 | 1M(DIMS = 1024x512) | 0.8/0.9/1.1/1.1/1.9/5.1 | 4/32/256/256/1024/4096 | 1 |
| 大穆斯(LM-LARGE)令人毛骨悚然 | 01/2017 | 1m | 0.1/0.4/1.2/4.4/17.3/68.9/137.7 | 32&256/1024/4096/16384/65536/131072-H | 1 |
| 大穆斯(MT) | 01/2017 | 2m | 8.7b | 32&512/2048-H | 2(在堆疊的編碼器和解碼器之間) |
| 大穆斯(MTMT) | 01/2017 | 8192 FFN尺寸 | 8.7b | 512 | 2 |
| NLLB | 07/2022 | 8192 FFN尺寸/33.6m | 54.5b/51.6b專家規模 | 128 | 6個exp層 |
| 內存有效的NLLB | 12/2022 | 8192 FFN尺寸/33.6m | 〜1.32b假設修剪80% | 每層〜288總體288 | 6個exp層 |
| 華麗 | 12/2021 | 8192&16384&32768 FFN尺寸 | 20/27/53&105/143b&1.2t | 32/64/128&256/64&64 | 24&32&64(其他每一層) |
| 亞馬遜射手製造商 | |||||
| M6-T稀疏專家 | 05/2021 | 1024x4096&1024x21248 | 1.4&10.8&103.2&1002.7b | 32&128&512&960(總數) | 5&10&24&24 |
=未經證實或暗示其實驗的值。
對於硬件要求,斜杠表示不同的配置。
| 紙 | 基線 | 硬件要求 | 記憶 | top-k | 容量 |
| 巨型 | 變壓器基於GPT3-XL(46m至1.3b) | 8x A100 80GB | 1 | 1/1.5/2x | |
| DeepSpeed-Moe | 可擴展的萌 | 128x A100 80GB | 2* | 2 | |
| 專家選擇路由 | GSHARD | 512X TPU V4 | N/A* | 2* | |
| 任務級的萌 | 變壓器基礎(142m)/令牌/句子MOE | 32X TPU V3 | 1 | ||
| 哈希層(vs開關) | 變壓器基準(225/755m)/開關變壓器 | 8 32GB V100 | *1 | ||
| 哈希層(vs基礎) | 基層 | 16 32GB V100 | *1 | ||
| GSHARD | GPIPE/BASE變壓器 | 128/512/2048x TPU V3 | 2 | 2 | |
| Fastermoe | FastMoe/ gshard/ base | 16/64x V100 | 2 | ||
| St-Moe | 密集l/ t5 xxl/ switch xxl | TPU | 2 | 1.25蓋因子 | |
| 隨機路由 | 雷神/變壓器密集 | 8x V100 | 1/2/4/8/16 | ||
| 門控輟學 | 可擴展的萌 | V100/A100的16/64x | 1 | 1/2(火車/測試) | |
| 基層 | SMOE和SWITCH(52B) | 8/32/128 32GB V100 | |||
| 開關變壓器 | T5(223m鹼/ 739m大) | 32X TPUV3 | 1 | ||
| Evo Moe | 開關/哈希層/base/stablemoe | 8x A100 | 1 | ||
| 穩定的莫克(LM) | 切換變壓器/基礎層/哈希層/變壓器基礎 | X V100 GPU | 1 | 1(從開關) | |
| 穩定的莫克(MT) | 變壓器基和大/基層/哈希層/開關 | X V100 GPU | 1 | 1 | |
| 巨大的穆斯(LM) | Moe-1寬與深/ 4XLSTM-512/ LSTM-2048和8192 | 4-16X K40S | Moe-H 4或2 | ||
| 大穆斯(LM-LARGE)令人毛骨悚然 | Moe-1寬與深/ 4XLSTM-512/ LSTM-2048和8192 | 32/64/128X K40S | Moe-H 4或2 | ||
| 大穆斯(MT) | GNMT/PBMT/LSTM-6/DEEPATT | 64 K40 | Moe-H 4或2 | ||
| 大穆斯(MTMT) | gnmt-mono/gnmt-multi | 64 K40 | 2 | ||
| NLLB | 101.6GIB/每個GPU持有一個專家 | ||||
| 內存有效的NLLB | 3.3b NLLB密集/NLLB-200 54.5b | 1/4x V100 GPU | |||
| 華麗 | 開關/gpt-3/kg-fid/megatron-nlg | 1024x TPU V4(最大) | 對於最大的專家來說,不適合單個TPU | 2 | 2* |
| 亞馬遜射手製造商 | |||||
| M6-T稀疏專家 | 他們自己與不同的TOP-K進行比較 | 480 V100 32GB |
在Google Scholar和語義學者中獲取最高的引文數
| 紙 | 數據集 | 批量大小 | 開源 | 引用 | 筆記 |
| 巨型 | 堆 | 512 | n | 0 | |
| DeepSpeed-Moe | lambada/piqa/booolq/race-h/trivia-qa/webqs | 256/512 | y | 15/36 | |
| 專家選擇路由 | 華麗 | N/A。 | n | 6 | |
| 任務級的萌 | WMT | N/A。 | n | 13 | |
| 哈希層(vs開關) | pushshift.io/roberta/wikitext-103/bst | 40 | y(部分) | 43 | |
| 哈希層(vs基礎) | pushshift.io/roberta/wikitext-103/bst | 2 | y(部分) | 43 | |
| GSHARD | 自定義數據集 | 4m | y(僅TPU) | 305 | |
| Fastermoe | Wiki文字 | y | 22 | ||
| St-Moe | C4 1.5T | 1m | y | 26 | |
| 隨機路由 | enwik8/bookcorpus | 128/256 | 審查 | 審查 | |
| 門控輟學 | WMT/Web-50 | 435k | n | 1/5 | |
| 基層 | 羅伯塔語料庫和CC100 | y | 64/79 | ||
| 開關變壓器 | 大型C4語料庫(180b) | 1m | y | 525 | |
| Evo Moe | WMT(MT)/OpenWebText(LM MLM)/Wikipedia/OpenWebText | N/A。 | y | 11 | |
| 穩定的莫克(LM) | 羅伯塔和CC100 | 512k | y | 9 | |
| 穩定的莫克(MT) | WMT | 512k | y | 9 | |
| 巨大的穆斯(LM) | 1B字基準 | ? | n(但已重新創建) | 1117/1050 | 在兩個LSTM之間使用MUE層。 8.4/37.8/272.9/1079/4303m。 |
| 大穆斯(LM-LARGE)令人毛骨悚然 | 1000億Google語料庫 | 2.5m | “” | “” | 每個GPU最多可容納10億個參數。 64和128 GPU測試用於最後兩個專家模型 |
| 大穆斯(MT) | WMT | ? | “” | “” | 每個GPU最多可容納10億個參數。 |
| 大穆斯(MTMT) | corr | 1M(每GPU 16K) | “” | “” | |
| NLLB | Flores-200(eval)/蓋策劃的數據/拼雙壁和普通爬行(單語) | 16K | y | 26/49 | 每第四層是一個萌層。 |
| 內存有效的NLLB | Flores-200(eval) | 16K | n | 0 | 釋放一些結果,例如專家修剪等,每個第四個FFN Sublayer都被MOE層取代。 NLLB-200需要運行4x32 V100。這是80%的修剪模型。 |
| 華麗 | Glam Wustom的網頁/Wikipedia/論壇等自定義數據集 | 1m | n | 59/84 | |
| 亞馬遜射手製造商 | |||||
| M6-T稀疏專家 |