moe paper models
1.0.0
| pengarang | judul |
|---|---|
Adam g | Pengaturan Eksperimental Kertas Moe |
Repositori ini berfungsi sebagai kumpulan pengaturan eksperitmen kertas yang terkenal. Perhatikan bahwa ini bisa tidak lengkap atau keliru untuk beberapa metrik, jika demikian jangan ragu untuk mengangkat masalah dan saya akan mengubahnya sesegera mungkin.
Tugas utama yang diperiksa di seluruh makalah ini:
| Kertas | Tahun | Ukuran ahli | Ukuran total | Num exp (per lapisan) | Num Lapisan |
| Megablocks | 11/2022 | N/a | 839m-13b | 64 | 3/6/12 |
| Deeppeed-Moe | 01/2022 | 1.3/2.4/8/24/47b | 52/107/349/1064.9/2024b | 128 | 24/16/30/40/58 |
| Deeppeed-Moe | 01/2022 | 1.3/2.4/8/24/47b | 52/107/349/1064.9/2024b | 128 | 24/16/30/40/58 |
| Routing pilihan ahli | 02/2022 | 0.145/9.8b | 1.9/143b | 64 | 16 |
| Moe tingkat tugas | 09/2022 | Ukuran 4096 FFN | 533m/13b | 32/128 | 11 |
| Hash Layers (VS Switch) | 06/2021 | Ukuran 4096 FFN | 751m/852m/1.28b | 64/16/128 | 1/5/1 |
| Hash Layers (vs Base) | 06/2021 | 100m/33m | 4.5b | 32/3x32 | 1/3 |
| Gshard | 06/2020 | Ukuran 8196 FNN | 37/150/600b | 128/512/2048 | 12/36 (untuk setiap num exp) |
| Fastermoe | 03/2022 | 1024/2048/4096 Ukuran FFN | 13.1/13.7/27.4b | 64/16/16 | 12/12/24 |
| ST-Moe | 02/2022 | 2816/20480 | 4.1/269b | 32/64 | 6/6 (setiap 4) |
| Routing acak | 09/2022 | 20m-200m | 8/16 | 4/12 | |
| Dropout gating | 05/2022 | 5.6/10b | 128/64 | 12/24 | |
| Lapisan dasar | 03/2021 | 135/335/911m | 1.5/44/117b | 128? | 1 (lapisan dasar) |
| Switch Transformer | 01/2021 | 768/1024/4096 Ukuran FFN | 7/26/395/1571b | 128/128/64/2048 | 12/24/24/15 (setiap lainnya) |
| Evo Moe | 12/2021 | 335m (MT/MLM/LM) | 1.5 (MT) /1.8 (MLM LM) | 4 (mt)/16 (mlm lm) | 6 (mt)/12 (mlm lm) |
| Moe stabil (lm) | 04/2022 | 3072/4096 Ukuran FFN | 454m/3.22b | 32/64 | 1/1 |
| Moe stabil (MT) | 04/2022 | Ukuran 2048 ffn | 480m | 32 | 2 |
| Moes yang sangat besar (LM) | 01/2017 | 1m (Dims = 1024x512) | 0.8/0.9/1.1/1.1/1.9/5.1 | 4/32/256/256/1024/4096 | 1 |
| Moes yang sangat besar (LM-Large) | 01/2017 | 1m | 0.1/0.4/1.2/4.4/17.3/68.9/137.7 | 32 & 256/1024/4096/16384/65536/131072-H | 1 |
| Moes yang sangat besar (MT) | 01/2017 | 2m | 8.7b | 32 & 512/2048-H | 2 (satu antara encoder dan dekoder bertumpuk) |
| Moes yang sangat besar (MTMT) | 01/2017 | Ukuran 8192 FFN | 8.7b | 512 | 2 |
| Nllb | 07/2022 | 8192 Ukuran FFN/33.6m | Ukuran ahli 54.5b/51.6b | 128 | 6 Lapisan EXP |
| NLLB efisien memori | 12/2022 | 8192 Ukuran FFN/33.6m | ~ 10.32b dengan asumsi pemangkasan 80% | ~ 24 per lapisan, 288 secara keseluruhan | 6 Lapisan EXP |
| Glam | 12/2021 | 8192 & 16384 & 32768 Ukuran FFN | 20/27/53 & 105/143b & 1.2t | 32/64/128 & 256/64 & 64 | 24 & 32 & 64 (setiap lapisan lainnya) |
| Amazon Sagemaker | |||||
| Pakar jarang M6-T | 05/2021 | 1024x4096 & 1024x21248 | 1.4 & 10.8 & 103.2 & 1002.7b | 32 & 128 & 512 & 960 (total) | 5 & 10 & 24 & 24 |
= Nilai yang tidak dikonfirmasi atau disindir dari eksperimen mereka.
Untuk persyaratan perangkat keras, slash menunjukkan konfigurasi yang berbeda.
| Kertas | Baseline | Persyaratan perangkat keras | Ingatan | Top-K | Kapasitas |
| Megablocks | Transformer-base ke GPT3-XL (46m ke 1.3b) | 8x A100 80GB | 1 | 1/1.5/2x | |
| Deeppeed-Moe | Moe yang dapat diskalakan | 128x A100 80GB | 2* | 2 | |
| Routing pilihan ahli | Gshard | 512X TPU V4 | N/a* | 2* | |
| Moe tingkat tugas | Basis Transformer (142m)/Token/Kalimat MOE | 32X TPU V3 | 1 | ||
| Hash Layers (VS Switch) | Transformer transformator-base (225/755m)/sakelar | 8 32GB V100 | *1 | ||
| Hash Layers (vs Base) | Lapisan dasar | 16 32GB V100 | *1 | ||
| Gshard | GPIPE/BASE TRANSFORMASI | 128/512/2048x TPU V3 | 2 | 2 | |
| Fastermoe | FastMoe/ Gshard/ Base | 16/64X V100 | 2 | ||
| ST-Moe | Padat-l/ t5 xxl/ switch xxl | TPU | 2 | 1.25 faktor tutup | |
| Routing acak | Thor/Transformer padat | 8x v100 | 1/2/4/8/16 | ||
| Dropout gating | Moe yang dapat diskalakan | 16/64X dari V100/A100 | 1 | 1/2 (kereta/tes) | |
| Lapisan dasar | Smoe and Switch (52B) | 8/32/128 32GB V100 | |||
| Switch Transformer | T5 (basis 223m/ 739m besar) | 32X TPUV3 | 1 | ||
| Evo Moe | Sakelar/Hash Layers/Base/Stablemoe | 8x A100 | 1 | ||
| Moe stabil (lm) | Switch Transformer/Base Layer/Hash Layer/Transformer-Base | ? X V100 GPU | 1 | 1 (dari sakelar) | |
| Moe stabil (MT) | Transformer-base dan Layer/Base Layer/Hash Layer/Switch | ? X V100 GPU | 1 | 1 | |
| Moes yang sangat besar (LM) | MOE-1 Wide & Deep/ 4XLSTM-512/ LSTM-2048 & 8192 | 4-16x K40S | 4 atau 2 untuk moe-h | ||
| Moes yang sangat besar (LM-Large) | MOE-1 Wide & Deep/ 4XLSTM-512/ LSTM-2048 & 8192 | 32/64/128x K40S | 4 atau 2 untuk moe-h | ||
| Moes yang sangat besar (MT) | GNMT/PBMT/LSTM-6/Deepatt | 64 K40S | 4 atau 2 untuk moe-h | ||
| Moes yang sangat besar (MTMT) | GNMT-MONO/GNMT-MULTI | 64 K40S | 2 | ||
| Nllb | 101.6Gib/ Setiap GPU memegang satu ahli | ||||
| NLLB efisien memori | 3.3B NLLB-DENGE/NLLB-200 54.5b | 1/4x V100 GPU | |||
| Glam | Sakelar/gpt-3/kg-fid/megatron-nlg | 1024x TPU V4 (terbesar) | Untuk ahli terbesar tidak cocok dengan TPU tunggal | 2 | 2* |
| Amazon Sagemaker | |||||
| Pakar jarang M6-T | Perbandingan mereka sendiri dengan top-K yang berbeda | 480 V100 32GB |
Nomor kutipan tertinggi diambil di seluruh Google Cendekia dan Cendekia Semantik
| Kertas | Dataset | Ukuran batch | Open source | Kutipan | Catatan |
| Megablocks | Tumpukan | 512 | N | 0 | |
| Deeppeed-Moe | Lambada/PIQA/BOOLQ/RACE-H/TRIVIA-QA/WEBQS | 256/512 | Y | 15/36 | |
| Routing pilihan ahli | Glam | N/a | N | 6 | |
| Moe tingkat tugas | WMT | N/a | N | 13 | |
| Hash Layers (VS Switch) | Pushshift.io/roberta/wookext-103/bst | 40 | Y (sebagian) | 43 | |
| Hash Layers (vs Base) | Pushshift.io/roberta/wookext-103/bst | 2 | Y (sebagian) | 43 | |
| Gshard | Dataset Kustom | 4m | Y (TPU saja) | 305 | |
| Fastermoe | Teks wiki | Y | 22 | ||
| ST-Moe | C4 1.5t | 1m | Y | 26 | |
| Routing acak | ENWIK8/BOOKCORPUS | 128/256 | Sedang ditinjau | Sedang ditinjau | |
| Dropout gating | WMT/WEB-50 | 435k | N | 1/5 | |
| Lapisan dasar | Roberta Corpus dan CC100 | Y | 64/79 | ||
| Switch Transformer | Corpus C4 Besar (180B) | 1m | Y | 525 | |
| Evo Moe | WMT (MT)/OpenWebText (LM MLM)/Wikipedia/OpenWebText | N/a | Y | 11 | |
| Moe stabil (lm) | Roberta dan CC100 | 512k | Y | 9 | |
| Moe stabil (MT) | WMT | 512k | Y | 9 | |
| Moes yang sangat besar (LM) | Benchmark kata 1b | ? | N (tetapi telah diciptakan kembali) | 1117/1050 | Menggunakan lapisan MOE antara dua LSTM. 8.4/37.8/272.9/1079/4303m. |
| Moes yang sangat besar (LM-Large) | 100 miliar google corpus | 2.5m | "" | "" | Pasang hingga 1 miliar parameter per GPU. Tes 64 dan 128 GPU adalah untuk dua model ahli terakhir |
| Moes yang sangat besar (MT) | WMT | ? | "" | "" | Pasang hingga 1 miliar parameter per GPU. |
| Moes yang sangat besar (MTMT) | Kor | 1m (16k per gpu) | "" | "" | |
| Nllb | Flores-200 (Eval)/Tutup Data/Paracrawl dan CommonCrawl (Monolingual) | 16K | Y | 26/49 | Setiap lapisan keempat adalah lapisan MOE. |
| NLLB efisien memori | Flores-200 (Eval) | 16K | N | 0 | Melepaskan beberapa hasil seperti ahli yang dipangkas dll setiap sublayer FFN keempat diganti dengan lapisan MOE. NLLB-200 membutuhkan 4x32 V100 untuk berjalan. Ini menggunakan model yang dipangkas 80%. |
| Glam | Glam Kustom Dataset Halaman Laku Laku Linginkan/Wikipedia/Forum dll | 1m | N | 59/84 | |
| Amazon Sagemaker | |||||
| Pakar jarang M6-T |