moe paper models
1.0.0
| autor | título |
|---|---|
Adam G | Configuraciones experimentales de MOE Paper |
Este repositorio sirve como una colección de configuraciones de experiencia en papel notables. Tenga en cuenta que estos podrían ser incompletos o erróneos para algunas métricas, si es así, no dude en plantear un problema y lo enmendaré lo antes posible.
Tareas principales examinadas en estos documentos:
| Papel | Año | Tamaño de experto | Tamaño total | Num exp (por capa) | Numeros |
| Megablocks | 20/1022 | N / A | 839m-13b | 64 | 3/6/12 |
| Deepspeed-Moe | 01/2022 | 1.3/2.4/8/24/47B | 52/107/349/1064.9/2024b | 128 | 24/16/30/40/58 |
| Deepspeed-Moe | 01/2022 | 1.3/2.4/8/24/47B | 52/107/349/1064.9/2024b | 128 | 24/16/30/40/58 |
| Enrutamiento de elección de expertos | 02/2022 | 0.145/9.8b | 1.9/143b | 64 | 16 |
| Moe a nivel de tarea | 09/2022 | 4096 Tamaño de FFN | 533m/13b | 32/128 | 11 |
| Capas hash (vs interruptor) | 06/2021 | 4096 Tamaño de FFN | 751m/852m/1.28b | 64/16/128 | 1/5/1 |
| Capas hash (vs base) | 06/2021 | 100m/33m | 4.5b | 32/3x32 | 1/3 |
| Gshard | 06/2020 | 8196 FNN Tamaño | 37/150/600B | 128/512/2048 | 12/36 (para cada NUM EXP) |
| FASTERMOE | 03/2022 | 1024/2048/4096 Tamaño de FFN | 13.1/13.7/27.4b | 64/16/16 | 12/12/24 |
| St-moe | 02/2022 | 2816/20480 | 4.1/269b | 32/64 | 6/6 (cada 4) |
| Enrutamiento aleatorio | 09/2022 | 20m-200m | 8/16 | 4/12 | |
| Desaceleración | 05/2022 | 5.6/10b | 128/64 | 12/24 | |
| Capas base | 03/2021 | 135/335/911m | 1.5/44/117b | 128? | 1 (capa base) |
| Transformador de interruptor | 01/2021 | 768/1024/4096 Tamaño de FFN | 7/26/395/1571B | 128/128/64/2048 | 24/12/24/15 (cualquier otro) |
| Evo Moe | 20/121 | 335m (mt/mlm/lm) | 1.5 (MT) /1.8 (MLM LM) | 4 (MT)/16 (MLM LM) | 6 (MT)/12 (MLM LM) |
| Estable-moe (lm) | 04/2022 | 3072/4096 Tamaño de FFN | 454m/3.22b | 32/64 | 1/1 |
| Estable-moe (mt) | 04/2022 | Tamaño 2048 FFN | 480m | 32 | 2 |
| MOES escandalosamente grande (LM) | 01/2017 | 1m (dims = 1024x512) | 0.8/0.9/1.1/1.1/1.9/5.1 | 4/32/256/256/1024/4096 | 1 |
| MOES escandalosamente grande (LM-Large) | 01/2017 | 1M | 0.1/0.4/1.2/4.4/17.3/68.9/137.7 | 32 y 256/1024/4096/16384/65536/131072-H | 1 |
| MOES escandalosamente grande (MT) | 01/2017 | 2m | 8.7b | 32 y 512/2048-H | 2 (uno entre el codificador apilado y el decodificador) |
| MOES escandalosamente grande (MTMT) | 01/2017 | 8192 Tamaño de FFN | 8.7b | 512 | 2 |
| Nllb | 07/2022 | 8192 FFN Tamaño/33.6m | 54.5b/51.6b tamaño de experto | 128 | 6 capas de expp |
| NLLB eficiente en la memoria | 20/122 | 8192 FFN Tamaño/33.6m | ~ 10.32b suponiendo una poda del 80% | ~ 24 por capa, 288 en general | 6 capas de expp |
| Glamour | 20/121 | 8192 y 16384 y 32768 Tamaño de FFN | 20/27/53 y 105/143b y 1.2t | 32/64/128 y 256/64 y 64 | 24 y 32 y 64 (cualquier otra capa) |
| Amazon Sagemaker | |||||
| M6-T SPARSE Experts | 05/2021 | 1024x4096 y 1024x21248 | 1.4 y 10.8 y 103.2 y 1002.7b | 32 y 128 y 512 y 960 (total) | 5 y 10 y 24 y 24 |
= Valores que no están confirmados o insinuados de sus experimentos.
Para los requisitos de hardware, las cortes denotan diferentes configuraciones.
| Papel | Base | Requisitos de hardware | Memoria | Top-K | Capacidad |
| Megablocks | Transformer-base a GPT3-XL (46m a 1.3b) | 8x A100 80GB | 1 | 1/1.5/2x | |
| Deepspeed-Moe | Moe escalable | 128x A100 80GB | 2* | 2 | |
| Enrutamiento de elección de expertos | Gshard | 512x TPU V4 | N / A* | 2* | |
| Moe a nivel de tarea | Base de transformador (142m)/token/oración moe | 32x TPU V3 | 1 | ||
| Capas hash (vs interruptor) | Transformador-base (225/755m)/transformador de interruptor | 8 32GB V100 | *1 | ||
| Capas hash (vs base) | Capas base | 16 32GB V100 | *1 | ||
| Gshard | Transformador de GPIPE/Base | 128/512/2048X TPU V3 | 2 | 2 | |
| FASTERMOE | Fastmoe/ Gshard/ Base | 16/64X V100 | 2 | ||
| St-moe | Dense-L/ T5 XXL/ Switch XXL | TPU | 2 | 1,25 factor de tapa | |
| Enrutamiento aleatorio | Thor/Transformer Dense | 8x V100 | 1/2/4/8/16 | ||
| Desaceleración | Moe escalable | 16/64X de V100/A100 | 1 | 1/2 (tren/prueba) | |
| Capas base | Smoe y Switch (52B) | 8/32/128 32GB V100 | |||
| Transformador de interruptor | T5 (base 223m/ 739m grande) | 32x TPUV3 | 1 | ||
| Evo Moe | Interruptor/capas hash/base/stablemoe | 8x A100 | 1 | ||
| Estable-moe (lm) | Interruptor transformador/capa base/capa de hash/transformador-base | ? X V100 GPU | 1 | 1 (desde el interruptor) | |
| Estable-moe (mt) | Transformador-base y capa/capa/interruptor grande/hash | ? X V100 GPU | 1 | 1 | |
| MOES escandalosamente grande (LM) | Moe-1 Wide & Deep/ 4xlstm-512/ LSTM-2048 y 8192 | 4-16x K40S | 4 o 2 para Moe-H | ||
| MOES escandalosamente grande (LM-Large) | Moe-1 Wide & Deep/ 4xlstm-512/ LSTM-2048 y 8192 | 32/64/128X K40S | 4 o 2 para Moe-H | ||
| MOES escandalosamente grande (MT) | GNMT/PBMT/LSTM-6/Deepatt | 64 K40s | 4 o 2 para Moe-H | ||
| MOES escandalosamente grande (MTMT) | Gnmt-mono/gnmt-multi | 64 K40s | 2 | ||
| Nllb | 101.6GIB/ Cada GPU posee un experto | ||||
| NLLB eficiente en la memoria | 3.3B NLLB-DENSE/NLLB-200 54.5B | 1/4x V100 GPU | |||
| Glamour | Switch/GPT-3/KG-FID/MEGATRON-NLG | 1024x TPU V4 (más grande) | Para los expertos más grandes no encajan en una sola TPU | 2 | 2* |
| Amazon Sagemaker | |||||
| M6-T SPARSE Experts | Sus propias comparaciones con diferentes top-k | 480 V100 32GB |
El número de citas más alto se toma en Google Scholar y Semantic Scholar
| Papel | Conjunto de datos | Tamaño por lotes | Código abierto | Citas | Notas |
| Megablocks | La pila | 512 | norte | 0 | |
| Deepspeed-Moe | Lambada/piqa/boolq/race-h/trivia-qa/webqs | 256/512 | Y | 15/36 | |
| Enrutamiento de elección de expertos | Glamour | N / A | norte | 6 | |
| Moe a nivel de tarea | WMT | N / A | norte | 13 | |
| Capas hash (vs interruptor) | Pushshift.io/roberta/wikitext-103/bst | 40 | Y (en parte) | 43 | |
| Capas hash (vs base) | Pushshift.io/roberta/wikitext-103/bst | 2 | Y (en parte) | 43 | |
| Gshard | Conjunto de datos personalizado | 4m | Y (solo TPU) | 305 | |
| FASTERMOE | Texto wiki | Y | 22 | ||
| St-moe | C4 1.5t | 1M | Y | 26 | |
| Enrutamiento aleatorio | enwik8/bookcorpus | 128/256 | Bajo revisión | Bajo revisión | |
| Desaceleración | WMT/Web-50 | 435k | norte | 1/5 | |
| Capas base | Roberta Corpus y CC100 | Y | 64/79 | ||
| Transformador de interruptor | Gran cuerpo C4 (180B) | 1M | Y | 525 | |
| Evo Moe | WMT (MT)/OpenWebText (LM MLM)/Wikipedia/OpenWebText | N / A | Y | 11 | |
| Estable-moe (lm) | Roberta y CC100 | 512k | Y | 9 | |
| Estable-moe (mt) | WMT | 512k | Y | 9 | |
| MOES escandalosamente grande (LM) | 1b de referencia de palabras | ? | N (pero ha sido recreado) | 1117/1050 | Utiliza la capa MOE entre dos LSTM. 8.4/37.8/272.9/1079/4303m. |
| MOES escandalosamente grande (LM-Large) | 100 mil millones de Google Corpus | 2.5m | " | " | Coloque hasta 1 mil millones de parámetros por GPU. Las pruebas de GPU 64 y 128 son para los dos últimos modelos expertos |
| MOES escandalosamente grande (MT) | WMT | ? | " | " | Coloque hasta 1 mil millones de parámetros por GPU. |
| MOES escandalosamente grande (MTMT) | Corrección | 1m (16k por GPU) | " | " | |
| Nllb | Flores-200 (eval)/tapa de datos curados/paracrawl y commoncrawl (monolingüe) | 16k | Y | 26/49 | Cada cuarta capa es una capa MOE. |
| NLLB eficiente en la memoria | Flores-200 (eval) | 16k | norte | 0 | Liberar algunos resultados, como expertos podados, etc., cada cuarta subcapas de FFN se reemplaza con una capa MOE. NLLB-200 requiere 4x32 V100S para ejecutarse. Este modelo de poda del 80%. |
| Glamour | Conjunto de datos personalizado Glam de páginas web/wikipedia/foros, etc. | 1M | norte | 59/84 | |
| Amazon Sagemaker | |||||
| M6-T SPARSE Experts |