moe paper models
1.0.0
| autor | título |
|---|---|
Adam g | Configurações experimentais de papel moe |
Este repositório serve como uma coleção de configurações notáveis de experiência em papel. Observe que eles podem ser incompletos ou errôneos para algumas métricas; se assim for, sinta -se à vontade para levantar um problema e a alterarei o mais rápido possível.
Principais tarefas examinadas nesses documentos:
| Papel | Ano | Tamanho de especialista | Tamanho total | NUM EXP (por camada) | Camadas num |
| Megablocks | 11/2022 | N / D | 839m-13b | 64 | 3/6/12 |
| DeepSpeed-Moe | 01/2022 | 1.3/2.4/8/24/47b | 52/107/349/1064.9/2024b | 128 | 24/16/30/40/58 |
| DeepSpeed-Moe | 01/2022 | 1.3/2.4/8/24/47b | 52/107/349/1064.9/2024b | 128 | 24/16/30/40/58 |
| Roteamento de escolha de especialistas | 02/2022 | 0,145/9.8b | 1.9/143b | 64 | 16 |
| MOE no nível da tarefa | 09/2022 | 4096 Tamanho do FFN | 533m/13b | 32/128 | 11 |
| Camadas de hash (vs switch) | 06/2021 | 4096 Tamanho do FFN | 751M/852M/1.28B | 64/16/128 | 1/5/1 |
| Camadas de hash (vs base) | 06/2021 | 100m/33m | 4.5b | 32/3x32 | 1/3 |
| Gshard | 06/2020 | 8196 Tamanho da FNN | 37/150/600B | 128/512/2048 | 12/36 (para cada NUM EXP) |
| Fastermoe | 03/2022 | 1024/2048/4096 Tamanho do FFN | 13.1/13.7/27.4b | 64/16/16 | 12/12/24 |
| St-moe | 02/2022 | 2816/20480 | 4.1/269b | 32/64 | 6/6 (a cada 4) |
| Roteamento aleatório | 09/2022 | 20m-200m | 8/16 | 4/12 | |
| Gatando abandonando | 05/2022 | 5.6/10b | 128/64 | 12/24 | |
| Camadas base | 03/2021 | 135/335/911M | 1.5/44/117B | 128? | 1 (camada base) |
| Transformador de comutação | 01/2021 | 768/1024/4096 Tamanho do FFN | 7/26/395/1571b | 128/128/64/2048 | 24/12/24/15 (todos os outros) |
| Evo Moe | 12/2021 | 335m (mt/mlm/lm) | 1.5 (MT)/1.8 (MLM LM) | 4 (mt)/16 (mlm lm) | 6 (mt)/12 (mlm LM) |
| Estável-moe (LM) | 04/2022 | 3072/4096 Tamanho do FFN | 454M/3,22B | 32/64 | 1/1 |
| Estável-moe (MT) | 04/2022 | 2048 Tamanho do FFN | 480m | 32 | 2 |
| Moes escandalosamente grandes (LM) | 01/2017 | 1m (dims = 1024x512) | 0.8/0.9/1.1/1.1/1.9/5.1 | 4/32/256/256/1024/4096 | 1 |
| Moes escandalosamente grandes (LM-Large) | 01/2017 | 1m | 0.1/0.4/1.2/4.4/17.3/68.9/137.7 | 32 e 256/1024/4096/16384/65536/131072-H | 1 |
| Moes escandalosamente grandes (MT) | 01/2017 | 2m | 8.7b | 32 e 512/2048-H | 2 (um entre codificador empilhado e decodificador) |
| Moes escandalosamente grandes (mtmt) | 01/2017 | 8192 Tamanho do FFN | 8.7b | 512 | 2 |
| Nllb | 07/2022 | 8192 TAMANHO FFN/33,6M | 54.5b/51.6b Tamanho de especialista | 128 | 6 camadas exp |
| NLLB com eficiência de memória | 12/2022 | 8192 TAMANHO FFN/33,6M | ~ 10,32b assumindo 80% de poda | ~ 24 por camada, 288 no geral | 6 camadas exp |
| Glamour | 12/2021 | 8192 e 16384 e 32768 Tamanho do FFN | 20/27/53 e 105/143B & 1.2T | 32/64/128 e 256/64 e 64 | 24 e 32 e 64 (todas as outras camadas) |
| Amazon Sagemaker | |||||
| M6-T especialistas escassos | 05/2021 | 1024x4096 e 1024x21248 | 1.4 e 10.8 e 103.2 e 1002,7b | 32 e 128 e 512 e 960 (total) | 5 e 10 e 24 e 24 |
= Valores que não são confirmados ou insinuados de seus experimentos.
Para requisitos de hardware, as barras denotam diferentes configurações.
| Papel | Linha de base | Requisitos de hardware | Memória | Top-K | Capacidade |
| Megablocks | Transformador-base para GPT3-XL (46m a 1,3b) | 8x A100 80 GB | 1 | 1/1.5/2x | |
| DeepSpeed-Moe | MOE escalável | 128X A100 80 GB | 2* | 2 | |
| Roteamento de escolha de especialistas | Gshard | 512X TPU V4 | N / D* | 2* | |
| MOE no nível da tarefa | Base do transformador (142m)/token/sentença moe | 32x TPU V3 | 1 | ||
| Camadas de hash (vs switch) | Transformador-base (225/755m)/troca de troca | 8 32 GB V100 | *1 | ||
| Camadas de hash (vs base) | Camadas base | 16 32 GB V100 | *1 | ||
| Gshard | Transformador GPIPE/Base | 128/512/2048X TPU V3 | 2 | 2 | |
| Fastermoe | FastMoe/ Gshard/ Base | 16/64X V100 | 2 | ||
| St-moe | Dense-l/ t5 xxl/ switch xxl | TPU | 2 | 1,25 fator de cap | |
| Roteamento aleatório | Thor/transformador denso | 8x V100 | 1/2/4/8/16 | ||
| Gatando abandonando | MOE escalável | 16/64X de V100/A100 | 1 | 1/2 (trem/teste) | |
| Camadas base | Smoe e Switch (52b) | 32/02/128 32 GB V100 | |||
| Transformador de comutação | T5 (223m Base/ 739m Large) | 32x TPUV3 | 1 | ||
| Evo Moe | Switch/hash Camadas/base/stableMoe | 8x A100 | 1 | ||
| Estável-moe (LM) | Transformador de comutação/camada base/camada de hash/transformador-base | ? X V100 GPUS | 1 | 1 (do switch) | |
| Estável-moe (MT) | Transformador-base e camada grande/base/camada de hash/switch | ? X V100 GPUS | 1 | 1 | |
| Moes escandalosamente grandes (LM) | MOE-1 largo e profundo/ 4XLSTM-512/ LSTM-2048 & 8192 | 4-16x K40s | 4 ou 2 para moe-h | ||
| Moes escandalosamente grandes (LM-Large) | MOE-1 largo e profundo/ 4XLSTM-512/ LSTM-2048 & 8192 | 32/64/128x K40s | 4 ou 2 para moe-h | ||
| Moes escandalosamente grandes (MT) | GNMT/PBMT/LSTM-6/DEEPTTT | 64 K40S | 4 ou 2 para moe-h | ||
| Moes escandalosamente grandes (mtmt) | GNMT-Mono/Gnmt-Multi | 64 K40S | 2 | ||
| Nllb | 101.6GIB/ cada GPU detém um especialista | ||||
| NLLB com eficiência de memória | 3.3B NLLB Dense/NLLB-200 54.5b | 1/4x GPUS V100 | |||
| Glamour | Switch/gpt-3/kg-fid/megatron-nlg | 1024X TPU V4 (maior) | Para maiores especialistas não se encaixam em uma única TPU | 2 | 2* |
| Amazon Sagemaker | |||||
| M6-T especialistas escassos | Suas próprias comparações com o top-k diferente | 480 V100 32GB |
O maior número de citação é levado em todo o Google Scholar e semântico Scholar
| Papel | Conjunto de dados | Tamanho do lote | Código aberto | Citações | Notas |
| Megablocks | A pilha | 512 | N | 0 | |
| DeepSpeed-Moe | Lambada/piqa/boolq/race-h/trivia-qa/webqs | 256/512 | Y | 15/36 | |
| Roteamento de escolha de especialistas | Glamour | N / D | N | 6 | |
| MOE no nível da tarefa | Wmt | N / D | N | 13 | |
| Camadas de hash (vs switch) | Pushshift.io/roberta/wikitext-103/bst | 40 | Y (em parte) | 43 | |
| Camadas de hash (vs base) | Pushshift.io/roberta/wikitext-103/bst | 2 | Y (em parte) | 43 | |
| Gshard | Conjunto de dados personalizado | 4m | Y (apenas TPU) | 305 | |
| Fastermoe | Texto wiki | Y | 22 | ||
| St-moe | C4 1.5T | 1m | Y | 26 | |
| Roteamento aleatório | enwik8/bookcorpus | 128/256 | Em revisão | Em revisão | |
| Gatando abandonando | WMT/Web-50 | 435K | N | 1/5 | |
| Camadas base | Roberta Corpus e CC100 | Y | 64/79 | ||
| Transformador de comutação | Grande corpus C4 (180b) | 1m | Y | 525 | |
| Evo Moe | WMT (MT)/OpenWebText (LM MLM)/Wikipedia/OpenWebText | N / D | Y | 11 | |
| Estável-moe (LM) | Roberta e CC100 | 512K | Y | 9 | |
| Estável-moe (MT) | Wmt | 512K | Y | 9 | |
| Moes escandalosamente grandes (LM) | 1b Word Benchmark | ? | N (mas foi recriado) | 1117/1050 | Usa a camada MOE entre dois LSTMs. 8.4/37.8/272.9/1079/4303M. |
| Moes escandalosamente grandes (LM-Large) | 100 bilhões de corpus do Google | 2,5m | "" | "" | Ajuste até 1 bilhão de parâmetros por GPU. Os testes de 64 e 128 GPU são para os dois últimos modelos de especialistas |
| Moes escandalosamente grandes (MT) | Wmt | ? | "" | "" | Ajuste até 1 bilhão de parâmetros por GPU. |
| Moes escandalosamente grandes (mtmt) | Corr | 1m (16k por GPU) | "" | "" | |
| Nllb | FLORES-200 (EVAL)/DADOS CURADOS DE COMPRIMENTO/PARACRAWL E COMMENCRAWL (monolíngue) | 16K | Y | 26/49 | Cada quarta camada é uma camada MOE. |
| NLLB com eficiência de memória | Flores-200 (Eval) | 16K | N | 0 | Liberando alguns resultados, como especialistas podados etc, cada quarta subcamada da FFN é substituída por uma camada MOE. O NLLB-200 exige que o 4x32 V100S seja executado. Este modelo de uso de 80%. |
| Glamour | Conjunto de dados personalizado glam de páginas da web/wikipedia/fóruns etc. | 1m | N | 59/84 | |
| Amazon Sagemaker | |||||
| M6-T especialistas escassos |