moe paper models
1.0.0
| 작가 | 제목 |
|---|---|
아담 g | Moe 종이 실험 설정 |
이 저장소는 주목할만한 종이 실험 설정 모음 역할을합니다. 이들은 일부 메트릭에 대해 불완전하거나 잘못 될 수 있습니다. 그렇다면 자유롭게 문제를 제기하면 가능한 빨리 수정하겠습니다.
이 논문에서 검토 된 주요 작업 :
| 종이 | 년도 | 전문가 크기 | 총 크기 | Num Exp (층당) | 숫자 계층 |
| 메가 블록 | 11/2022 | N/A | 839m-13b | 64 | 3/6/12 |
| 깊은 속도 | 01/2022 | 1.3/2.4/8/24/47b | 52/107/349/1064.9/2024b | 128 | 24/16/30/40/58 |
| 깊은 속도 | 01/2022 | 1.3/2.4/8/24/47b | 52/107/349/1064.9/2024b | 128 | 24/16/30/40/58 |
| 전문가 선택 라우팅 | 02/2022 | 0.145/9.8b | 1.9/143b | 64 | 16 |
| 작업 수준 MOE | 09/2022 | 4096 FFN 크기 | 533m/13b | 32/128 | 11 |
| 해시 레이어 (vs 스위치) | 06/2021 | 4096 FFN 크기 | 751m/852m/1.28b | 64/16/128 | 1/5/1 |
| 해시 층 (VS베이스) | 06/2021 | 100m/33m | 4.5b | 32/3x32 | 1/3 |
| Gshard | 06/2020 | 8196 FNN 크기 | 37/150/600b | 128/512/2048 | 12/36 (각 Num Exp에 대해) |
| 더 빠른 | 03/2022 | 1024/2048/4096 FFN 크기 | 13.1/13.7/27.4b | 64/16/16 | 12/12/24 |
| 세인트 모에 | 02/2022 | 2816/20480 | 4.1/269b | 32/64 | 6/6 (4) |
| 임의의 라우팅 | 09/2022 | 20m-200m | 8/16 | 4/12 | |
| 게이팅 드롭 아웃 | 05/2022 | 5.6/10b | 128/64 | 12/24 | |
| 기본 레이어 | 03/2021 | 135/335/911m | 1.5/44/117b | 128? | 1 (기본 계층) |
| 스위치 변압기 | 01/2021 | 768/1024/4096 FFN 크기 | 7/26/395/1571b | 128/128/64/2048 | 12/24/24/15 (다른 모든) |
| 에보 모에 | 12/2021 | 335m (MT/MLM/LM) | 1.5 (MT) /1.8 (MLM LM) | 4 (MT)/16 (MLM LM) | 6 (MT)/12 (MLM LM) |
| 안정적인 미터 (LM) | 04/2022 | 3072/4096 FFN 크기 | 454m/3.22b | 32/64 | 1/1 |
| 안정 | 04/2022 | 2048 FFN 크기 | 480m | 32 | 2 |
| 엄청나게 큰 Moes (LM) | 01/2017 | 1m (Dims = 1024x512) | 0.8/0.9/1.1/1.1/1.9/5.1 | 4/32/256/256/1024/4096 | 1 |
| 엄청나게 큰 Moes (LM-LARGE) | 01/2017 | 1m | 0.1/0.4/1.2/4.4/17.3/68.9/137.7 | 32 & 256/1024/4096/16384/65536/131072-H | 1 |
| 엄청나게 큰 Moes (MT) | 01/2017 | 2m | 8.7b | 32 & 512/2048-H | 2 (스택 된 인코더와 디코더 사이) |
| 엄청나게 큰 Moes (MTMT) | 01/2017 | 8192 FFN 크기 | 8.7b | 512 | 2 |
| nllb | 07/2022 | 8192 FFN 크기/33.6m | 54.5B/51.6B 전문가 크기 | 128 | 6 exp 층 |
| 메모리 효율적인 nllb | 12/2022 | 8192 FFN 크기/33.6m | ~ 10.32b 80% 가지 치기를 가정합니다 | 층당 ~ 24, 전반적으로 288 | 6 exp 층 |
| 글램 | 12/2021 | 8192 & 16384 & 32768 FFN 크기 | 20/27/53 & 105/143B & 1.2T | 32/64/128 & 256/64 & 64 | 24 & 32 & 64 (다른 모든 층) |
| 아마존 Sagemaker | |||||
| M6-T 희소 전문가 | 05/2021 | 1024x4096 & 1024x21248 | 1.4 & 10.8 & 103.2 & 1002.7b | 32 & 128 & 512 & 960 (총) | 5 & 10 & 24 & 24 |
= 실험에서 확인되지 않거나 무시되는 값.
하드웨어 요구 사항의 경우 슬래시는 다른 구성을 나타냅니다.
| 종이 | 기준선 | 하드웨어 요구 사항 | 메모리 | Top-K | 용량 |
| 메가 블록 | 변압기-GPT3-XL (46M ~ 1.3B) | 8x A100 80GB | 1 | 1/1.5/2x | |
| 깊은 속도 | 확장 가능한 Moe | 128x A100 80GB | 2* | 2 | |
| 전문가 선택 라우팅 | Gshard | 512x TPU V4 | 해당 없음* | 2* | |
| 작업 수준 MOE | 변압기베이스 (142m)/토큰/문장 Moe | 32x TPU v3 | 1 | ||
| 해시 레이어 (vs 스위치) | 변압기 기반 (225/755m)/스위치 변압기 | 8 32GB V100 | *1 | ||
| 해시 층 (VS베이스) | 기본 레이어 | 16 32GB V100 | *1 | ||
| Gshard | GPIPE/기본 변압기 | 128/512/2048X TPU V3 | 2 | 2 | |
| 더 빠른 | Fastmoe/ Gshard/ Base | 16/64x V100 | 2 | ||
| 세인트 모에 | 밀도가 높은/ T5 XXL/ 스위치 XXL | TPU | 2 | 1.25 캡 계수 | |
| 임의의 라우팅 | Thor/Transformer 조밀 | 8x V100 | 1/2/4/8/16 | ||
| 게이팅 드롭 아웃 | 확장 가능한 Moe | V100/A100의 16/64x | 1 | 1/2 (기차/시험) | |
| 기본 레이어 | Smoe and Switch (52b) | 8/32/128 32GB V100 | |||
| 스위치 변압기 | T5 (223m 기준/ 739m 큰) | 32x tpuv3 | 1 | ||
| 에보 모에 | 스위치/해시 레이어/베이스/스테이블 메모 | 8x A100 | 1 | ||
| 안정적인 미터 (LM) | 스위치 변압기/베이스 레이어/해시 층/변압기 기반 | ? x V100 GPU | 1 | 1 (스위치에서) | |
| 안정 | 변압기 기반 및 대형/기본 레이어/해시 층/스위치 | ? x V100 GPU | 1 | 1 | |
| 엄청나게 큰 Moes (LM) | Moe-1 Wide & Deep/ 4XLSTM-512/ LSTM-2048 & 8192 | 4-16x K40 | Moe-H의 경우 4 또는 2 | ||
| 엄청나게 큰 Moes (LM-LARGE) | Moe-1 Wide & Deep/ 4XLSTM-512/ LSTM-2048 & 8192 | 32/64/128x K40s | Moe-H의 경우 4 또는 2 | ||
| 엄청나게 큰 Moes (MT) | GNMT/PBMT/LSTM-6/DEEPATT | 64 K40s | Moe-H의 경우 4 또는 2 | ||
| 엄청나게 큰 Moes (MTMT) | gnmt-mono/gnmt-multi | 64 K40s | 2 | ||
| nllb | 101.6GIB/ 각 GPU는 한 명의 전문가를 보유합니다 | ||||
| 메모리 효율적인 nllb | 3.3B NLLB-DENSE/NLLB-200 54.5B | 1/4x V100 GPU | |||
| 글램 | 스위치/gpt-3/kg-fid/megatron-nlg | 1024x TPU V4 (가장 큰) | 가장 큰 전문가는 단일 TPU에 맞지 않습니다. | 2 | 2* |
| 아마존 Sagemaker | |||||
| M6-T 희소 전문가 | 다른 Top-K와의 비교 | 480 V100 32GB |
가장 높은 인용 번호는 Google 학술 검색 및 시맨틱 학자에서 취해집니다.
| 종이 | 데이터 세트 | 배치 크기 | 오픈 소스 | 인용 | 메모 |
| 메가 블록 | 더미 | 512 | N | 0 | |
| 깊은 속도 | lambada/piqa/boolq/race-h/trivia-qa/webqs | 256/512 | 와이 | 15/36 | |
| 전문가 선택 라우팅 | 글램 | N/A | N | 6 | |
| 작업 수준 MOE | Wmt | N/A | N | 13 | |
| 해시 레이어 (vs 스위치) | pushshift.io/roberta/wikitext-103/bst | 40 | Y (부분적으로) | 43 | |
| 해시 층 (VS베이스) | pushshift.io/roberta/wikitext-103/bst | 2 | Y (부분적으로) | 43 | |
| Gshard | 사용자 정의 데이터 세트 | 4m | Y (TPU 만 해당) | 305 | |
| 더 빠른 | 위키 텍스트 | 와이 | 22 | ||
| 세인트 모에 | C4 1.5t | 1m | 와이 | 26 | |
| 임의의 라우팅 | enwik8/bookcorpus | 128/256 | 검토 중 | 검토 중 | |
| 게이팅 드롭 아웃 | Wmt/Web-50 | 435K | N | 1/5 | |
| 기본 레이어 | Roberta Corpus 및 CC100 | 와이 | 64/79 | ||
| 스위치 변압기 | 큰 C4 코퍼스 (180b) | 1m | 와이 | 525 | |
| 에보 모에 | Wmt (MT)/OpenWebText (LM MLM)/Wikipedia/OpenWebText | N/A | 와이 | 11 | |
| 안정적인 미터 (LM) | Roberta와 CC100 | 512k | 와이 | 9 | |
| 안정 | Wmt | 512k | 와이 | 9 | |
| 엄청나게 큰 Moes (LM) | 1B 단어 벤치 마크 | ? | n (그러나 재현되었습니다) | 1117/1050 | 두 LSTM 사이에 MOE 층을 사용합니다. 8.4/37.8/272.9/1079/4303m. |
| 엄청나게 큰 Moes (LM-LARGE) | 1,000 억 구글 코퍼스 | 2.5m | "" " | "" " | GPU 당 최대 10 억 파라미터에 맞습니다. 64 및 128 GPU 테스트는 마지막 두 전문가 모델에 대한 것입니다. |
| 엄청나게 큰 Moes (MT) | Wmt | ? | "" " | "" " | GPU 당 최대 10 억 파라미터에 맞습니다. |
| 엄청나게 큰 Moes (MTMT) | corr | 1m (GPU 당 16k) | "" " | "" " | |
| nllb | Flores-200 (Eval)/LID Currated Data/Paracrawl 및 CommonCrawl (단일) | 16k | 와이 | 26/49 | 모든 네 번째 층은 MOE 층입니다. |
| 메모리 효율적인 nllb | Flores-200 (평가) | 16k | N | 0 | 전문가 가지 치기 등과 같은 일부 결과를 출시합니다. NLLB-200은 4x32 v100이 필요합니다. 이것은 80% 가지 치기 모델을 사용합니다. |
| 글램 | 웹 페이지/위키 백과/포럼 등의 글램 사용자 정의 데이터 세트 | 1m | N | 59/84 | |
| 아마존 Sagemaker | |||||
| M6-T 희소 전문가 |