moe paper models
1.0.0
| ผู้เขียน | ชื่อ |
|---|---|
อดัมจี | การตั้งค่าการทดลองกระดาษ MOE |
ที่เก็บนี้ทำหน้าที่เป็นคอลเลกชันของการตั้งค่าการทดลองกระดาษที่โดดเด่น โปรดทราบว่าสิ่งเหล่านี้อาจไม่สมบูรณ์หรือผิดพลาดสำหรับตัวชี้วัดบางอย่างหากเช่นนั้นอย่าลังเลที่จะยกปัญหาและฉันจะแก้ไขโดยเร็วที่สุด
งานหลักที่ตรวจสอบในเอกสารเหล่านี้:
| กระดาษ | ปี | ขนาดผู้เชี่ยวชาญ | ขนาดรวม | NUM EXP (ต่อเลเยอร์) | เลเยอร์ NUM |
| Megablocks | 11/2022 | N/A | 839m-13b | 64 | 3/6/12 |
| Deepspeed-Moe | 01/2022 | 1.3/2.4/8/24/47B | 52/107/349/1064.9/2024B | 128 | 24/16/30/40/58 |
| Deepspeed-Moe | 01/2022 | 1.3/2.4/8/24/47B | 52/107/349/1064.9/2024B | 128 | 24/16/30/40/58 |
| การกำหนดเส้นทางการเลือกผู้เชี่ยวชาญ | 02/2022 | 0.145/9.8b | 1.9/143b | 64 | 16 |
| Moe ระดับงาน | 09/2022 | 4096 ขนาด FFN | 533m/13b | 32/128 | 11 |
| เลเยอร์แฮช (vs switch) | 06/2021 | 4096 ขนาด FFN | 751m/852m/1.28b | 64/16/128 | 1/5/1 |
| เลเยอร์แฮช (VS Base) | 06/2021 | 100m/33m | 4.5b | 32/3x32 | 1/3 |
| gshard | 06/2020 | 8196 ขนาด FNN | 37/150/600B | 128/512/2048 | 12/36 (สำหรับแต่ละ exp) |
| เร็ว | 03/2022 | 1024/2048/4096 ขนาด FFN | 13.1/13.7/27.4B | 64/16/16 | 12/12/24 |
| St-Moe | 02/2022 | 2816/20480 | 4.1/269b | 32/64 | 6/6 (ทุก ๆ 4) |
| การกำหนดเส้นทางแบบสุ่ม | 09/2022 | 20m-200m | 8/16 | 4/12 | |
| Gating Dropout | 05/2022 | 5.6/10b | 128/64 | 12/24 | |
| ชั้นฐาน | 03/2021 | 135/335/911m | 1.5/44/117B | 128? | 1 (ชั้นฐาน) |
| เปลี่ยนหม้อแปลง | 01/2021 | 768/1024/4096 ขนาด FFN | 7/26/395/1571B | 128/128/64/2048 | 12/24/24/15 (อื่น ๆ ) |
| Evo Moe | 12/2021 | 335m (MT/MLM/LM) | 1.5 (MT) /1.8 (MLM LM) | 4 (MT)/16 (MLM LM) | 6 (MT)/12 (MLM LM) |
| เสถียร -MOE (LM) | 04/2022 | 3072/4096 ขนาด FFN | 454m/3.22b | 32/64 | 1/1 |
| เสถียร -MOE (MT) | 04/2022 | 2048 ขนาด FFN | 480m | 32 | 2 |
| Moes ขนาดใหญ่ที่อุกอาจ (LM) | 01/2017 | 1m (Dims = 1024x512) | 0.8/0.9/1.1/1.1/1.9/5.1 | 4/32/256/256/1024/4096 | 1 |
| Moes ขนาดใหญ่ที่อุกอาจ (LM-large) | 01/2017 | 1m | 0.1/0.4/1.2/4.4/17.3/68.9/137.7 | 32 & 256/1024/4096/16384/65536/131072-H | 1 |
| Moes ขนาดใหญ่ที่อุกอาจ (MT) | 01/2017 | 2m | 8.7b | 32 & 512/2048-H | 2 (หนึ่งระหว่าง encoder และตัวถอดรหัส) |
| Moes ขนาดใหญ่ที่อุกอาจ (MTMT) | 01/2017 | ขนาด 8192 FFN | 8.7b | 512 | 2 |
| nllb | 07/2022 | 8192 FFN Size/33.6m | ขนาดผู้เชี่ยวชาญ 54.5b/51.6b | 128 | 6 EXP LAYERS |
| หน่วยความจำที่มีประสิทธิภาพ NLLB | 12/2022 | 8192 FFN Size/33.6m | ~ 10.32b สมมติว่าการตัดแต่งกิ่ง 80% | ~ 24 ต่อเลเยอร์, 288 โดยรวม | 6 EXP LAYERS |
| น่ามอง | 12/2021 | 8192 & 16384 & 32768 ขนาด FFN | 20/27/53 & 105/143b & 1.2t | 32/64/128 & 256/64 & 64 | 24 & 32 & 64 (เลเยอร์อื่น ๆ ) |
| Amazon Sagemaker | |||||
| M6-T Sparse Experts | 05/2021 | 1024x4096 & 1024x21248 | 1.4 & 10.8 & 103.2 & 1002.7b | 32 & 128 & 512 & 960 (รวม) | 5 & 10 & 24 & 24 |
= ค่าที่ไม่ได้รับการยืนยันหรือไม่ได้รับการยืนยันจากการทดลองของพวกเขา
สำหรับข้อกำหนดของฮาร์ดแวร์ Slashes แสดงถึงการกำหนดค่าที่แตกต่างกัน
| กระดาษ | พื้นฐาน | ข้อกำหนดของฮาร์ดแวร์ | หน่วยความจำ | K-K | ความจุ |
| Megablocks | ฐานหม้อแปลงไปยัง GPT3-XL (46m ถึง 1.3b) | 8x A100 80GB | 1 | 1/1.5/2x | |
| Deepspeed-Moe | Moe ที่ปรับขนาดได้ | 128X A100 80GB | 2* | 2 | |
| การกำหนดเส้นทางการเลือกผู้เชี่ยวชาญ | gshard | 512X TPU V4 | N/A* | 2* | |
| Moe ระดับงาน | ฐานหม้อแปลง (142m)/โทเค็น/ประโยค Moe | 32X TPU V3 | 1 | ||
| เลเยอร์แฮช (vs switch) | เบสหม้อแปลง (225/755m)/สวิตช์หม้อแปลง | 8 32GB V100 | *1 | ||
| เลเยอร์แฮช (VS Base) | ชั้นฐาน | 16 32GB V100 | *1 | ||
| gshard | GPIPE/BASE Transformer | 128/512/2048X TPU V3 | 2 | 2 | |
| เร็ว | fastmoe/ gshard/ base | 16/64x V100 | 2 | ||
| St-Moe | Dense-l/ t5 xxl/ switch xxl | TPU | 2 | 1.25 CAP Factor | |
| การกำหนดเส้นทางแบบสุ่ม | Thor/Transformer หนาแน่น | 8x V100 | 1/2/4/8/16 | ||
| Gating Dropout | Moe ที่ปรับขนาดได้ | 16/64X ของ V100/A100 | 1 | 1/2 (รถไฟ/ทดสอบ) | |
| ชั้นฐาน | Smoe and Switch (52b) | 8/32/128 32GB V100 | |||
| เปลี่ยนหม้อแปลง | T5 (ฐาน 223m/ 739m ขนาดใหญ่) | 32X TPUV3 | 1 | ||
| Evo Moe | Switch/Hash Layers/Base/StableMoe | 8x A100 | 1 | ||
| เสถียร -MOE (LM) | Switch Transformer/Base Layer/Hash Layer/Transformer-base | ? x v100 gpus | 1 | 1 (จากสวิตช์) | |
| เสถียร -MOE (MT) | เบสหม้อแปลงและเลเยอร์/ฐานขนาดใหญ่/ฐาน/สวิตช์ | ? x v100 gpus | 1 | 1 | |
| Moes ขนาดใหญ่ที่อุกอาจ (LM) | MOE-1 Wide & Deep/ 4xLSTM-512/ LSTM-2048 & 8192 | 4-16X K40S | 4 หรือ 2 สำหรับ moe-h | ||
| Moes ขนาดใหญ่ที่อุกอาจ (LM-large) | MOE-1 Wide & Deep/ 4xLSTM-512/ LSTM-2048 & 8192 | 32/64/128X K40S | 4 หรือ 2 สำหรับ moe-h | ||
| Moes ขนาดใหญ่ที่อุกอาจ (MT) | GNMT/PBMT/LSTM-6/Deepatt | 64 K40S | 4 หรือ 2 สำหรับ moe-h | ||
| Moes ขนาดใหญ่ที่อุกอาจ (MTMT) | GNMT-MONO/GNMT-MULTI | 64 K40S | 2 | ||
| nllb | 101.6Gib/ GPU แต่ละคนมีผู้เชี่ยวชาญหนึ่งคน | ||||
| หน่วยความจำที่มีประสิทธิภาพ NLLB | 3.3B NLLB-DENSE/NLLB-200 54.5B | 1/4x V100 GPUS | |||
| น่ามอง | switch/gpt-3/kg-fid/megatron-nlg | 1024X TPU V4 (ใหญ่ที่สุด) | สำหรับผู้เชี่ยวชาญที่ใหญ่ที่สุดไม่เหมาะกับ TPU เดียว | 2 | 2* |
| Amazon Sagemaker | |||||
| M6-T Sparse Experts | การเปรียบเทียบของพวกเขาเองกับ Top-K ที่แตกต่างกัน | 480 V100 32GB |
หมายเลขการอ้างอิงสูงสุดจะถูกนำมาใช้ทั่ว Google Scholar และ Semantic Scholar
| กระดาษ | ชุดข้อมูล | ขนาดแบทช์ | โอเพ่นซอร์ส | การอ้างอิง | หมายเหตุ |
| Megablocks | กอง | 512 | n | 0 | |
| Deepspeed-Moe | lambada/piqa/boolq/race-h/trivia-qa/webqs | 256/512 | y | 15/36 | |
| การกำหนดเส้นทางการเลือกผู้เชี่ยวชาญ | น่ามอง | N/A | n | 6 | |
| Moe ระดับงาน | WMT | N/A | n | 13 | |
| เลเยอร์แฮช (vs switch) | pushshift.io/roberta/wikitext-103/bst | 40 | y (บางส่วน) | 43 | |
| เลเยอร์แฮช (VS Base) | pushshift.io/roberta/wikitext-103/bst | 2 | y (บางส่วน) | 43 | |
| gshard | ชุดข้อมูลที่กำหนดเอง | 4m | y (tpu เท่านั้น) | 305 | |
| เร็ว | ข้อความวิกิ | y | 22 | ||
| St-Moe | C4 1.5T | 1m | y | 26 | |
| การกำหนดเส้นทางแบบสุ่ม | enwik8/bookcorpus | 128/256 | อยู่ระหว่างการตรวจสอบ | อยู่ระหว่างการตรวจสอบ | |
| Gating Dropout | WMT/Web-50 | 435K | n | 1/5 | |
| ชั้นฐาน | Roberta Corpus และ CC100 | y | 64/79 | ||
| เปลี่ยนหม้อแปลง | C4 Corpus ขนาดใหญ่ (180b) | 1m | y | 525 | |
| Evo Moe | WMT (MT)/OpenWebText (LM MLM)/Wikipedia/OpenWebText | N/A | y | 11 | |
| เสถียร -MOE (LM) | Roberta และ CC100 | 512K | y | 9 | |
| เสถียร -MOE (MT) | WMT | 512K | y | 9 | |
| Moes ขนาดใหญ่ที่อุกอาจ (LM) | มาตรฐาน 1B คำ | - | n (แต่ถูกสร้างขึ้นใหม่) | 1117/1050 | ใช้เลเยอร์ MOE ระหว่างสอง LSTMS 8.4/37.8/272.9/1079/4303M |
| Moes ขนาดใหญ่ที่อุกอาจ (LM-large) | 100 พันล้าน Google Corpus | 2.5m | - | - | พอดีกับพารามิเตอร์สูงสุด 1 พันล้านต่อ GPU การทดสอบ 64 และ 128 GPU สำหรับรุ่นผู้เชี่ยวชาญสองรุ่นสุดท้าย |
| Moes ขนาดใหญ่ที่อุกอาจ (MT) | WMT | - | - | - | พอดีกับพารามิเตอร์สูงสุด 1 พันล้านต่อ GPU |
| Moes ขนาดใหญ่ที่อุกอาจ (MTMT) | corr | 1M (16K ต่อ GPU) | - | - | |
| nllb | Flores-200 (Eval)/LID CURATED DATA/PARACRAWL และ Commoncrawl (monolingual) | 16k | y | 26/49 | ทุกชั้นที่สี่เป็นเลเยอร์ MOE |
| หน่วยความจำที่มีประสิทธิภาพ NLLB | Flores-200 (Eval) | 16k | n | 0 | การปล่อยผลลัพธ์บางอย่างเช่นผู้เชี่ยวชาญตัดแต่งกิ่ง ฯลฯ ทุก FFN sublayer ที่สี่จะถูกแทนที่ด้วยเลเยอร์ MOE NLLB-200 ต้องใช้ 4x32 V100s ในการทำงาน รุ่นตัดแต่ง 80% นี้ |
| น่ามอง | ชุดข้อมูลที่กำหนดเองของหน้าเว็บ/wikipedia/ฟอรัม ฯลฯ | 1m | n | 59/84 | |
| Amazon Sagemaker | |||||
| M6-T Sparse Experts |