moe paper models
1.0.0
| مؤلف | عنوان |
|---|---|
آدم جي | إعدادات Moe Paper التجريبية |
يعمل هذا المستودع كمجموعة من الإعدادات التجريبية الورقية البارزة. لاحظ أن هذه قد تكون غير مكتملة أو خاطئة بالنسبة لبعض المقاييس ، إذا لم تكن هناك حرية في إثارة مشكلة وسأقوم بتعديلها في أقرب وقت ممكن.
المهام الرئيسية التي تم فحصها عبر هذه الأوراق:
| ورق | سنة | حجم الخبراء | الحجم الكلي | NUM EXP (لكل طبقة) | عدد الطبقات |
| Megablocks | 11/2022 | ن/أ | 839M-13B | 64 | 3/6/12 |
| السفن العميقة | 01/2022 | 1.3/2.4/8/24/47b | 52/107/349/1064.9/2024b | 128 | 24/16/30/40/58 |
| السفن العميقة | 01/2022 | 1.3/2.4/8/24/47b | 52/107/349/1064.9/2024b | 128 | 24/16/30/40/58 |
| توجيه اختيار الخبراء | 02/2022 | 0.145/9.8b | 1.9/143b | 64 | 16 |
| وزني على مستوى المهمة | 09/2022 | 4096 الحجم ffn | 533M/13B | 32/128 | 11 |
| طبقات التجزئة (VS Switch) | 06/2021 | 4096 الحجم ffn | 751m/852m/1.28b | 64/16/128 | 1/5/1 |
| طبقات التجزئة (مقابل قاعدة) | 06/2021 | 100m/33m | 4.5 ب | 32/3x32 | 1/3 |
| Gshard | 06/2020 | 8196 الحجم fnn | 37/150/600B | 128/512/2048 | 12/36 (لكل NUM EXP) |
| Fastermoe | 03/2022 | 1024/2048/4096 FFN Size | 13.1/13.7/27.4b | 64/16/16 | 12/12/24 |
| St-Moe | 02/2022 | 2816/20480 | 4.1/269b | 32/64 | 6/6 (كل 4) |
| توجيه عشوائي | 09/2022 | 20m-200m | 8/16 | 4/12 | |
| إسقاط البوابات | 05/2022 | 5.6/10b | 128/64 | 12/24 | |
| طبقات قاعدة | 03/2021 | 135/335/911M | 1.5/44/117b | 128؟ | 1 (الطبقة الأساسية) |
| تبديل المحول | 01/2021 | 768/1024/4096 FFN Size | 7/26/395/1571B | 128/128/64/2048 | 12/24/24/15 (كل واحد) |
| إيفو مو | 12/2021 | 335M (MT/MLM/LM) | 1.5 (MT) /1.8 (MLM LM) | 4 (MT)/16 (MLM LM) | 6 (MT)/12 (MLM LM) |
| مستقر moe (LM) | 04/2022 | 3072/4096 FFN size | 454m/3.22b | 32/64 | 1/1 |
| مستقر moe (MT) | 04/2022 | 2048 الحجم ffn | 480 م | 32 | 2 |
| موسى كبيرة بشكل شنيع (LM) | 01/2017 | 1M (dims = 1024x512) | 0.8/0.9/1.1/1.1/1.9/5.1 | 4/32/256/256/1024/4096 | 1 |
| موسور كبيرة بشكل شنيع (LM-LARGE) | 01/2017 | 1M | 0.1/0.4/1.2/4.4/17.3/68.9/137.7 | 32 و 256/1024/4096/16384/65536/131072-H | 1 |
| مويس كبيرة بشكل شنيع (MT) | 01/2017 | 2 م | 8.7b | 32 و 512/2048-H | 2 (واحد بين التشفير المكدسة وفك التشفير) |
| موسور كبيرة بشكل شنيع (MTMT) | 01/2017 | 8192 الحجم ffn | 8.7b | 512 | 2 |
| nllb | 07/2022 | 8192 FFN SIZE/33.6M | 54.5b/51.6b حجم الخبراء | 128 | 6 طبقات exp |
| الذاكرة فعالة NLLB | 12/2022 | 8192 FFN SIZE/33.6M | ~ 10.32b على افتراض 80 ٪ التقليم | ~ 24 لكل طبقة ، 288 بشكل عام | 6 طبقات exp |
| بريق | 12/2021 | 8192 و 16384 و 32768 ffn size | 20/27/53 و 105/143B و 1.2T | 32/64/128 و 256/64 و 64 | 24 و 32 و 64 (كل طبقة أخرى) |
| Amazon Sagemaker | |||||
| M6-T خبراء متناثرون | 05/2021 | 1024x4096 و 1024x21248 | 1.4 و 10.8 و 103.2 و 1002.7b | 32 و 128 و 512 و 960 (المجموع) | 5 و 10 و 24 و 24 |
= القيم التي يتم تأكيدها أو التلميح من تجاربهم.
بالنسبة لمتطلبات الأجهزة ، تشير المائلات إلى تكوينات مختلفة.
| ورق | خط الأساس | متطلبات الأجهزة | ذاكرة | أعلى K. | سعة |
| Megablocks | قاعدة المحولات إلى GPT3-XL (من 46 م إلى 1.3 ب) | 8x A100 80GB | 1 | 1/1.5/2x | |
| السفن العميقة | مو قابلة للتطوير | 128x A100 80GB | 2* | 2 | |
| توجيه اختيار الخبراء | Gshard | 512x TPU V4 | n/a* | 2* | |
| وزني على مستوى المهمة | قاعدة المحولات (142 متر)/رمز/جملة مو. | 32x TPU V3 | 1 | ||
| طبقات التجزئة (VS Switch) | قاعدة المحولات (225/755M)/المحول | 8 32GB V100 | *1 | ||
| طبقات التجزئة (مقابل قاعدة) | طبقات قاعدة | 16 32GB V100 | *1 | ||
| Gshard | GPIPE/محول قاعدة | 128/512/2048x TPU V3 | 2 | 2 | |
| Fastermoe | fastmoe/ gshard/ قاعدة | 16/64x V100 | 2 | ||
| St-Moe | كثيف L/ T5 XXL/ Switch XXL | TPU | 2 | 1.25 عامل الحد الأقصى | |
| توجيه عشوائي | ثور/محول كثيف | 8x V100 | 1/2/4/8/16 | ||
| إسقاط البوابات | مو قابلة للتطوير | 16/64x من V100/A100 | 1 | 1/2 (قطار/اختبار) | |
| طبقات قاعدة | Smoe and Switch (52b) | 8/32/128 32GB V100 | |||
| تبديل المحول | T5 (قاعدة 223M/ 739M) | 32x TPUV3 | 1 | ||
| إيفو مو | تبديل/طبقات التجزئة/قاعدة/stablemoe | 8x A100 | 1 | ||
| مستقر moe (LM) | تبديل محول/طبقة قاعدة/طبقة التجزئة/قاعدة المحولات | ؟ X V100 وحدات معالجة الرسومات | 1 | 1 (من التبديل) | |
| مستقر moe (MT) | قاعدة المحولات وطبقة/مفتاح تجزئة/مفتاح الطبقة الكبيرة/القاعدة | ؟ X V100 وحدات معالجة الرسومات | 1 | 1 | |
| موسى كبيرة بشكل شنيع (LM) | Moe-1 واسع وعمق/ 4xlstm-512/ lstm-2048 و 8192 | 4-16x K40s | 4 أو 2 لـ Moe-H | ||
| موسور كبيرة بشكل شنيع (LM-LARGE) | Moe-1 واسع وعمق/ 4xlstm-512/ lstm-2048 و 8192 | 32/64/128x K40s | 4 أو 2 لـ Moe-H | ||
| مويس كبيرة بشكل شنيع (MT) | GNMT/PBMT/LSTM-6/DEEPATT | 64 K40s | 4 أو 2 لـ Moe-H | ||
| موسور كبيرة بشكل شنيع (MTMT) | Gnmt-Mono/Gnmt-Multi | 64 K40s | 2 | ||
| nllb | 101.6GIB/ كل وحدة معالجة الرسومات تحمل خبيرًا واحدًا | ||||
| الذاكرة فعالة NLLB | 3.3B NLLB-DENENT/NLLB-200 54.5B | 1/4x V100 وحدات معالجة الرسومات | |||
| بريق | التبديل/gpt-3/kg-fid/megatron-nlg | 1024x TPU V4 (الأكبر) | لأكبر خبراء لا يتناسب مع TPU واحد | 2 | 2* |
| Amazon Sagemaker | |||||
| M6-T خبراء متناثرون | مقارناتهم الخاصة مع كوكب كبير مختلف | 480 V100 32GB |
يتم أخذ أعلى رقم اقتباس عبر الباحث العلمي من Google والباحث الدلالي
| ورق | مجموعة البيانات | حجم الدُفعة | المصدر المفتوح | الاستشهادات | ملحوظات |
| Megablocks | كومة | 512 | ن | 0 | |
| السفن العميقة | Lambada/PIQA/Boolq/Race-H/Trivia-QA/WebQs | 256/512 | ذ | 15/36 | |
| توجيه اختيار الخبراء | بريق | ن/أ | ن | 6 | |
| وزني على مستوى المهمة | WMT | ن/أ | ن | 13 | |
| طبقات التجزئة (VS Switch) | pushshift.io/roberta/wikitext-103/bst | 40 | ص (جزئيا) | 43 | |
| طبقات التجزئة (مقابل قاعدة) | pushshift.io/roberta/wikitext-103/bst | 2 | ص (جزئيا) | 43 | |
| Gshard | مجموعة بيانات مخصصة | 4M | Y (TPU فقط) | 305 | |
| Fastermoe | نص ويكي | ذ | 22 | ||
| St-Moe | C4 1.5T | 1M | ذ | 26 | |
| توجيه عشوائي | ENWIK8/BOOKCORPUS | 128/256 | تحت المراجعة | تحت المراجعة | |
| إسقاط البوابات | WMT/Web-50 | 435k | ن | 1/5 | |
| طبقات قاعدة | روبرتا كوربوس و CC100 | ذ | 64/79 | ||
| تبديل المحول | كوربوس C4 كبير (180 ب) | 1M | ذ | 525 | |
| إيفو مو | WMT (MT)/OpenWebText (LM MLM)/Wikipedia/OpenWebText | ن/أ | ذ | 11 | |
| مستقر moe (LM) | روبرتا و CC100 | 512K | ذ | 9 | |
| مستقر moe (MT) | WMT | 512K | ذ | 9 | |
| موسى كبيرة بشكل شنيع (LM) | 1 ب مؤشر كلمة | ؟ | ن (ولكن تم إعادة إنشاء) | 1117/1050 | يستخدم طبقة Moe بين اثنين من LSTMS. 8.4/37.8/272.9/1079/4303m. |
| موسور كبيرة بشكل شنيع (LM-LARGE) | 100 مليار جوجل كوربوس | 2.5m | "" " | "" " | تناسب ما يصل إلى 1 مليار المعلمة لكل وحدة معالجة الرسومات. اختبارات 64 و 128 GPU هي لنموذجين الخبراء الأخيرين |
| مويس كبيرة بشكل شنيع (MT) | WMT | ؟ | "" " | "" " | تناسب ما يصل إلى 1 مليار المعلمة لكل وحدة معالجة الرسومات. |
| موسور كبيرة بشكل شنيع (MTMT) | كور | 1m (16k لكل وحدة معالجة الرسومات) | "" " | "" " | |
| nllb | Flores-200 (eval)/LID بيانات برعاية/paracrowl و CommonCrawl (أحادي) | 16 كيلو | ذ | 26/49 | كل طبقة رابعة هي طبقة مو. |
| الذاكرة فعالة NLLB | Flores-200 (eval) | 16 كيلو | ن | 0 | يتم إطلاق بعض النتائج مثل الخبراء الذين يتم تقليديهم وما إلى ذلك كل ربع طبقة فرعية FFN بطبقة MOE. يتطلب NLLB-200 4 × 32 V100S لتشغيله. هذا usesthe 80 ٪ نموذج تشذيب. |
| بريق | مجموعة بيانات مخصصة من صفحات الويب/ويكيبيديا/منتديات وما إلى ذلك | 1M | ن | 59/84 | |
| Amazon Sagemaker | |||||
| M6-T خبراء متناثرون |