moe paper models
1.0.0
| автор | заголовок |
|---|---|
Адам Г. | Moe Paper Экспериментальные установки |
Этот репозиторий служит коллекцией заметных экспериментальных настройки бумаги. Обратите внимание, что они могут быть неполными или ошибочными для некоторых показателей, если так, чтобы это не стесняйтесь поднять проблему, и я внеслю изменения в нее как можно скорее.
Основные задачи, рассмотренные в этих статьях:
| Бумага | Год | Экспертный размер | Общий размер | Num exp (на слой) | Число слоев |
| Мегаблокс | 11/2022 | N/a | 839m-13b | 64 | 3/6/12 |
| Deepspeed-Moe | 01/2022 | 1,3/2,4/8/24/47B | 52/107/349/1064.9/2024b | 128 | 24/16/30/40/58 |
| Deepspeed-Moe | 01/2022 | 1,3/2,4/8/24/47B | 52/107/349/1064.9/2024b | 128 | 24/16/30/40/58 |
| Экспертный выбор маршрутизации | 02/2022 | 0,145/9,8B | 1,9/143b | 64 | 16 |
| Moe-уровень на уровне задачи | 09/2022 | 4096 FFN размер | 533m/13b | 32/128 | 11 |
| Хэш -слои (VS переключатель) | 06/2021 | 4096 FFN размер | 751M/852M/1,28B | 64/16/128 | 1/5/1 |
| Хэш -слои (против базы) | 06/2021 | 100 м/33 м | 4,5B | 32/3x32 | 1/3 |
| GSHARD | 06/2020 | 8196 FNN размер | 37/150/600B | 128/512/2048 | 12/36 (для каждого num exp) |
| Быстрее | 03/2022 | 1024/2048/4096 FFN Размер | 13.1/13,7/27,4b | 64/16/16 | 12/12/24 |
| ST-MEA | 02/2022 | 2816/20480 | 4.1/269b | 32/64 | 6/6 (каждые 4) |
| Случайная маршрутизация | 09/2022 | 20 м-200 м | 8/16 | 4/12 | |
| Стробирование отсева | 05/2022 | 5,6/10B | 128/64 | 12/24 | |
| Базовые слои | 03/2021 | 135/335/911M | 1,5/44/117B | 128? | 1 (базовый слой) |
| Переключатель трансформатора | 01/2021 | 768/1024/4096 FFN размер | 7/26/395/1571B | 128/128/64/2048 | 24.12.24/15 (все остальные) |
| Эво Мо | 12/2021 | 335M (MT/MLM/LM) | 1.5 (MT) /1,8 (MLM LM) | 4 (MT)/16 (MLM LM) | 6 (MT)/12 (MLM LM) |
| Стабильный-Мо (LM) | 04/2022 | 3072/4096 FFN Размер | 454M/3,22B | 32/64 | 1/1 |
| Стабильный-Мо (МТ) | 04/2022 | 2048 FFN размер | 480 м | 32 | 2 |
| Возмутительно большой Moes (LM) | 01/2017 | 1m (Dims = 1024x512) | 0,8/0,9/1,1/1,1/1,9/5,1 | 4/32/256/256/1024/4096 | 1 |
| Возмутительно большой Moes (LM-Large) | 01/2017 | 1 м | 0,1/0,4/1,2/4,4/17,3/68,9/137,7 | 32 и 256/1024/4096/16384/65536/131072-H | 1 |
| Возмутительно большой Moes (MT) | 01/2017 | 2м | 8.7b | 32 и 512/2048-H | 2 (один между сложенным энкодером и декодером) |
| Возмутительно большой Moes (MTMT) | 01/2017 | 8192 FFN размер | 8.7b | 512 | 2 |
| Nllb | 07/2022 | 8192 FFN размер/33,6 м | 54,5B/51,6B Экспертный размер | 128 | 6 Exp Layers |
| Эффективная память nllb | 12/2022 | 8192 FFN размер/33,6 м | ~ 10,32b, предполагая 80% обрезки | ~ 24 за слой, 288 в целом | 6 Exp Layers |
| Гламур | 12/2021 | 8192 и 16384 и 32768 FFN Размер | 20/27/53 и 105/143B & 1,2T | 32/64/128 & 256/64 и 64 | 24 и 32 и 64 (каждый другой слой) |
| Amazon Sagemaker | |||||
| M6-T Sparse Experts | 05/2021 | 1024x4096 и 1024x21248 | 1,4 и 10,8 и 103,2 и 1002,7B | 32 и 128 и 512 и 960 (всего) | 5, 10 и 24 и 24 |
= Значения, которые не подтверждены или намекаются от их экспериментов.
Для требований к аппаратному обеспечению черты обозначают различные конфигурации.
| Бумага | Базовый уровень | Аппаратные требования | Память | Top-K | Емкость |
| Мегаблокс | Трансформатор-база в GPT3-XL (от 46 м до 1,3B) | 8x A100 80 ГБ | 1 | 1/1,5/2x | |
| Deepspeed-Moe | Масштабируемая моэ | 128x A100 80 ГБ | 2* | 2 | |
| Экспертный выбор маршрутизации | GSHARD | 512x TPU V4 | N/A* | 2* | |
| Moe-уровень на уровне задачи | База трансформатора (142 м)/токен/предложение Moe | 32x TPU v3 | 1 | ||
| Хэш -слои (VS переключатель) | Трансформатор-база (225/755M)/переключатель трансформатор | 8 32 ГБ v100 | *1 | ||
| Хэш -слои (против базы) | Базовые слои | 16 32 ГБ v100 | *1 | ||
| GSHARD | GPIPE/Базовый трансформатор | 128/512/2048x TPU V3 | 2 | 2 | |
| Быстрее | FastMoe/ GSHARD/ BASE | 16/64x v100 | 2 | ||
| ST-MEA | Dense-L/ T5 xxl/ Switch xxl | TPU | 2 | 1,25 Коэффициент крышки | |
| Случайная маршрутизация | Тор/Трансформатор Продлен | 8x v100 | 1/2/4/8/16 | ||
| Стробирование отсева | Масштабируемая моэ | 16/64x V100/A100 | 1 | 1/2 (поезд/тест) | |
| Базовые слои | Smoe и Switch (52b) | 32.08.128 32GB V100 | |||
| Переключатель трансформатора | T5 (Base 223 м/ 739 млн. | 32x tpuv3 | 1 | ||
| Эво Мо | Переключатель/хэш слои/база/стаблема | 8x A100 | 1 | ||
| Стабильный-Мо (LM) | Переключатель трансформатор/базовый слой/хэш-слой/база трансформации | ? X V100 графические процессоры | 1 | 1 (от переключателя) | |
| Стабильный-Мо (МТ) | Трансформатор-база и большой/базовый слой/хэш-слой/переключатель | ? X V100 графические процессоры | 1 | 1 | |
| Возмутительно большой Moes (LM) | Moe-1 Wide & Deep/ 4xlstm-512/ LSTM-2048 и 8192 | 4-16x K40s | 4 или 2 для Moe-H | ||
| Возмутительно большой Moes (LM-Large) | Moe-1 Wide & Deep/ 4xlstm-512/ LSTM-2048 и 8192 | 32/64/128x K40S | 4 или 2 для Moe-H | ||
| Возмутительно большой Moes (MT) | GNMT/PBMT/LSTM-6/DIEPATT | 64 K40S | 4 или 2 для Moe-H | ||
| Возмутительно большой Moes (MTMT) | GNMT-MONO/GNMT-MULTI | 64 K40S | 2 | ||
| Nllb | 101.6gib/ каждый графический процессор содержит один эксперт | ||||
| Эффективная память nllb | 3.3b nllb-dense/nllb-200 54,5b | 1/4x v100 графические процессоры | |||
| Гламур | Switch/GPT-3/Kg-FID/MEGATRON-NLG | 1024x TPU V4 (крупнейший) | Для самых крупных экспертов не подходят ни на одну TPU | 2 | 2* |
| Amazon Sagemaker | |||||
| M6-T Sparse Experts | Их собственные сравнения с разными топ-k | 480 V100 32GB |
Самый высокий номер цитаты проходит через Google Scholar и Semantic Scholar
| Бумага | Набор данных | Размер партии | Открытый исходный код | Цитаты | Примечания |
| Мегаблокс | Куча | 512 | Не | 0 | |
| Deepspeed-Moe | Lambada/piqa/boolq/z-h/quia-qa/webqs | 256/512 | У | 15/36 | |
| Экспертный выбор маршрутизации | Гламур | N/a | Не | 6 | |
| Moe-уровень на уровне задачи | Wmt | N/a | Не | 13 | |
| Хэш -слои (VS переключатель) | Pushshift.io/roberta/wikitext-103/bst | 40 | Y (частично) | 43 | |
| Хэш -слои (против базы) | Pushshift.io/roberta/wikitext-103/bst | 2 | Y (частично) | 43 | |
| GSHARD | Пользовательский набор данных | 4 м | Y (только TPU) | 305 | |
| Быстрее | Вики текст | У | 22 | ||
| ST-MEA | C4 1.5t | 1 м | У | 26 | |
| Случайная маршрутизация | enwik8/bookcorpus | 128/256 | Под рассмотрением | Под рассмотрением | |
| Стробирование отсева | WMT/Web-50 | 435K | Не | 1/5 | |
| Базовые слои | Роберта Корпус и CC100 | У | 64/79 | ||
| Переключатель трансформатора | Большой C4 Corpus (180b) | 1 м | У | 525 | |
| Эво Мо | WMT (MT)/OpenWebText (LM MLM)/Wikipedia/OpenWebText | N/a | У | 11 | |
| Стабильный-Мо (LM) | Роберта и CC100 | 512K | У | 9 | |
| Стабильный-Мо (МТ) | Wmt | 512K | У | 9 | |
| Возмутительно большой Moes (LM) | 1b Word Clarkmark | ? | N (но был воссоздан) | 1117/1050 | Использует слой MOE между двумя LSTM. 8.4/37,8/272,9/1079/4303M. |
| Возмутительно большой Moes (LM-Large) | 100 миллиардов Google Corpus | 2,5 м | "" | "" | Установите до 1 миллиарда параметров на GPU. Тесты 64 и 128 графических тестов предназначены для двух последних экспертных моделей |
| Возмутительно большой Moes (MT) | Wmt | ? | "" | "" | Установите до 1 миллиарда параметров на GPU. |
| Возмутительно большой Moes (MTMT) | Корр | 1 м (16 тыс. На графический процессор) | "" | "" | |
| Nllb | Flores-200 (eval)/Curated Data/Paracrawl и Commoncrawl (Monolingual) | 16k | У | 26/49 | Каждый четвертый слой - это слой MOE. |
| Эффективная память nllb | Flores-200 (eval) | 16k | Не | 0 | Выпуск некоторых результатов, таких как эксперты, обрезанные и т. Д. Каждое четвертое место FFN Sublayer заменяется слоем MOE. NLLB-200 требуется 4x32 V100s для запуска. Эта модель на 80% обрезка. |
| Гламур | Гламурный набор данных веб -страниц/Википедия/Форумы и т. Д. | 1 м | Не | 59/84 | |
| Amazon Sagemaker | |||||
| M6-T Sparse Experts |