moe paper models下載 - moe paper models源代碼下載

moe paper models

Ai源碼

1.0.0

下載

作者	標題
亞當·G	郵政紙實驗設置

專家（MOE）紙實驗設置的混合物

該存儲庫用作著名的紙質實驗設置的集合。請注意，對於某些指標，這些可能是不完整或錯誤的，如果可以隨意提出問題，我會盡快對其進行修改。

在這些論文中檢查的主要任務：

機器翻譯（MT） - 主要在WMT（英語至法語）和BLEU分數等數據集上進行測試
蒙版語言建模（MLM）
語言建模（LM）

紙張實施的模型尺寸


紙	年	專家規模	總尺寸	num exp（每一層）	數層
巨型	11/2022	N/A。	839m-13b	64	3/6/12
DeepSpeed-Moe	01/2022	1.3/2.4/8/24/47b	52/107/349/1064.9/2024b	128	24/16/30/40/58
DeepSpeed-Moe	01/2022	1.3/2.4/8/24/47b	52/107/349/1064.9/2024b	128	24/16/30/40/58
專家選擇路由	02/2022	0.145/9.8b	1.9/143b	64	16
任務級的萌	09/2022	4096 FFN尺寸	533m/13b	32/128	11
哈希層（vs開關）	06/2021	4096 FFN尺寸	751m/852m/1.28b	64/16/128	1/5/1
哈希層（vs基礎）	06/2021	100m/33m	4.5b	32/3x32	1/3
GSHARD	06/2020	8196 FNN尺寸	37/150/600B	128/512/2048	12/36（對於每個數字）
Fastermoe	03/2022	1024/2048/4096 FFN尺寸	13.1/13.7/27.4b	16/64/16	12/12/24
St-Moe	02/2022	2816/20480	4.1/269b	32/64	6/6（每4）
隨機路由	09/2022		20m-200m	8/16	4/12
門控輟學	05/2022		5.6/10b	128/64	12/24
基層	03/2021	135/335/911m	1.5/44/117B	128？	1（基礎層）
開關變壓器	01/2021	768/1024/4096 FFN尺寸	7/26/395/1571b	128/128/64/2048	12/24/24/15（其他）
Evo Moe	12/2021	335m（MT/MLM/LM）	1.5（MT）/1.8（MLM LM）	4（MT）/16（MLM LM）	6（MT）/12（MLM LM）
穩定的莫克（LM）	04/2022	3072/4096 FFN尺寸	454m/3.22b	32/64	1/1
穩定的莫克（MT）	04/2022	2048 FFN尺寸	480m	32	2
巨大的穆斯（LM）	01/2017	1M（DIMS = 1024x512）	0.8/0.9/1.1/1.1/1.9/5.1	4/32/256/256/1024/4096	1
大穆斯（LM-LARGE）令人毛骨悚然	01/2017	1m	0.1/0.4/1.2/4.4/17.3/68.9/137.7	32＆256/1024/4096/16384/65536/131072-H	1
大穆斯（MT）	01/2017	2m	8.7b	32＆512/2048-H	2（在堆疊的編碼器和解碼器之間）
大穆斯（MTMT）	01/2017	8192 FFN尺寸	8.7b	512	2
NLLB	07/2022	8192 FFN尺寸/33.6m	54.5b/51.6b專家規模	128	6個exp層
內存有效的NLLB	12/2022	8192 FFN尺寸/33.6m	〜1.32b假設修剪80％	每層〜288總體288	6個exp層
華麗	12/2021	8192＆16384＆32768 FFN尺寸	20/27/53＆105/143b＆1.2t	32/64/128＆256/64＆64	24＆32＆64（其他每一層）
亞馬遜射手製造商
M6-T稀疏專家	05/2021	1024x4096＆1024x21248	1.4＆10.8＆103.2＆1002.7b	32＆128＆512＆960（總數）	5＆10＆24＆24

=未經證實或暗示其實驗的值。

基線和硬件的實驗設置

對於硬件要求，斜杠表示不同的配置。


紙	基線	硬件要求	記憶	top-k	容量
巨型	變壓器基於GPT3-XL（46m至1.3b）	8x A100 80GB		1	1/1.5/2x
DeepSpeed-Moe	可擴展的萌	128x A100 80GB		2*	2
專家選擇路由	GSHARD	512X TPU V4		N/A*	2*
任務級的萌	變壓器基礎（142m）/令牌/句子MOE	32X TPU V3		1
哈希層（vs開關）	變壓器基準（225/755m）/開關變壓器	8 32GB V100		*1
哈希層（vs基礎）	基層	16 32GB V100		*1
GSHARD	GPIPE/BASE變壓器	128/512/2048x TPU V3		2	2
Fastermoe	FastMoe/ gshard/ base	16/64x V100		2
St-Moe	密集l/ t5 xxl/ switch xxl	TPU		2	1.25蓋因子
隨機路由	雷神/變壓器密集	8x V100		1/2/4/8/16
門控輟學	可擴展的萌	V100/A100的16/64x		1	1/2（火車/測試）
基層	SMOE和SWITCH（52B）	8/32/128 32GB V100
開關變壓器	T5（223m鹼/ 739m大）	32X TPUV3		1
Evo Moe	開關/哈希層/base/stablemoe	8x A100		1
穩定的莫克（LM）	切換變壓器/基礎層/哈希層/變壓器基礎	X V100 GPU		1	1（從開關）
穩定的莫克（MT）	變壓器基和大/基層/哈希層/開關	X V100 GPU		1	1
巨大的穆斯（LM）	Moe-1寬與深/ 4XLSTM-512/ LSTM-2048和8192	4-16X K40S		Moe-H 4或2
大穆斯（LM-LARGE）令人毛骨悚然	Moe-1寬與深/ 4XLSTM-512/ LSTM-2048和8192	32/64/128X K40S		Moe-H 4或2
大穆斯（MT）	GNMT/PBMT/LSTM-6/DEEPATT	64 K40		Moe-H 4或2
大穆斯（MTMT）	gnmt-mono/gnmt-multi	64 K40		2
NLLB			101.6GIB/每個GPU持有一個專家
內存有效的NLLB	3.3b NLLB密集/NLLB-200 54.5b	1/4x V100 GPU
華麗	開關/gpt-3/kg-fid/megatron-nlg	1024x TPU V4（最大）	對於最大的專家來說，不適合單個TPU	2	2*
亞馬遜射手製造商
M6-T稀疏專家	他們自己與不同的TOP-K進行比較	480 V100 32GB

數據集，引用和開源

在Google Scholar和語義學者中獲取最高的引文數


紙	數據集	批量大小	開源	引用	筆記
巨型	堆	512	n	0
DeepSpeed-Moe	lambada/piqa/booolq/race-h/trivia-qa/webqs	256/512	y	15/36
專家選擇路由	華麗	N/A。	n	6
任務級的萌	WMT	N/A。	n	13
哈希層（vs開關）	pushshift.io/roberta/wikitext-103/bst	40	y（部分）	43
哈希層（vs基礎）	pushshift.io/roberta/wikitext-103/bst	2	y（部分）	43
GSHARD	自定義數據集	4m	y（僅TPU）	305
Fastermoe	Wiki文字		y	22
St-Moe	C4 1.5T	1m	y	26
隨機路由	enwik8/bookcorpus	128/256	審查	審查
門控輟學	WMT/Web-50	435k	n	1/5
基層	羅伯塔語料庫和CC100		y	64/79
開關變壓器	大型C4語料庫（180b）	1m	y	525
Evo Moe	WMT（MT）/OpenWebText（LM MLM）/Wikipedia/OpenWebText	N/A。	y	11
穩定的莫克（LM）	羅伯塔和CC100	512k	y	9
穩定的莫克（MT）	WMT	512k	y	9
巨大的穆斯（LM）	1B字基準	？	n（但已重新創建）	1117/1050	在兩個LSTM之間使用MUE層。 8.4/37.8/272.9/1079/4303m。
大穆斯（LM-LARGE）令人毛骨悚然	1000億Google語料庫	2.5m	“”	“”	每個GPU最多可容納10億個參數。 64和128 GPU測試用於最後兩個專家模型
大穆斯（MT）	WMT	？	“”	“”	每個GPU最多可容納10億個參數。
大穆斯（MTMT）	corr	1M（每GPU 16K）	“”	“”
NLLB	Flores-200（eval）/蓋策劃的數據/拼雙壁和普通爬行（單語）	16K	y	26/49	每第四層是一個萌層。
內存有效的NLLB	Flores-200（eval）	16K	n	0	釋放一些結果，例如專家修剪等，每個第四個FFN Sublayer都被MOE層取代。 NLLB-200需要運行4x32 V100。這是80％的修剪模型。
華麗	Glam Wustom的網頁/Wikipedia/論壇等自定義數據集	1m	n	59/84
亞馬遜射手製造商
M6-T稀疏專家

展開

附加信息

版本 1.0.0
類型 Ai源碼
更新時間 2025-09-18
大小 4.21KB
來自於 Github

相關應用

IGCSE past paper downloader

2024-11-12
llama models

2024-11-10
models

2024-11-03
pytorch image models

2024-11-03
Paper Battle正版

2024-05-14
Paper Cut Mansion遊戲免費版

2022-10-31

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
ML stack

Ai源碼

1.0.0
awesome free chatgpt

Ai源碼

1.0.0
pywin_contextmenu

Ai源碼

Version update
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部