Labml.AI深度學習論文實施
這是神經網絡和相關算法的簡單Pytorch實現的集合。這些實現記錄了解釋,
該網站將其作為並排格式的註釋提供。我們相信這些將幫助您更好地理解這些算法。
我們幾乎每週都會積極維護此倉庫並添加新的實現。用於更新。
紙張實施
變壓器
- 多頭注意
- 變壓器構建塊
- 變壓器XL
- 旋轉位置嵌入
- 線性偏見(alibi)的注意
- 復古的
- 壓縮變壓器
- GPT體系結構
- GLU變體
- KNN-LM:通過記憶的概括
- 反饋變壓器
- 開關變壓器
- 快速重量變壓器
- fnet
- 無注意變壓器
- 蒙版語言模型
- MLP混合:視覺的全MLP體系結構
- 注意MLP(GMLP)
- 視覺變壓器(VIT)
- 底漆EZ
- 滴漏
低級適應(Lora)
Eleuther gpt-neox
- 生成48GB GPU
- 兩個48GB GPU上的芬太納
- llm.int8()
擴散模型
- 降級擴散概率模型(DDPM)
- 剝離擴散隱式模型(DDIM)
- 潛在擴散模型
- 穩定的擴散
生成對抗網絡
- 原始甘
- 帶有深度卷積網絡的gan
- 循環
- Wasserstein Gan
- Wasserstein gan受到坡度罰款
- Stylegan 2
經常性高速公路網絡
LSTM
HyperNetworks -HyperLSTM
重新連接
Convmixer
膠囊網絡
U-net
草圖RNN
圖神經網絡
- 圖表網絡(GAT)
- Graph Coadisnect網絡V2(GATV2)
反事實遺憾最小化(CFR)
用不完整的信息解決遊戲,例如使用CFR撲克。
強化學習
- 近端策略優化和廣義優勢估計
- 帶有決鬥網絡,優先重播和雙Q網絡的深Q網絡。
優化器
- 亞當
- Amsgrad
- 熱身的亞當優化器
- NOAM優化器
- 整流的Adam優化器
- Anbelief Optimizer
- Sophia-G Optimizer
歸一化層
- 批量歸一化
- 層歸一化
- 實例歸一化
- 組歸一化
- 體重標準化
- 批量通道的歸一化
- 深處
蒸餾
自適應計算
不確定
啟用設定
Langauge模型採樣技術
可擴展的培訓/推理
安裝