พื้นที่เก็บข้อมูลนี้มีการใช้ pytorch implementation ของชั้น Moe ที่มีช่องว่างที่อธิบายไว้ในกระดาษเครือข่ายประสาทขนาดใหญ่อย่างอุกอาจสำหรับ pytorch
from moe import MoE
import torch
# instantiate the MoE layer
model = MoE ( input_size = 1000 , output_size = 20 , num_experts = 10 , hidden_size = 66 , k = 4 , noisy_gating = True )
X = torch . rand ( 32 , 1000 )
#train
model . train ()
# forward
y_hat , aux_loss = model ( X )
# evaluation
model . eval ()
y_hat , aux_loss = model ( X )ในการติดตั้งข้อกำหนดการรัน:
pip install -r requirements.py
ตัวอย่างไฟล์ example.py มีตัวอย่างการทำงานน้อยที่สุดแสดงวิธีฝึกอบรมและประเมินเลเยอร์ MOE ด้วยอินพุตและเป้าหมายจำลอง เพื่อเรียกใช้ตัวอย่าง:
python example.py
ไฟล์ cifar10_example.py มีตัวอย่างการทำงานน้อยที่สุดของชุดข้อมูล CIFAR 10 มันบรรลุความแม่นยำ 39% ด้วยพารามิเตอร์ไฮเปอร์โดยพลการและไม่ได้บรรจบกันอย่างเต็มที่ เพื่อเรียกใช้ตัวอย่าง:
python cifar10_example.py
FastMoe: ระบบการฝึกอบรมผสมผสานอย่างรวดเร็วของ Expert การใช้งานนี้ใช้เป็นการอ้างอิง Pytorch อ้างอิงสำหรับการฝึกอบรม GPU แบบ Single-GPU
รหัสขึ้นอยู่กับการใช้งาน TensorFlow ที่สามารถพบได้ที่นี่
@misc{rau2019moe,
title={Sparsely-gated Mixture-of-Experts PyTorch implementation},
author={Rau, David},
journal={https://github.com/davidmrau/mixture-of-experts},
year={2019}
}