mixture of experts
1.0.0
يحتوي هذا المستودع على إعادة تنفيذ Pytorch لطبقة Moe ذات البوابات المتناثرة الموصوفة في الشبكات العصبية الكبيرة بشكل شنيع لبيتورش.
from moe import MoE
import torch
# instantiate the MoE layer
model = MoE ( input_size = 1000 , output_size = 20 , num_experts = 10 , hidden_size = 66 , k = 4 , noisy_gating = True )
X = torch . rand ( 32 , 1000 )
#train
model . train ()
# forward
y_hat , aux_loss = model ( X )
# evaluation
model . eval ()
y_hat , aux_loss = model ( X )لتثبيت المتطلبات تشغيل:
pip install -r requirements.py
يحتوي File example.py على الحد الأدنى من مثال العمل يوضح كيفية تدريب وتقييم طبقة MOE مع المدخلات والأهداف الوهمية. لتشغيل المثال:
python example.py
يحتوي ملف cifar10_example.py على مثال عمل بسيط لمجموعة بيانات CIFAR 10. إنه يحقق دقة بنسبة 39 ٪ مع المعلمات المفرطة التعسفية ولا تتقارب بالكامل. لتشغيل المثال:
python cifar10_example.py
FASTMOE: نظام تدريب سريع للمزيج من الخبرة ، تم استخدام هذا التنفيذ كتطبيق PYTORCH المرجعي للتدريب على GPU.
يعتمد الرمز على تطبيق TensorFlow الذي يمكن العثور عليه هنا.
@misc{rau2019moe,
title={Sparsely-gated Mixture-of-Experts PyTorch implementation},
author={Rau, David},
journal={https://github.com/davidmrau/mixture-of-experts},
year={2019}
}