mixture of experts
1.0.0
이 저장소에는 Pytorch를위한 엄청나게 큰 신경 네트워크에 설명 된 드문 게이트 된 MOE 층의 Pytorch 재 구현이 포함되어 있습니다.
from moe import MoE
import torch
# instantiate the MoE layer
model = MoE ( input_size = 1000 , output_size = 20 , num_experts = 10 , hidden_size = 66 , k = 4 , noisy_gating = True )
X = torch . rand ( 32 , 1000 )
#train
model . train ()
# forward
y_hat , aux_loss = model ( X )
# evaluation
model . eval ()
y_hat , aux_loss = model ( X )요구 사항을 설치하려면 실행 :
pip install -r requirements.py
파일 example.py 에는 더미 입력 및 대상으로 MOE 층을 훈련하고 평가하는 방법을 보여주는 최소한의 작업 예제가 포함되어 있습니다. 예제를 실행하려면 :
python example.py
cifar10_example.py 파일에는 CIFAR 10 데이터 세트의 최소 작업 예제가 포함되어 있습니다. 임의의 하이퍼 파라미터로 39%의 정확도를 달성하고 완전히 수렴되지 않았습니다. 예제를 실행하려면 :
python cifar10_example.py
FASTMOE : 빠른 혼합 운동 교육 시스템이 구현은 단일 GPU 교육을위한 참조 Pytorch 구현으로 사용되었습니다.
이 코드는 여기에서 찾을 수있는 Tensorflow 구현을 기반으로합니다.
@misc{rau2019moe,
title={Sparsely-gated Mixture-of-Experts PyTorch implementation},
author={Rau, David},
journal={https://github.com/davidmrau/mixture-of-experts},
year={2019}
}