Скачать Count Sketch Optimizers - Count Sketch Optimizers Скачать исходный код

Count Sketch Optimizers

AI Исходный код

1.0.0

Скачать

Оптимизаторы графы

Сжатие градиентных оптимизаторов через счетные счеты

Бумага ICML 2019 Райана Спринг, Анастасиос Кириллидис, Виджай Мохан, Аншумали Шривастава

Берт-широкий обучение результатов

Обученные с помощью контрольно-пропускной точки активации и смешанной точности (FP16) на серверах NVIDIA V100 DGX-1

Берт-широкий	Адам	Эскиз графа -мин (CMS) - RMSProp
Время (дни)	5.32	5.52
Размер (MB)	7 097	5,133
Тест недоумения	4.04	4.18

Скорость конвергенции - Адам, CMS -RMSPROP Более быстрая скорость конвергенции с большим размером партии - CMS -RMSPROP

Инструкции

Установить требования
Добавить папку оптимизаторов в $ pythonpath

Требования

факел
TOCHVISION
купе
Pynvrtc

Примеры

ImageNet - Resnet -18
LM1B - трансформатор / LSTM
Wikitext -2 - LSTM

Плотная поддержка слоя

Мы поддерживаем сжатие плотных слоев нейронной сети без обновления разреженности. Во время обучения мы обновляем вспомогательные переменные и выполняем обновление градиента для каждого параметра в одном плавном ядре CUDA. Плотное ядро эквивалентно разреженному ядру. Основное отличие заключается в том, что мы явно избегаем генерирования вспомогательных переменных для плотных слоев в глобальной памяти. Вместо этого мы получаем доступ к ним внутри общей памяти о многопроцессоре потокового графического процессора. Без этой ключевой функции наш подход не сохранит память GPU для плотных слоев. В разреженном случае мы предполагаем, что обновления ненулевых градиентов значительно меньше вспомогательной переменной. (См. Dense_exp_cms.py для получения более подробной информации)