تنزيل pytorch_image_classification - pytorch_image

تصنيف صورة Pytorch

يتم تنفيذ الأوراق التالية باستخدام Pytorch.

Resnet (1512.03385)
Resnet-preact (1603.05027)
WRN (1605.07146)
Densenet (1608.06993 ، 2001.02394)
Pyramidnet (1610.02915)
RESNEXT (1611.05431)
Shake-Shake (1705.07485)
لارس (1708.03888 ، 1801.03137)
قطع (1708.04552)
محو عشوائي (1708.04896)
سينيت (1709.01507)
mixup (1710.09412)
Cutout مزدوج (1802.07426)
ريكاب (1811.09030)
Cutmix (1905.04899)

متطلبات

Ubuntu (يتم اختباره فقط على Ubuntu ، لذلك قد لا يعمل على Windows.)
بيثون> = 3.7
Pytorch> = 1.4.0
Torchvision
Nvidia Apex

pip install -r requirements.txt

الاستخدام

python train.py --config configs/cifar/resnet_preact.yaml

النتائج على CIFAR-10

النتائج باستخدام نفس الإعدادات تقريبًا مثل الأوراق

نموذج	خطأ اختبار (متوسط 3 أشواط)	اختبار خطأ (في الورق)	وقت التدريب
يشبه VGG (العمق 15 ، ث/ مليار ، القناة 64)	7.29	ن/أ	1H20M
RESNET-110	6.52	6.43 (أفضل) ، 6.61 +/- 0.16	3H06M
RESNET-PREACT-110	6.47	6.37 (متوسط 5 أشواط)	3H05M
RESNET-PEACT-164 عنق الزجاجة	5.90	5.46 (متوسط 5 أشواط)	4H01M
RESNET-PEACT-1001 عنق الزجاجة		4.62 (متوسط 5 أشواط) ، 4.69 +/- 0.20
WRN-28-10	4.03	4.00 (متوسط 5 أشواط)	16H10M
WRN-28-10 ث/ التسرب		3.89 (متوسط 5 أشواط)
Densenet-100 (K = 12)	3.87 (1 تشغيل)	4.10 (1 تشغيل)	24H28M*
Densenet-100 (K = 24)		3.74 (1 تشغيل)
Densenet-BC-100 (K = 12)	4.69	4.51 (1 تشغيل)	15H20M
Densenet-BC-250 (K = 24)		3.62 (1 تشغيل)
Densenet-BC-190 (K = 40)		3.46 (1 تشغيل)
Pyramidnet-110 (ألفا = 84)	4.40	4.26 +/- 0.23	11h40m
Pyramidnet-110 (ألفا = 270)	3.92 (1 تشغيل)	3.73 +/- 0.04	24H12M*
Pyramidnet-164 عنق الزجاجة (ألفا = 270)	3.44 (1 تشغيل)	3.48 +/- 0.20	32H37M*
Pyramidnet-272 عنق الزجاجة (ألفا = 200)		3.31 +/- 0.08
Resnext-29 4x64d	3.89	~ 3.75 (من الشكل 7)	31h17m
Resnext-29 8x64d	3.97 (1 تشغيل)	3.65 (متوسط 10 أشواط)	42H50M*
Resnext-29 16x64d		3.58 (متوسط 10 أشواط)
Shake-Shake-26 2x32d (SSI)	3.68	3.55 (متوسط 3 أشواط)	33h49m
Shake-Shake-26 2x64D (SSI)	2.88 (1 تشغيل)	2.98 (متوسط 3 أشواط)	78H48M
Shake-Shake-26 2x96D (SSI)	2.90 (1 تشغيل)	2.86 (متوسط 5 أشواط)	101H32M*

ملحوظات

الاختلافات مع الأوراق في إعدادات التدريب:
- مدرب WRN-28-10 مع حجم الدُفعة 64 (128 في الورق).
- Densenet-BC-100 (K = 12) مع حجم الدُفعة 32 ومعدل التعلم الأولي 0.05 (حجم الدفعة 64 ومعدل التعلم الأولي 0.1 في الورق).
- RESNEXT-29 4x64D مع وحدة معالجة الرسومات واحدة وحجم الدُفعة 32 ومعدل التعلم الأولي 0.025 (8 وحدات معالجة الرسومات وحجم الدُفعة 128 ومعدل التعلم الأولي 0.1 في الورق).
- نماذج Shake Shake المدربة مع وحدة معالجة الرسومات واحدة (وحدات معالجة الرسومات 2 في الورق).
- Shake Shake Shake 26 2x64D (SSI) مع حجم الدُفعة 64 ، ومعدل التعلم الأولي 0.1.
أخطاء الاختبار المذكورة أعلاه هي تلك الموجودة في العصر الأخير.
يتم إجراء تجارب مع تشغيل واحد فقط على جهاز كمبيوتر مختلف من تلك المستخدمة في التجارب التي تحتوي على 3 أشواط.
تم استخدام Geforce GTX 980 في هذه التجارب.

تشبه VGG

python train.py --config configs/cifar/vgg.yaml

Resnet

python train.py --config configs/cifar/resnet.yaml

Resnet-preact

python train.py --config configs/cifar/resnet_preact.yaml 
    train.output_dir experiments/resnet_preact_basic_110/exp00

python train.py --config configs/cifar/resnet_preact.yaml 
    model.resnet_preact.depth 164 
    model.resnet_preact.block_type bottleneck 
    train.output_dir experiments/resnet_preact_bottleneck_164/exp00

WRN

python train.py --config configs/cifar/wrn.yaml

Densenet

python train.py --config configs/cifar/densenet.yaml

الهرم

python train.py --config configs/cifar/pyramidnet.yaml 
    model.pyramidnet.depth 110 
    model.pyramidnet.block_type basic 
    model.pyramidnet.alpha 84 
    train.output_dir experiments/pyramidnet_basic_110_84/exp00

python train.py --config configs/cifar/pyramidnet.yaml 
    model.pyramidnet.depth 110 
    model.pyramidnet.block_type basic 
    model.pyramidnet.alpha 270 
    train.output_dir experiments/pyramidnet_basic_110_270/exp00

RESNEXT

python train.py --config configs/cifar/resnext.yaml 
    model.resnext.cardinality 4 
    train.batch_size 32 
    train.base_lr 0.025 
    train.output_dir experiments/resnext_29_4x64d/exp00

python train.py --config configs/cifar/resnext.yaml 
    train.batch_size 64 
    train.base_lr 0.05 
    train.output_dir experiments/resnext_29_8x64d/exp00

هز

python train.py --config configs/cifar/shake_shake.yaml 
    model.shake_shake.initial_channels 32 
    train.output_dir experiments/shake_shake_26_2x32d_SSI/exp00

python train.py --config configs/cifar/shake_shake.yaml 
    model.shake_shake.initial_channels 64 
    train.batch_size 64 
    train.base_lr 0.1 
    train.output_dir experiments/shake_shake_26_2x64d_SSI/exp00

python train.py --config configs/cifar/shake_shake.yaml 
    model.shake_shake.initial_channels 96 
    train.batch_size 64 
    train.base_lr 0.1 
    train.output_dir experiments/shake_shake_26_2x96d_SSI/exp00

نتائج

نموذج	اختبار خطأ (1 تشغيل)	# من الحقبة	وقت التدريب
Resnet-Preact-20 ، عامل الاتساع 4	4.91	200	1H26M
Resnet-Preact-20 ، عامل الاتساع 4	4.01	400	2H53M
Resnet-Preact-20 ، عامل الاتساع 4	3.99	1800	12H53M
RESNET-PEACT-20 ، عامل الاتساع 4 ، قطع 16	3.71	200	1H26M
RESNET-PEACT-20 ، عامل الاتساع 4 ، قطع 16	3.46	400	2H53M
RESNET-PEACT-20 ، عامل الاتساع 4 ، قطع 16	3.76	1800	12H53M
RESNET-PEACT-20 ، عامل الاتساع 4 ، RICAP (بيتا = 0.3)	3.45	200	1H26M
RESNET-PEACT-20 ، عامل الاتساع 4 ، RICAP (بيتا = 0.3)	3.11	400	2H53M
RESNET-PEACT-20 ، عامل الاتساع 4 ، RICAP (بيتا = 0.3)	3.15	1800	12H53M

نموذج	اختبار خطأ (1 تشغيل)	# من الحقبة	وقت التدريب
WRN-28-10 ، قطع 16	3.19	200	6H35M
WRN-28-10 ، mixup (ألفا = 1)	3.32	200	6H35M
WRN-28-10 ، RICAP (بيتا = 0.3)	2.83	200	6H35M
WRN-28-10 ، Dual Cutout (ألفا = 0.1)	2.87	200	12H42M
WRN-28-10 ، قطع 16	3.07	400	13H10M
WRN-28-10 ، mixup (ألفا = 1)	3.04	400	13H08M
WRN-28-10 ، RICAP (بيتا = 0.3)	2.71	400	13H08M
WRN-28-10 ، Dual Cutout (ألفا = 0.1)	2.76	400	25H20M
Shake-Shake-26 2x64D ، Cutout 16	2.64	1800	78H55M*
Shake-shake-26 2x64d ، mixup (ألفا = 1)	2.63	1800	35H56M
Shake-Shake-26 2x64D ، Ricap (بيتا = 0.3)	2.29	1800	35H10M
Shake-Shake-26 2x64D ، Dual Cutout (ألفا = 0.1)	2.64	1800	68H34M
Shake-Shake-26 2x96D ، Cutout 16	2.50	1800	60H20M
Shake-shake-26 2x96d ، mixup (ألفا = 1)	2.36	1800	60H20M
Shake-Shake-26 2x96D ، Ricap (بيتا = 0.3)	2.10	1800	60H20M
Shake-shake-26 2x96d ، dual cutout (ألفا = 0.1)	2.41	1800	113H09M
Shake-shake-26 2x128d ، cutout 16	2.58	1800	85h04m
Shake-Shake-26 2x128d ، Ricap (بيتا = 0.3)	1.97	1800	85H06M

ملحوظة

النتائج التي تم الإبلاغ عنها في الجدول هي أخطاء الاختبار في الفحوصات الأخيرة.
يتم تدريب جميع النماذج باستخدام جيب التمام الصلب مع معدل التعلم الأولي 0.2.
تم استخدام GeForce GTX 1080 Ti في هذه التجارب ، باستثناء تلك التي تحتوي على *، والتي يتم القيام بها باستخدام GeForce GTX 980.

python train.py --config configs/cifar/wrn.yaml 
    train.batch_size 64 
    train.output_dir experiments/wrn_28_10_cutout16 
    scheduler.type cosine 
    augmentation.use_cutout True

python train.py --config configs/cifar/shake_shake.yaml 
    model.shake_shake.initial_channels 64 
    train.batch_size 64 
    train.base_lr 0.1 
    scheduler.epochs 300 
    train.output_dir experiments/shake_shake_26_2x64d_SSI_cutout16/exp00 
    augmentation.use_cutout True

النتائج باستخدام متعددة GPU

نموذج	حجم الدُفعة	#gpus	اختبار خطأ (1 تشغيل)	# من الحقبة	وقت التدريب*
WRN-28-10 ، RICAP (بيتا = 0.3)	512	1	2.63	200	3H41M
WRN-28-10 ، RICAP (بيتا = 0.3)	256	2	2.71	200	2H14M
WRN-28-10 ، RICAP (بيتا = 0.3)	128	4	2.89	200	1H01M
WRN-28-10 ، RICAP (بيتا = 0.3)	64	8	2.75	200	34m

ملحوظة

تم استخدام Tesla V100 في هذه التجارب.

باستخدام 1 وحدة معالجة الرسومات

python train.py --config configs/cifar/wrn.yaml 
    train.base_lr 0.2 
    train.batch_size 512 
    scheduler.epochs 200 
    scheduler.type cosine 
    train.output_dir experiments/wrn_28_10_ricap_1gpu/exp00 
    augmentation.use_ricap True 
    augmentation.use_random_crop False

باستخدام 2 وحدات معالجة الرسومات

python -m torch.distributed.launch --nproc_per_node 2 
    train.py --config configs/cifar/wrn.yaml 
    train.distributed True 
    train.base_lr 0.2 
    train.batch_size 256 
    scheduler.epochs 200 
    scheduler.type cosine 
    train.output_dir experiments/wrn_28_10_ricap_2gpus/exp00 
    augmentation.use_ricap True 
    augmentation.use_random_crop False

باستخدام 4 وحدات معالجة الرسومات

python -m torch.distributed.launch --nproc_per_node 4 
    train.py --config configs/cifar/wrn.yaml 
    train.distributed True 
    train.base_lr 0.2 
    train.batch_size 128 
    scheduler.epochs 200 
    scheduler.type cosine 
    train.output_dir experiments/wrn_28_10_ricap_4gpus/exp00 
    augmentation.use_ricap True 
    augmentation.use_random_crop False

باستخدام 8 وحدات معالجة الرسومات

python -m torch.distributed.launch --nproc_per_node 8 
    train.py --config configs/cifar/wrn.yaml 
    train.distributed True 
    train.base_lr 0.2 
    train.batch_size 64 
    scheduler.epochs 200 
    scheduler.type cosine 
    train.output_dir experiments/wrn_28_10_ricap_8gpus/exp00 
    augmentation.use_ricap True 
    augmentation.use_random_crop False

نتائج على الموضة

نموذج	اختبار خطأ (1 تشغيل)	# من الحقبة	وقت التدريب
RESNET-PEACT-20 ، عامل الاتساع 4 ، قطع 12	4.17	200	1H32M
RESNET-PEACT-20 ، عامل الاتساع 4 ، قطع 14	4.11	200	1H32M
RESNET-PEACT-50 ، Cutout 12	4.45	200	57 م
RESNET-PEACT-50 ، Cutout 14	4.38	200	57 م
RESNET-PEACT-50 ، عامل الاتساع 4 ، قطع 12	4.07	200	3H37M
RESNET-PEACT-50 ، عامل الاتساع 4 ، قطع 14	4.13	200	3H39M
Shake-Shake-26 2x32d (SSI) ، قطع 12	4.08	400	3H41M
Shake-Shake-26 2x32d (SSI) ، قطع 14	4.05	400	3H39M
Shake-Shake-26 2x96D (SSI) ، Cutout 12	3.72	400	13H46M
Shake-Shake-26 2x96D (SSI) ، قطع 14	3.85	400	13h39m
Shake-Shake-26 2x96D (SSI) ، Cutout 12	3.65	800	26H42M
Shake-Shake-26 2x96D (SSI) ، قطع 14	3.60	800	26H42M

نموذج	خطأ اختبار (متوسط 3 أشواط)	# من الحقبة	وقت التدريب
RESNET-PEACT-20	5.04	200	26 م
RESNET-PEACT-20 ، Cutout 6	4.84	200	26 م
RESNET-PEACT-20 ، Cutout 8	4.64	200	26 م
RESNET-PEACT-20 ، Cutout 10	4.74	200	26 م
RESNET-PEACT-20 ، Cutout 12	4.68	200	26 م
RESNET-PEACT-20 ، Cutout 14	4.64	200	26 م
RESNET-PEACT-20 ، Cutout 16	4.49	200	26 م
RESNET-PEACT-20 ، عشوائي	4.61	200	26 م
RESNET-PEACT-20 ، MIXUP	4.92	200	26 م
RESNET-PEACT-20 ، MIXUP	4.64	400	52 م

ملحوظة

النتائج التي تم الإبلاغ عنها في الجداول هي أخطاء الاختبار في الحقبة الأخيرة.
يتم تدريب جميع النماذج باستخدام جيب التمام الصلب مع معدل التعلم الأولي 0.2.
يتم تطبيق زيادة البيانات التالية على بيانات التدريب:
- الصور مبطنة مع 4 بكسل على كل جانب ، ويتم اقتصاص بقع 28 × 28 بشكل عشوائي من الصور المبطنة.
- يتم قلب الصور بشكل عشوائي أفقيا.
تم استخدام Geforce GTX 1080 Ti في هذه التجارب.

نتائج على Mnist

نموذج	خطأ اختبار (متوسط 3 أشواط)	# من الحقبة	وقت التدريب
RESNET-PEACT-20	0.40	100	12 م
RESNET-PEACT-20 ، Cutout 6	0.32	100	12 م
RESNET-PEACT-20 ، Cutout 8	0.25	100	12 م
RESNET-PEACT-20 ، Cutout 10	0.27	100	12 م
RESNET-PEACT-20 ، Cutout 12	0.26	100	12 م
RESNET-PEACT-20 ، Cutout 14	0.26	100	12 م
RESNET-PEACT-20 ، Cutout 16	0.25	100	12 م
RESNET-PEACT-20 ، mixup (ألفا = 1)	0.40	100	12 م
RESNET-PEACT-20 ، mixup (ألفا = 0.5)	0.38	100	12 م
RESNET-PEACT-20 ، عامل الاتساع 4 ، قطع 14	0.26	100	45 م
RESNET-PEACT-50 ، Cutout 14	0.29	100	28 م
RESNET-PEACT-50 ، عامل الاتساع 4 ، قطع 14	0.25	100	1H50M
Shake-Shake-26 2x96D (SSI) ، قطع 14	0.24	100	3H22M

ملحوظة

النتائج التي تم الإبلاغ عنها في الجدول هي أخطاء الاختبار في الفحوصات الأخيرة.
يتم تدريب جميع النماذج باستخدام جيب التمام الصلب مع معدل التعلم الأولي 0.2.
تم استخدام Geforce GTX 1080 Ti في هذه التجارب.

نتائج على Kuzushiji-Mnist

نموذج	خطأ اختبار (متوسط 3 أشواط)	# من الحقبة	وقت التدريب
RESNET-PEACT-20 ، Cutout 14	0.82 (أفضل 0.67)	200	24m
RESNET-PEACT-20 ، عامل الاتساع 4 ، قطع 14	0.72 (أفضل 0.67)	200	1H30M
Pyramidnet-110-270 ، Cutout 14	0.72 (أفضل 0.70)	200	10H05M
Shake-Shake-26 2x96D (SSI) ، قطع 14	0.66 (أفضل 0.63)	200	6H46M

ملحوظة

النتائج التي تم الإبلاغ عنها في الجدول هي أخطاء الاختبار في الفحوصات الأخيرة.
يتم تدريب جميع النماذج باستخدام جيب التمام الصلب مع معدل التعلم الأولي 0.2.
تم استخدام Geforce GTX 1080 Ti في هذه التجارب.

التجارب

تجربة على الوحدات المتبقية وجدولة معدل التعلم وزيادة البيانات

في هذه التجربة ، يتم التحقيق في تأثيرات ما يلي على دقة التصنيف:

وحدات متبقية تشبه الهرم
جيب التمام الصلب معدل التعلم
انقطاع
محو عشوائي
خلط
تنشيط الاختصارات بعد الانخفاض

يتم تدريب RESNET-PEACT-56 على CIFAR-10 مع معدل التعلم الأولي 0.2 في هذه التجربة.

ملحوظة

أظهرت Pyramidnet Paper (1610.02915) أن إزالة RELU الأولى في الوحدات المتبقية وإضافة BN بعد آخر تلوينات في الوحدات المتبقية على حد سواء على تحسين دقة التصنيف.
أظهرت ورقة SGDR (1608.03983) أن تلبيد جيب التمام يحسن دقة التصنيف حتى دون إعادة التشغيل.

نتائج

الوحدات التي تشبه الهرم.
- قد يكون من الأفضل عدم تنشيط اختصارات بعد التخفيضات عند استخدام وحدات تشبه الهرم.
جيب التمام الصلب يحسن قليلاً من الدقة.
القطع ، عشوائية ، ومزيج كل شيء يعمل بشكل رائع.
- يحتاج الخلط إلى تدريب أطول.

نموذج	خطأ اختبار (متوسط 5 أشواط)	وقت التدريب
w/ 1st releu ، w/ o Last Bn ، preactivate اختصار بعد الانخفاض	6.45	95 دقيقة
W/ 1st relu ، w/ o Last Bn	6.47	95 دقيقة
w/o 1st relu ، w/o last bn	6.14	89 دقيقة
W/ 1st relu ، ث/ آخر مليار	6.43	104 دقيقة
w/ o 1st relu ، w/ last bn	5.85	98 دقيقة
w/ o 1st relu ، w/ last bn ، preactivate اختصار بعد الانخفاض	6.27	98 دقيقة
w/ o 1st relu ، w/ last bn ، جيب التمام الصلب	5.72	98 دقيقة
w/ o 1st relu ، w/ last bn ، cutout	4.96	98 دقيقة
w/ o 1st relu ، w/ last bn ، عشوائي	5.22	98 دقيقة
w/ o 1st relu ، w/ last bn ، mixup (300 epochs)	5.11	191 دقيقة

اختصار preactivate بعد الانخفاض

python train.py --config configs/cifar/resnet_preact.yaml 
    train.base_lr 0.2 
    model.resnet_preact.depth 56 
    model.resnet_preact.preact_stage ' [True, True, True] ' 
    model.resnet_preact.remove_first_relu False 
    model.resnet_preact.add_last_bn False 
    train.output_dir experiments/resnet_preact_after_downsampling/exp00

W/ 1st relu ، w/ o Last Bn

python train.py --config configs/cifar/resnet_preact.yaml 
    train.base_lr 0.2 
    model.resnet_preact.depth 56 
    model.resnet_preact.preact_stage ' [True, False, False] ' 
    model.resnet_preact.remove_first_relu False 
    model.resnet_preact.add_last_bn False 
    train.output_dir experiments/resnet_preact_w_relu_wo_bn/exp00

w/o 1st relu ، w/o last bn

python train.py --config configs/cifar/resnet_preact.yaml 
    train.base_lr 0.2 
    model.resnet_preact.depth 56 
    model.resnet_preact.preact_stage ' [True, False, False] ' 
    model.resnet_preact.remove_first_relu True 
    model.resnet_preact.add_last_bn False 
    train.output_dir experiments/resnet_preact_wo_relu_wo_bn/exp00

W/ 1st relu ، ث/ آخر مليار

python train.py --config configs/cifar/resnet_preact.yaml 
    train.base_lr 0.2 
    model.resnet_preact.depth 56 
    model.resnet_preact.preact_stage ' [True, False, False] ' 
    model.resnet_preact.remove_first_relu False 
    model.resnet_preact.add_last_bn True 
    train.output_dir experiments/resnet_preact_w_relu_w_bn/exp00

w/ o 1st relu ، w/ last bn

python train.py --config configs/cifar/resnet_preact.yaml 
    train.base_lr 0.2 
    model.resnet_preact.depth 56 
    model.resnet_preact.preact_stage ' [True, False, False] ' 
    model.resnet_preact.remove_first_relu True 
    model.resnet_preact.add_last_bn True 
    train.output_dir experiments/resnet_preact_wo_relu_w_bn/exp00

w/ o 1st relu ، w/ last bn ، preactivate اختصار بعد الانخفاض

python train.py --config configs/cifar/resnet_preact.yaml 
    train.base_lr 0.2 
    model.resnet_preact.depth 56 
    model.resnet_preact.preact_stage ' [True, True, True] ' 
    model.resnet_preact.remove_first_relu True 
    model.resnet_preact.add_last_bn True 
    train.output_dir experiments/resnet_preact_after_downsampling_wo_relu_w_bn/exp00

w/ o 1st relu ، w/ last bn ، جيب التمام الصلب

python train.py --config configs/cifar/resnet_preact.yaml 
    train.base_lr 0.2 
    model.resnet_preact.depth 56 
    model.resnet_preact.preact_stage ' [True, False, False] ' 
    model.resnet_preact.remove_first_relu True 
    model.resnet_preact.add_last_bn True 
    scheduler.type cosine 
    train.output_dir experiments/resnet_preact_wo_relu_w_bn_cosine/exp00

w/ o 1st relu ، w/ last bn ، cutout

python train.py --config configs/cifar/resnet_preact.yaml 
    train.base_lr 0.2 
    model.resnet_preact.depth 56 
    model.resnet_preact.preact_stage ' [True, False, False] ' 
    model.resnet_preact.remove_first_relu True 
    model.resnet_preact.add_last_bn True 
    augmentation.use_cutout True 
    train.output_dir experiments/resnet_preact_wo_relu_w_bn_cutout/exp00

w/ o 1st relu ، w/ last bn ، عشوائي

python train.py --config configs/cifar/resnet_preact.yaml 
    train.base_lr 0.2 
    model.resnet_preact.depth 56 
    model.resnet_preact.preact_stage ' [True, False, False] ' 
    model.resnet_preact.remove_first_relu True 
    model.resnet_preact.add_last_bn True 
    augmentation.use_random_erasing True 
    train.output_dir experiments/resnet_preact_wo_relu_w_bn_random_erasing/exp00

w/ o 1st relu ، w/ last bn ، mixup

python train.py --config configs/cifar/resnet_preact.yaml 
    train.base_lr 0.2 
    model.resnet_preact.depth 56 
    model.resnet_preact.preact_stage ' [True, False, False] ' 
    model.resnet_preact.remove_first_relu True 
    model.resnet_preact.add_last_bn True 
    augmentation.use_mixup True 
    train.output_dir experiments/resnet_preact_wo_relu_w_bn_mixup/exp00

تجارب على تجانس الملصقات ، والخلط ، والريكاب ، والضغط المزدوج

النتائج على CIFAR-10

نموذج	خطأ اختبار (متوسط 3 أشواط)	# من الحقبة	وقت التدريب
RESNET-PEACT-20	7.60	200	24m
RESNET-PEACT-20 ، تجانس الملصقات (Epsilon = 0.001)	7.51	200	25m
RESNET-PEACT-20 ، تجانس الملصقات (Epsilon = 0.01)	7.21	200	25m
RESNET-PEACT-20 ، تجانس التسمية (Epsilon = 0.1)	7.57	200	25m
RESNET-PEACT-20 ، mixup (ألفا = 1)	7.24	200	26 م
RESNET-PEACT-20 ، RICAP (بيتا = 0.3) ، ث/ محصول عشوائي	6.88	200	28 م
RESNET-PEACT-20 ، RICAP (بيتا = 0.3)	6.77	200	28 م
RESNET-PEACT-20 ، Dual Cutout 16 (ألفا = 0.1)	6.24	200	45 م
RESNET-PEACT-20	7.05	400	49 م
RESNET-PEACT-20 ، تجانس الملصقات (Epsilon = 0.001)	7.20	400	49 م
RESNET-PEACT-20 ، تجانس الملصقات (Epsilon = 0.01)	6.97	400	49 م
RESNET-PEACT-20 ، تجانس التسمية (Epsilon = 0.1)	7.16	400	49 م
RESNET-PEACT-20 ، mixup (ألفا = 1)	6.66	400	51 م
RESNET-PEACT-20 ، RICAP (بيتا = 0.3) ، ث/ محصول عشوائي	6.30	400	56 م
RESNET-PEACT-20 ، RICAP (بيتا = 0.3)	6.19	400	56 م
RESNET-PEACT-20 ، Dual Cutout 16 (ألفا = 0.1)	5.55	400	1H36M

ملحوظة

النتائج التي تم الإبلاغ عنها في الجدول هي أخطاء الاختبار في الفحوصات الأخيرة.
يتم تدريب جميع النماذج باستخدام جيب التمام الصلب مع معدل التعلم الأولي 0.2.
تم استخدام Geforce GTX 1080 Ti في هذه التجارب.

تجارب على حجم الدُفعة ومعدل التعلم

تتم التجارب التالية على مجموعة بيانات CIFAR-10 باستخدام GeForce 1080 Ti.
النتائج التي تم الإبلاغ عنها في الجدول هي أخطاء الاختبار في الفحوصات الأخيرة.

قاعدة التحجيم الخطي لمعدل التعلم

نموذج	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	اختبار خطأ (1 تشغيل)	وقت التدريب
RESNET-PEACT-20	4096	3.2	جيب التمام	200	10.57	22 م
RESNET-PEACT-20	2048	1.6	جيب التمام	200	8.87	21m
RESNET-PEACT-20	1024	0.8	جيب التمام	200	8.40	21m
RESNET-PEACT-20	512	0.4	جيب التمام	200	8.22	20m
RESNET-PEACT-20	256	0.2	جيب التمام	200	8.61	22 م
RESNET-PEACT-20	128	0.1	جيب التمام	200	8.09	24m
RESNET-PEACT-20	64	0.05	جيب التمام	200	8.22	28 م
RESNET-PEACT-20	32	0.025	جيب التمام	200	8.00	43 م
RESNET-PEACT-20	16	0.0125	جيب التمام	200	7.75	1H17M
RESNET-PEACT-20	8	0.006125	جيب التمام	200	7.70	2H32M

نموذج	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	اختبار خطأ (1 تشغيل)	وقت التدريب
RESNET-PEACT-20	4096	3.2	متعددة	200	28.97	22 م
RESNET-PEACT-20	2048	1.6	متعددة	200	9.07	21m
RESNET-PEACT-20	1024	0.8	متعددة	200	8.62	21m
RESNET-PEACT-20	512	0.4	متعددة	200	8.23	20m
RESNET-PEACT-20	256	0.2	متعددة	200	8.40	21m
RESNET-PEACT-20	128	0.1	متعددة	200	8.28	24m
RESNET-PEACT-20	64	0.05	متعددة	200	8.13	28 م
RESNET-PEACT-20	32	0.025	متعددة	200	7.58	43 م
RESNET-PEACT-20	16	0.0125	متعددة	200	7.93	1H18M
RESNET-PEACT-20	8	0.006125	متعددة	200	8.31	2H34M

التحجيم الخطي + التدريب لفترة أطول

نموذج	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	اختبار خطأ (1 تشغيل)	وقت التدريب
RESNET-PEACT-20	4096	3.2	جيب التمام	400	8.97	44 م
RESNET-PEACT-20	2048	1.6	جيب التمام	400	7.85	43 م
RESNET-PEACT-20	1024	0.8	جيب التمام	400	7.20	42 م
RESNET-PEACT-20	512	0.4	جيب التمام	400	7.83	40 م
RESNET-PEACT-20	256	0.2	جيب التمام	400	7.65	42 م
RESNET-PEACT-20	128	0.1	جيب التمام	400	7.09	47 م
RESNET-PEACT-20	64	0.05	جيب التمام	400	7.17	44 م
RESNET-PEACT-20	32	0.025	جيب التمام	400	7.24	2H11M
RESNET-PEACT-20	16	0.0125	جيب التمام	400	7.26	4H10M
RESNET-PEACT-20	8	0.006125	جيب التمام	400	7.02	7H53M

نموذج	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	اختبار خطأ (1 تشغيل)	وقت التدريب
RESNET-PEACT-20	4096	3.2	جيب التمام	800	8.14	1H29M
RESNET-PEACT-20	2048	1.6	جيب التمام	800	7.74	1H23M
RESNET-PEACT-20	1024	0.8	جيب التمام	800	7.15	1H31M
RESNET-PEACT-20	512	0.4	جيب التمام	800	7.27	1H25M
RESNET-PEACT-20	256	0.2	جيب التمام	800	7.22	1H26M
RESNET-PEACT-20	128	0.1	جيب التمام	800	6.68	1H35M
RESNET-PEACT-20	64	0.05	جيب التمام	800	7.18	2H20M
RESNET-PEACT-20	32	0.025	جيب التمام	800	7.03	4H16M
RESNET-PEACT-20	16	0.0125	جيب التمام	800	6.78	8H37M
RESNET-PEACT-20	8	0.006125	جيب التمام	800	6.89	16H47M

تأثير معدل التعلم الأولي

نموذج	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	اختبار خطأ (1 تشغيل)	وقت التدريب
RESNET-PEACT-20	4096	3.2	جيب التمام	200	10.57	22 م
RESNET-PEACT-20	4096	1.6	جيب التمام	200	10.32	22 م
RESNET-PEACT-20	4096	0.8	جيب التمام	200	10.71	22 م

نموذج	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	اختبار خطأ (1 تشغيل)	وقت التدريب
RESNET-PEACT-20	2048	3.2	جيب التمام	200	11.34	21m
RESNET-PEACT-20	2048	2.4	جيب التمام	200	8.69	21m
RESNET-PEACT-20	2048	2.0	جيب التمام	200	8.81	21m
RESNET-PEACT-20	2048	1.6	جيب التمام	200	8.73	22 م
RESNET-PEACT-20	2048	0.8	جيب التمام	200	9.62	21m

نموذج	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	اختبار خطأ (1 تشغيل)	وقت التدريب
RESNET-PEACT-20	1024	3.2	جيب التمام	200	9.12	21m
RESNET-PEACT-20	1024	2.4	جيب التمام	200	8.42	22 م
RESNET-PEACT-20	1024	2.0	جيب التمام	200	8.38	22 م
RESNET-PEACT-20	1024	1.6	جيب التمام	200	8.07	22 م
RESNET-PEACT-20	1024	1.2	جيب التمام	200	8.25	21m
RESNET-PEACT-20	1024	0.8	جيب التمام	200	8.08	22 م
RESNET-PEACT-20	1024	0.4	جيب التمام	200	8.49	22 م

نموذج	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	اختبار خطأ (1 تشغيل)	وقت التدريب
RESNET-PEACT-20	512	3.2	جيب التمام	200	8.51	21m
RESNET-PEACT-20	512	1.6	جيب التمام	200	7.73	20m
RESNET-PEACT-20	512	0.8	جيب التمام	200	7.73	21m
RESNET-PEACT-20	512	0.4	جيب التمام	200	8.22	20m

نموذج	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	اختبار خطأ (1 تشغيل)	وقت التدريب
RESNET-PEACT-20	256	3.2	جيب التمام	200	9.64	22 م
RESNET-PEACT-20	256	1.6	جيب التمام	200	8.32	22 م
RESNET-PEACT-20	256	0.8	جيب التمام	200	7.45	21m
RESNET-PEACT-20	256	0.4	جيب التمام	200	7.68	22 م
RESNET-PEACT-20	256	0.2	جيب التمام	200	8.61	22 م

نموذج	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	اختبار خطأ (1 تشغيل)	وقت التدريب
RESNET-PEACT-20	128	1.6	جيب التمام	200	9.03	24m
RESNET-PEACT-20	128	0.8	جيب التمام	200	7.54	24m
RESNET-PEACT-20	128	0.4	جيب التمام	200	7.28	24m
RESNET-PEACT-20	128	0.2	جيب التمام	200	7.96	24m
RESNET-PEACT-20	128	0.1	جيب التمام	200	8.09	24m
RESNET-PEACT-20	128	0.05	جيب التمام	200	8.81	24m
RESNET-PEACT-20	128	0.025	جيب التمام	200	10.07	24m

نموذج	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	اختبار خطأ (1 تشغيل)	وقت التدريب
RESNET-PEACT-20	64	0.4	جيب التمام	200	7.42	35m
RESNET-PEACT-20	64	0.2	جيب التمام	200	7.52	36 م
RESNET-PEACT-20	64	0.1	جيب التمام	200	7.78	37 م
RESNET-PEACT-20	64	0.05	جيب التمام	200	8.22	28 م

نموذج	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	اختبار خطأ (1 تشغيل)	وقت التدريب
RESNET-PEACT-20	32	0.2	جيب التمام	200	7.64	1H05M
RESNET-PEACT-20	32	0.1	جيب التمام	200	7.25	1H08M
RESNET-PEACT-20	32	0.05	جيب التمام	200	7.45	1H07M
RESNET-PEACT-20	32	0.025	جيب التمام	200	8.00	43 م

معدل تعلم جيد + تدريب أطول

نموذج	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	اختبار خطأ (1 تشغيل)	وقت التدريب
RESNET-PEACT-20	4096	1.6	جيب التمام	200	10.32	22 م
RESNET-PEACT-20	2048	1.6	جيب التمام	200	8.73	22 م
RESNET-PEACT-20	1024	1.6	جيب التمام	200	8.07	22 م
RESNET-PEACT-20	1024	0.8	جيب التمام	200	8.08	22 م
RESNET-PEACT-20	512	1.6	جيب التمام	200	7.73	20m
RESNET-PEACT-20	512	0.8	جيب التمام	200	7.73	21m
RESNET-PEACT-20	256	0.8	جيب التمام	200	7.45	21m
RESNET-PEACT-20	128	0.4	جيب التمام	200	7.28	24m
RESNET-PEACT-20	128	0.2	جيب التمام	200	7.96	24m
RESNET-PEACT-20	128	0.1	جيب التمام	200	8.09	24m

نموذج	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	اختبار خطأ (1 تشغيل)	وقت التدريب
RESNET-PEACT-20	4096	1.6	جيب التمام	800	8.36	1H33M
RESNET-PEACT-20	2048	1.6	جيب التمام	800	7.53	1H27M
RESNET-PEACT-20	1024	1.6	جيب التمام	800	7.30	1H30M
RESNET-PEACT-20	1024	0.8	جيب التمام	800	7.42	1H30M
RESNET-PEACT-20	512	1.6	جيب التمام	800	6.69	1H26M
RESNET-PEACT-20	512	0.8	جيب التمام	800	6.77	1H26M
RESNET-PEACT-20	256	0.8	جيب التمام	800	6.84	1H28M
RESNET-PEACT-20	128	0.4	جيب التمام	800	6.86	1H35M
RESNET-PEACT-20	128	0.2	جيب التمام	800	7.05	1H38M
RESNET-PEACT-20	128	0.1	جيب التمام	800	6.68	1H35M

نموذج	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	اختبار خطأ (1 تشغيل)	وقت التدريب
RESNET-PEACT-20	4096	1.6	جيب التمام	1600	8.25	3H10M
RESNET-PEACT-20	2048	1.6	جيب التمام	1600	7.34	2H50M
RESNET-PEACT-20	1024	1.6	جيب التمام	1600	6.94	2H52M
RESNET-PEACT-20	512	1.6	جيب التمام	1600	6.99	2H44M
RESNET-PEACT-20	256	0.8	جيب التمام	1600	6.95	2H50M
RESNET-PEACT-20	128	0.4	جيب التمام	1600	6.64	3H09M

نموذج	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	اختبار خطأ (1 تشغيل)	وقت التدريب
RESNET-PEACT-20	4096	1.6	جيب التمام	3200	9.52	6H15M
RESNET-PEACT-20	2048	1.6	جيب التمام	3200	6.92	5H42M
RESNET-PEACT-20	1024	1.6	جيب التمام	3200	6.96	5H43M

نموذج	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	اختبار خطأ (1 تشغيل)	وقت التدريب
RESNET-PEACT-20	2048	1.6	جيب التمام	6400	7.45	11h44m

لارس

في الأوراق الأصلية (1708.03888 ، 1801.03137) ، استخدموا جدولة معدل تعلم التحلل متعدد الحدود ، ولكن يتم استخدام جيب التمام في هذه التجارب.
في هذا التنفيذ ، لا يتم استخدام معامل LARS ، لذلك يجب تعديل معدل التعلم وفقًا لذلك.

python train.py --config configs/cifar/resnet_preact.yaml 
    model.resnet_preact.depth 20 
    train.optimizer lars 
    train.base_lr 0.02 
    train.batch_size 4096 
    scheduler.type cosine 
    train.output_dir experiments/resnet_preact_lars/exp00

نموذج	مُحسّن	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	خطأ اختبار (متوسط 3 أشواط)	وقت التدريب
RESNET-PEACT-20	SGD	4096	3.2	جيب التمام	200	10.57 (تشغيل واحد)	22 م
RESNET-PEACT-20	SGD	4096	1.6	جيب التمام	200	10.20	22 م
RESNET-PEACT-20	SGD	4096	0.8	جيب التمام	200	10.71 (1 تشغيل)	22 م
RESNET-PEACT-20	لارس	4096	0.04	جيب التمام	200	9.58	22 م
RESNET-PEACT-20	لارس	4096	0.03	جيب التمام	200	8.46	22 م
RESNET-PEACT-20	لارس	4096	0.02	جيب التمام	200	8.21	22 م
RESNET-PEACT-20	لارس	4096	0.015	جيب التمام	200	8.47	22 م
RESNET-PEACT-20	لارس	4096	0.01	جيب التمام	200	9.33	22 م
RESNET-PEACT-20	لارس	4096	0.005	جيب التمام	200	14.31	22 م

نموذج	مُحسّن	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	خطأ اختبار (متوسط 3 أشواط)	وقت التدريب
RESNET-PEACT-20	SGD	2048	3.2	جيب التمام	200	11.34 (1 تشغيل)	21m
RESNET-PEACT-20	SGD	2048	2.4	جيب التمام	200	8.69 (1 تشغيل)	21m
RESNET-PEACT-20	SGD	2048	2.0	جيب التمام	200	8.81 (1 تشغيل)	21m
RESNET-PEACT-20	SGD	2048	1.6	جيب التمام	200	8.73 (1 تشغيل)	22 م
RESNET-PEACT-20	SGD	2048	0.8	جيب التمام	200	9.62 (1 تشغيل)	21m
RESNET-PEACT-20	لارس	2048	0.04	جيب التمام	200	11.58	21m
RESNET-PEACT-20	لارس	2048	0.02	جيب التمام	200	8.05	22 م
RESNET-PEACT-20	لارس	2048	0.01	جيب التمام	200	8.07	22 م
RESNET-PEACT-20	لارس	2048	0.005	جيب التمام	200	9.65	22 م

نموذج	مُحسّن	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	خطأ اختبار (متوسط 3 أشواط)	وقت التدريب
RESNET-PEACT-20	SGD	1024	3.2	جيب التمام	200	9.12 (1 تشغيل)	21m
RESNET-PEACT-20	SGD	1024	2.4	جيب التمام	200	8.42 (1 تشغيل)	22 م
RESNET-PEACT-20	SGD	1024	2.0	جيب التمام	200	8.38 (1 تشغيل)	22 م
RESNET-PEACT-20	SGD	1024	1.6	جيب التمام	200	8.07 (1 تشغيل)	22 م
RESNET-PEACT-20	SGD	1024	1.2	جيب التمام	200	8.25 (1 تشغيل)	21m
RESNET-PEACT-20	SGD	1024	0.8	جيب التمام	200	8.08 (1 تشغيل)	22 م
RESNET-PEACT-20	SGD	1024	0.4	جيب التمام	200	8.49 (1 تشغيل)	22 م
RESNET-PEACT-20	لارس	1024	0.02	جيب التمام	200	9.30	22 م
RESNET-PEACT-20	لارس	1024	0.01	جيب التمام	200	7.68	22 م
RESNET-PEACT-20	لارس	1024	0.005	جيب التمام	200	8.88	23m

نموذج	مُحسّن	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	خطأ اختبار (متوسط 3 أشواط)	وقت التدريب
RESNET-PEACT-20	SGD	512	3.2	جيب التمام	200	8.51 (1 تشغيل)	21m
RESNET-PEACT-20	SGD	512	1.6	جيب التمام	200	7.73 (1 تشغيل)	20m
RESNET-PEACT-20	SGD	512	0.8	جيب التمام	200	7.73 (1 تشغيل)	21m
RESNET-PEACT-20	SGD	512	0.4	جيب التمام	200	8.22 (1 تشغيل)	20m
RESNET-PEACT-20	لارس	512	0.015	جيب التمام	200	9.84	23m
RESNET-PEACT-20	لارس	512	0.01	جيب التمام	200	8.05	23m
RESNET-PEACT-20	لارس	512	0.0075	جيب التمام	200	7.58	23m
RESNET-PEACT-20	لارس	512	0.005	جيب التمام	200	7.96	23m
RESNET-PEACT-20	لارس	512	0.0025	جيب التمام	200	8.83	23m

نموذج	مُحسّن	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	خطأ اختبار (متوسط 3 أشواط)	وقت التدريب
RESNET-PEACT-20	SGD	256	3.2	جيب التمام	200	9.64 (1 تشغيل)	22 م
RESNET-PEACT-20	SGD	256	1.6	جيب التمام	200	8.32 (1 تشغيل)	22 م
RESNET-PEACT-20	SGD	256	0.8	جيب التمام	200	7.45 (1 تشغيل)	21m
RESNET-PEACT-20	SGD	256	0.4	جيب التمام	200	7.68 (1 تشغيل)	22 م
RESNET-PEACT-20	SGD	256	0.2	جيب التمام	200	8.61 (1 تشغيل)	22 م
RESNET-PEACT-20	لارس	256	0.01	جيب التمام	200	8.95	27 م
RESNET-PEACT-20	لارس	256	0.005	جيب التمام	200	7.75	28 م
RESNET-PEACT-20	لارس	256	0.0025	جيب التمام	200	8.21	28 م

نموذج	مُحسّن	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	خطأ اختبار (متوسط 3 أشواط)	وقت التدريب
RESNET-PEACT-20	SGD	128	1.6	جيب التمام	200	9.03 (1 تشغيل)	24m
RESNET-PEACT-20	SGD	128	0.8	جيب التمام	200	7.54 (تشغيل واحد)	24m
RESNET-PEACT-20	SGD	128	0.4	جيب التمام	200	7.28 (1 تشغيل)	24m
RESNET-PEACT-20	SGD	128	0.2	جيب التمام	200	7.96 (1 تشغيل)	24m
RESNET-PEACT-20	لارس	128	0.005	جيب التمام	200	7.96	37 م
RESNET-PEACT-20	لارس	128	0.0025	جيب التمام	200	7.98	37 م
RESNET-PEACT-20	لارس	128	0.00125	جيب التمام	200	9.21	37 م

نموذج	مُحسّن	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	خطأ اختبار (متوسط 3 أشواط)	وقت التدريب
RESNET-PEACT-20	SGD	4096	1.6	جيب التمام	200	10.20	22 م
RESNET-PEACT-20	SGD	4096	1.6	جيب التمام	800	8.36 (1 تشغيل)	1H33M
RESNET-PEACT-20	SGD	4096	1.6	جيب التمام	1600	8.25 (1 تشغيل)	3H10M
RESNET-PEACT-20	لارس	4096	0.02	جيب التمام	200	8.21	22 م
RESNET-PEACT-20	لارس	4096	0.02	جيب التمام	400	7.53	44 م
RESNET-PEACT-20	لارس	4096	0.02	جيب التمام	800	7.48	1H29M
RESNET-PEACT-20	لارس	4096	0.02	جيب التمام	1600	7.37 (1 تشغيل)	2H58M

شبح bn

python train.py --config configs/cifar/resnet_preact.yaml 
    model.resnet_preact.depth 20 
    train.base_lr 1.5 
    train.batch_size 4096 
    train.subdivision 32 
    scheduler.type cosine 
    train.output_dir experiments/resnet_preact_ghost_batch/exp00

نموذج	حجم الدُفعة	حجم دفعة الأشباح	LR الأولي	جدول LR	# من الحقبة	اختبار خطأ (1 تشغيل)	وقت التدريب
RESNET-PEACT-20	8192	ن/أ	1.6	جيب التمام	200	12.35	25 م*
RESNET-PEACT-20	4096	ن/أ	1.6	جيب التمام	200	10.32	22 م
RESNET-PEACT-20	2048	ن/أ	1.6	جيب التمام	200	8.73	22 م
RESNET-PEACT-20	1024	ن/أ	1.6	جيب التمام	200	8.07	22 م
RESNET-PEACT-20	128	ن/أ	0.4	جيب التمام	200	7.28	24m

نموذج	حجم الدُفعة	حجم دفعة الأشباح	LR الأولي	جدول LR	# من الحقبة	اختبار خطأ (1 تشغيل)	وقت التدريب
RESNET-PEACT-20	8192	128	1.6	جيب التمام	200	11.51	27 م
RESNET-PEACT-20	4096	128	1.6	جيب التمام	200	9.73	25m
RESNET-PEACT-20	2048	128	1.6	جيب التمام	200	8.77	24m
RESNET-PEACT-20	1024	128	1.6	جيب التمام	200	7.82	22 م

نموذج	حجم الدُفعة	حجم دفعة الأشباح	LR الأولي	جدول LR	# من الحقبة	اختبار خطأ (1 تشغيل)	وقت التدريب
RESNET-PEACT-20	8192	ن/أ	1.6	جيب التمام	1600
RESNET-PEACT-20	4096	ن/أ	1.6	جيب التمام	1600	8.25	3H10M
RESNET-PEACT-20	2048	ن/أ	1.6	جيب التمام	1600	7.34	2H50M
RESNET-PEACT-20	1024	ن/أ	1.6	جيب التمام	1600	6.94	2H52M

نموذج	حجم الدُفعة	حجم دفعة الأشباح	LR الأولي	جدول LR	# من الحقبة	اختبار خطأ (1 تشغيل)	وقت التدريب
RESNET-PEACT-20	8192	128	1.6	جيب التمام	1600	11.83	3H37M
RESNET-PEACT-20	4096	128	1.6	جيب التمام	1600	8.95	3H15M
RESNET-PEACT-20	2048	128	1.6	جيب التمام	1600	7.23	3H05M
RESNET-PEACT-20	1024	128	1.6	جيب التمام	1600	7.08	2H59M

لا تسوس الوزن على BN

python train.py --config configs/cifar/resnet_preact.yaml 
    model.resnet_preact.depth 20 
    train.base_lr 1.6 
    train.batch_size 4096 
    train.no_weight_decay_on_bn True 
    train.weight_decay 5e-4 
    scheduler.type cosine 
    train.output_dir experiments/resnet_preact_no_weight_decay_on_bn/exp00

نموذج	تسوس الوزن على BN	انحلال الوزن	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	خطأ اختبار (متوسط 3 أشواط)	وقت التدريب
RESNET-PEACT-20	نعم	5e-4	4096	1.6	جيب التمام	200	10.81	22 م
RESNET-PEACT-20	نعم	4E-4	4096	1.6	جيب التمام	200	10.88	22 م
RESNET-PEACT-20	نعم	3e-4	4096	1.6	جيب التمام	200	10.96	22 م
RESNET-PEACT-20	نعم	2E-4	4096	1.6	جيب التمام	200	9.30	22 م
RESNET-PEACT-20	نعم	1E-4	4096	1.6	جيب التمام	200	10.20	22 م
RESNET-PEACT-20	لا	5e-4	4096	1.6	جيب التمام	200	8.78	22 م
RESNET-PEACT-20	لا	4E-4	4096	1.6	جيب التمام	200	9.83	22 م
RESNET-PEACT-20	لا	3e-4	4096	1.6	جيب التمام	200	9.90	22 م
RESNET-PEACT-20	لا	2E-4	4096	1.6	جيب التمام	200	9.64	22 م
RESNET-PEACT-20	لا	1E-4	4096	1.6	جيب التمام	200	10.38	22 م

نموذج	تسوس الوزن على BN	انحلال الوزن	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	خطأ اختبار (متوسط 3 أشواط)	وقت التدريب
RESNET-PEACT-20	نعم	5e-4	2048	1.6	جيب التمام	200	8.46	20m
RESNET-PEACT-20	نعم	4E-4	2048	1.6	جيب التمام	200	8.35	20m
RESNET-PEACT-20	نعم	3e-4	2048	1.6	جيب التمام	200	7.76	20m
RESNET-PEACT-20	نعم	2E-4	2048	1.6	جيب التمام	200	8.09	20m
RESNET-PEACT-20	نعم	1E-4	2048	1.6	جيب التمام	200	8.83	20m
RESNET-PEACT-20	لا	5e-4	2048	1.6	جيب التمام	200	8.49	20m
RESNET-PEACT-20	لا	4E-4	2048	1.6	جيب التمام	200	7.98	20m
RESNET-PEACT-20	لا	3e-4	2048	1.6	جيب التمام	200	8.26	20m
RESNET-PEACT-20	لا	2E-4	2048	1.6	جيب التمام	200	8.47	20m
RESNET-PEACT-20	لا	1E-4	2048	1.6	جيب التمام	200	9.27	20m

نموذج	تسوس الوزن على BN	انحلال الوزن	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	خطأ اختبار (متوسط 3 أشواط)	وقت التدريب
RESNET-PEACT-20	نعم	5e-4	1024	1.6	جيب التمام	200	8.45	21m
RESNET-PEACT-20	نعم	4E-4	1024	1.6	جيب التمام	200	7.91	21m
RESNET-PEACT-20	نعم	3e-4	1024	1.6	جيب التمام	200	7.81	21m
RESNET-PEACT-20	نعم	2E-4	1024	1.6	جيب التمام	200	7.69	21m
RESNET-PEACT-20	نعم	1E-4	1024	1.6	جيب التمام	200	8.26	21m
RESNET-PEACT-20	لا	5e-4	1024	1.6	جيب التمام	200	8.08	21m
RESNET-PEACT-20	لا	4E-4	1024	1.6	جيب التمام	200	7.73	21m
RESNET-PEACT-20	لا	3e-4	1024	1.6	جيب التمام	200	7.92	21m
RESNET-PEACT-20	لا	2E-4	1024	1.6	جيب التمام	200	7.93	21m
RESNET-PEACT-20	لا	1E-4	1024	1.6	جيب التمام	200	8.53	21m

تجارب على نصف الدقة ، ودقة مختلطة

فيما يلي التجارب تحتاج إلى Nvidia Apex.
تتم التجارب التالية على مجموعة بيانات CIFAR-10 باستخدام GeForce 1080 Ti ، والتي لا تحتوي على نوى توتر.
النتائج التي تم الإبلاغ عنها في الجدول هي أخطاء الاختبار في الفحوصات الأخيرة.

FP16 التدريب

python train.py --config configs/cifar/resnet_preact.yaml 
    model.resnet_preact.depth 20 
    train.base_lr 1.6 
    train.batch_size 4096 
    train.precision O3 
    scheduler.type cosine 
    train.output_dir experiments/resnet_preact_fp16/exp00

تدريب مختلط الدقة

python train.py --config configs/cifar/resnet_preact.yaml 
    model.resnet_preact.depth 20 
    train.base_lr 1.6 
    train.batch_size 4096 
    train.precision O1 
    scheduler.type cosine 
    train.output_dir experiments/resnet_preact_mixed_precision/exp00

نتائج

نموذج	دقة	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	اختبار خطأ (1 تشغيل)	وقت التدريب
RESNET-PEACT-20	FP32	8192	1.6	جيب التمام	200
RESNET-PEACT-20	FP32	4096	1.6	جيب التمام	200	10.32	22 م
RESNET-PEACT-20	FP32	2048	1.6	جيب التمام	200	8.73	22 م
RESNET-PEACT-20	FP32	1024	1.6	جيب التمام	200	8.07	22 م
RESNET-PEACT-20	FP32	512	0.8	جيب التمام	200	7.73	21m
RESNET-PEACT-20	FP32	256	0.8	جيب التمام	200	7.45	21m
RESNET-PEACT-20	FP32	128	0.4	جيب التمام	200	7.28	24m

نموذج	دقة	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	اختبار خطأ (1 تشغيل)	وقت التدريب
RESNET-PEACT-20	FP16	8192	1.6	جيب التمام	200	48.52	33 م
RESNET-PEACT-20	FP16	4096	1.6	جيب التمام	200	49.84	28 م
RESNET-PEACT-20	FP16	2048	1.6	جيب التمام	200	75.63	27 م
RESNET-PEACT-20	FP16	1024	1.6	جيب التمام	200	19.09	27 م
RESNET-PEACT-20	FP16	512	0.8	جيب التمام	200	7.89	26 م
RESNET-PEACT-20	FP16	256	0.8	جيب التمام	200	7.40	28 م
RESNET-PEACT-20	FP16	128	0.4	جيب التمام	200	7.59	32 متر

نموذج	دقة	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	اختبار خطأ (1 تشغيل)	وقت التدريب
RESNET-PEACT-20	مختلط	8192	1.6	جيب التمام	200	11.78	28 م
RESNET-PEACT-20	مختلط	4096	1.6	جيب التمام	200	10.48	27 م
RESNET-PEACT-20	مختلط	2048	1.6	جيب التمام	200	8.98	26 م
RESNET-PEACT-20	مختلط	1024	1.6	جيب التمام	200	8.05	26 م
RESNET-PEACT-20	مختلط	512	0.8	جيب التمام	200	7.81	28 م
RESNET-PEACT-20	مختلط	256	0.8	جيب التمام	200	7.58	32 متر
RESNET-PEACT-20	مختلط	128	0.4	جيب التمام	200	7.37	41 م

النتائج باستخدام Tesla V100

نموذج	دقة	حجم الدُفعة	LR الأولي	جدول LR	# من الحقبة	اختبار خطأ (1 تشغيل)	وقت التدريب
RESNET-PEACT-20	FP32	8192	1.6	جيب التمام	200	12.35	25m
RESNET-PEACT-20	FP32	4096	1.6	جيب التمام	200	9.88	19M
RESNET-PEACT-20	FP32	2048	1.6	جيب التمام	200	8.87	17m
RESNET-PEACT-20	FP32	1024	1.6	جيب التمام	200	8.45	18 م
RESNET-PEACT-20	مختلط	8192	1.6	جيب التمام	200	11.92	25m
RESNET-PEACT-20	مختلط	4096	1.6	جيب التمام	200	10.16	19M
RESNET-PEACT-20	مختلط	2048	1.6	جيب التمام	200	9.10	17m
RESNET-PEACT-20	مختلط	1024	1.6	جيب التمام	200	7.84	16m

مراجع

النموذج العمارة

هو ، Kaiming ، Xiangyu Zhang ، Shaoqing Ren ، وجيان صن. "التعلم المتبقي العميق للتعرف على الصور." مؤتمر IEEE حول رؤية الكمبيوتر والتعرف على الأنماط (CVPR) ، 2016. الرابط ، Arxiv: 1512.03385
هو ، Kaiming ، Xiangyu Zhang ، Shaoqing Ren ، وجيان صن. "تعيينات الهوية في الشبكات المتبقية العميقة." في المؤتمر الأوروبي حول رؤية الكمبيوتر (ECCV). 2016. Arxiv: 1603.05027 ، تنفيذ الشعلة
Zagoruyko و Sergey و Nikos Komodakis. "شبكات متبقية واسعة." وقائع المؤتمر البريطاني للآلة الرؤية (BMVC) ، 2016. Arxiv: 1605.07146 ، تنفيذ الشعلة
هوانغ ، قاو ، تشوانغ ليو ، كيليان س وينبرجر ، ولورينز فان دير ماتن. "شبكات تلافيفية متصلة بكثافة." مؤتمر IEEE حول رؤية الكمبيوتر والتعرف على الأنماط (CVPR) ، 2017. Link ، Arxiv: 1608.06993 ، تنفيذ الشعلة
هان ، دونجيون ، جيوان كيم ، وجونمو كيم. "الشبكات المتبقية الهرمية العميقة." مؤتمر IEEE حول رؤية الكمبيوتر والتعرف على الأنماط (CVPR) ، 2017. Link ، Arxiv: 1610.02915 ، تنفيذ الشعلة ، تنفيذ الكافيين ، تنفيذ Pytorch
Xie ، Sinting ، Ross Girshick ، Piotr Dollar ، Zhuowen Tu ، و Kaiming He. "التحولات المتبقية المجمعة للشبكات العصبية العميقة." مؤتمر IEEE حول رؤية الكمبيوتر والتعرف على الأنماط (CVPR) ، 2017. Link ، Arxiv: 1611.05431 ، تنفيذ الشعلة
غاستالدي ، كزافييه. "التنظيم Shake من 3 شبكات متبقية الفرع." في ورشة عمل المؤتمر الدولي لتمثيل التعلم (ICLR) ، 2017. Link ، Arxiv: 1705.07485 ، تنفيذ الشعلة
Hu و Jie و Li Shen و Gang Sun. "شبكات الضغط والإثبات." مؤتمر IEEE حول رؤية الكمبيوتر والتعرف على الأنماط (CVPR) ، 2018 ، الصفحات 7132-7141. Link ، Arxiv: 1709.01507 ، تنفيذ الكافيين
هوانغ ، قاو ، تشوانغ ليو ، جيف بليس ، لورينز فان دير ماتن ، وكيليان ك. وينبرجر. "الشبكات التلافيفية مع اتصال كثيف." معاملات IEEE على تحليل الأنماط وذكاء الآلة (2019). Arxiv: 2001.02394

التنظيم ، زيادة البيانات

Szegedy و Christian و Vincent Vanhoucke و Sergey Ioffe و Jon Shlens و Zbigniew Wojna. "إعادة التفكير في الهندسة المعمارية لرؤية الكمبيوتر." مؤتمر IEEE حول رؤية الكمبيوتر والتعرف على الأنماط (CVPR) ، 2016. الرابط ، Arxiv: 1512.00567
Devries و Terrance و Graham W. Taylor. "تحسين تنظيم الشبكات العصبية التلافيفية مع قطع." Arxiv preprint Arxiv: 1708.04552 (2017). Arxiv: 1708.04552 ، تطبيق Pytorch
أبو إيل هايجا ، سامي. "تحديثات التدرج المتناسب مع النسبة المئوية." Arxiv preprint Arxiv: 1708.07227 (2017). Arxiv: 1708.07227
تشونغ ، تشون ، ليانغ تشنغ ، غوليانغ كانغ ، شاوزي لي ، ويي يانغ. "محو البيانات العشوائية تكبير البيانات." Arxiv preprint Arxiv: 1708.04896 (2017). Arxiv: 1708.04896 ، تطبيق Pytorch
تشانغ ، هونغي ، موستافا سيس ، يان ن. دوفين ، وديفيد لوبيز باز. "مزيج: ما وراء التقليل من المخاطر التجريبية." في المؤتمر الدولي حول تمثيلات التعلم (ICLR) ، 2017. Link ، Arxiv: 1710.09412
Kawaguchi ، Kenji ، Yoshua Bengio ، Vikas Verma ، و Leslie Pack Kaelbling. "نحو فهم التعميم من خلال نظرية التعلم التحليلي." Arxiv preprint Arxiv: 1802.07426 (2018). Arxiv: 1802.07426 ، تطبيق Pytorch
تاكاهاشي ، ريو ، تاكاشي ماتسوبارا ، وكونياكي أوهارا. "زيادة البيانات باستخدام زراعة الصور العشوائية والترقيع ل CNNs العميقة." وقائع المؤتمر الآسيوي العاشر حول التعلم الآلي (ACML) ، 2018. Link ، Arxiv: 1811.09030
يون ، سانجدو ، دونجيون هان ، سيونغ جون أوه ، سانغيوك تشون ، جونسوك تشوي ، ويونغجون يو. "Cutmix: استراتيجية التنظيم لتدريب المصنفات القوية بميزات قابلة للتوضع." Arxiv preprint Arxiv: 1905.04899 (2019). Arxiv: 1905.04899

دفعة كبيرة

Keskar ، Nitish Shirish ، Dheevatsa Mudigere ، Jorge Nocedal ، Mikhail Smelyanskiy ، و Ping Tak Peter Tang. "على التدريب على الدفعة الكبيرة للتعلم العميق: فجوة التعميم والحد الأدنى الحاد." في المؤتمر الدولي حول تمثيلات التعلم (ICLR) ، 2017. Link ، Arxiv: 1609.04836
هوففر ، عداد ، إيتاي هوبارا ، ودانييل سودري. "تدرب لفترة أطول ، وتعميم أفضل: إغلاق فجوة التعميم في تدريب كبير على الدفعة الشبكات العصبية." في التقدم في أنظمة معالجة المعلومات العصبية (NIPS) ، 2017. Link ، Arxiv: 1705.08741 ، Pytorch.
Goyal ، Priya ، Piotr Dollar ، Ross Girshick ، Pieter Noordhuis ، Lukasz Wesolowski ، Aapo Kyrola ، Andrew Tulloch ، Yangqing Jia ، and Kaiming He. "دقيقة ، MiniBatch SGD: تدريب ImageNet في ساعة واحدة." Arxiv preprint Arxiv: 1706.02677 (2017). Arxiv: 1706.02677
أنت ، يانغ ، إيغور جيتمان ، وبوريس جينسبورغ. "تدريب دفعة كبيرة للشبكات التلافيفية." Arxiv preprint Arxiv: 1708.03888 (2017). Arxiv: 1708.03888
أنت ، يانغ ، تشاو تشانغ ، تشو جوي هسيه ، جيمس ديميل ، وكورت كوتزر. "تدريب ImageNet في دقائق." Arxiv preprint Arxiv: 1709.05011 (2017). Arxiv: 1709.05011
سميث ، صموئيل ل. "لا تتحلل معدل التعلم ، وزيادة حجم الدفعة." في المؤتمر الدولي حول تمثيلات التعلم (ICLR) ، 2018. Link ، Arxiv: 1711.00489
جيتمان ، إيغور ، ديباك ديليبكومار ، وبن بار. "تحليل التقارب من خوارزميات النسب التدرج مع تحديثات نسبية." Arxiv preprint Arxiv: 1801.03137 (2018). Arxiv: 1801.03137 تنفيذ TensorFlow
جيا ، شيانيان ، سونغو ستاو ، وي ، يانغزياو وانغ ، هايدونغ رونغ ، فايهو تشو ، ليكيانغ شي ، تشينيو قوه ، يوانتشو يانغ ، ليوي يو ، تايغانغ تشن ، قوانغشيو هوو ، شاوهو شيو ، xiaowen chu. "نظام التدريب على التعلم العميق القابل للتطوير مع الدقة المختلطة: تدريب ImageNet في أربع دقائق." Arxiv preprint Arxiv: 1807.11205 (2018). Arxiv: 1807.11205
شارو ، كريستوفر ج. ، جايهون لي ، جوزيف أنتونيني ، جاسشا سول ديكشتاين ، روي فروستج ، وجورج دال. "قياس آثار التوازي البيانات على التدريب على الشبكة العصبية." Arxiv preprint Arxiv: 1811.03600 (2018). Arxiv: 1811.03600
يينغ ، كريس ، سمير كومار ، ديهاو تشن ، تاو وانغ ، و youlong cheng. "تصنيف الصور على مقياس الحاسوب الخارق." في السلف في ورشة عمل أنظمة معالجة المعلومات العصبية (Neups) ، 2018. Link ، Arxiv: 1811.06992

آحرون

لوششيلوف ، إيليا ، وفرانك هوتر. "SGDR: النسب المتدرج العشوائي مع إعادة تشغيل دافئة." في المؤتمر الدولي حول تمثيلات التعلم (ICLR) ، 2017. Link ، Arxiv: 1608.03983 ، تنفيذ لازانيا
Micikevicius ، Pailius ، Sharan Narang ، Jonah Alben ، Gregory Diamos ، Erich Elsen ، David Garcia ، Boris Ginsburg ، Michael Houston ، Oleksii Kuchaiev ، Ganesh Venkatesh ، and Hao Wu. "التدريب الدقيق المختلط." في المؤتمر الدولي حول تمثيلات التعلم (ICLR) ، 2018. Link ، Arxiv: 1710.03740
Recht ، Benjamin ، Rebecca Roelofs ، Ludwig Schmidt ، و Vaishaal Shankar. "هل يعتمد مصنفات CIFAR-10 على CIFAR-10؟" Arxiv preprint Arxiv: 1806.00451 (2018). Arxiv: 1806.00451
هو ، تونغ ، زهي تشانغ ، هانج تشانغ ، تشونغويو تشانغ ، جونيوان شي ، ومو لي. "حقيبة الحيل لتصنيف الصور مع الشبكات العصبية التلافيفية." Arxiv preprint Arxiv: 1812.01187 (2018). Arxiv: 1812.01187

يوسع