BigGAN PyTorch Download - تنزيل رمز المصدر BigGAN PyTorch

BigGAN PyTorch

بايثون

1.0.0

تنزيل

بيجان بايتورش

مؤلف المؤلف رسميا بتنفيذ بيتورش بيغان.

Dogball? Dogball!

يحتوي هذا الريبو على رمز لـ 4-8 GPU التدريب على Biggans من تدريب GAN على نطاق واسع من أجل تخليق الصور الطبيعية العالية Fidelity من تأليف أندرو بروك ، وجيف دوناهو ، وكارين سيمونيان.

هذا الرمز من تأليف أندي بروك وأليكس أندريان.

كيفية استخدام هذا الرمز

سوف تحتاج:

Pytorch ، الإصدار 1.0.1
TQDM و Numpy و Scipy و H5py
مجموعة تدريب ImageNet

أولاً ، يمكنك إعداد إصدار HDF5 الذي تم معالجته مسبقًا من مجموعة البيانات المستهدفة الخاصة بك لأجهزة I/O أسرع. بعد هذا (أو لا) ، ستحتاج إلى لحظات البدء اللازمة لحساب FID. يمكن أن يتم ذلك عن طريق التعديل والتشغيل

sh scripts/utils/prepare_data.sh

الذي يفترض افتراضيًا ، يتم تنزيل مجموعة تدريب ImageNet الخاصة بك في data المجلد الجذر في هذا الدليل ، وسيقوم بإعداد HDF5 المخزنة مؤقتًا بدقة 128x128 بكسل.

في مجلد البرامج النصية ، هناك نصوص باش متعددة ستقوم بتدريب Biggans بأحجام دفع مختلفة. يفترض هذا الرمز أنه لا يمكنك الوصول إلى جراب TPU الكامل ، وبناءً على ذلك ، فإن محاكاة الدموية الضخمة باستخدام تراكم التدرج (متوسط الخريجين على حافزات صغيرة متعددة ، واتخاذ خطوة مُحسّنة فقط بعد تراكم N). بشكل افتراضي ، يقوم برنامج التشغيل launch_BigGAN_bs256x8.sh بتدريب نموذج كبير بالحجم الكامل بحجم 256 و 8 تراكم متدرج ، للحصول على حجم إجمالي قدره 2048. في 8xv100 مع تدريب كامل الدقة (لا يوجد توترات توتر) ، يستغرق هذا البرنامج النصي 150 يومًا إلى 150 ألفًا.

ستحتاج أولاً إلى اكتشاف الحد الأقصى لحجم الدُفعة التي يمكن أن يدعمها الإعداد. تم تدريب النماذج التي تم تدريبها مسبقًا المقدمة هنا على 8xv100 (16 جيجا بايت لكل منهما) والتي يمكن أن تدعم أكثر بقليل من BS256 المستخدم افتراضيًا. بمجرد تحديد ذلك ، يجب عليك تعديل البرنامج النصي بحيث يكون حجم الدُفعة يزيد من عدد تراكم التدرج يساوي حجم الدفعة المطلوب (Biggan Defults إلى 2048).

لاحظ أيضًا أن هذا البرنامج النصي يستخدم --load_in_mem arg ، والذي يقوم بتحميل ملف i128.hdf5 بالكامل (~ 64 جيجا بايت) في ذاكرة الوصول العشوائي لتحميل البيانات بشكل أسرع. إذا لم يكن لديك ما يكفي من ذاكرة الوصول العشوائي لدعم هذا (ربما 96 جيجابايت+) ، قم بإزالة هذه الوسيطة.

المقاييس وأخذ العينات

I believe I can fly!

أثناء التدريب ، سيقوم هذا البرنامج النصي بإخراج سجلات مع مقاييس التدريب ومقاييس الاختبار ، وسيوفر نسخ متعددة (أحدث و 5 درجات أعلى) من الأوزان/المُحسَّنة النموذجية ، وسوف تنتج عينات واستيفاء في كل مرة يوفر فيها الأوزان. يحتوي مجلد Logs على البرامج النصية لمعالجة هذه السجلات ورسم النتائج باستخدام MATLAB (آسف ليس آسف).

بعد التدريب ، يمكن للمرء sample_BigGAN_bs256x8.sh sample.py لإنتاج عينات إضافية واستيفاءات ، واختبار مع قيم اقتطاع مختلفة ، وأحجام الدُفعات ، وعدد تراكم الأساسيات الدائمة ، وما إلى ذلك.

بشكل افتراضي ، يتم حفظ كل شيء على الأوزان/العينات/سجلات/مجلدات البيانات التي يُفترض أنها في نفس المجلد مثل هذا الريبو. يمكنك توجيه كل هذه الأشياء إلى مجلد أساسي مختلف باستخدام الوسيطة --base_root ، أو اختيار مواقع محددة لكل من هذه الوسائط الخاصة بها (على سبيل المثال --logs_root ).

نحن ندرج البرامج النصية لتشغيل Biggan-Deep ، لكننا لم ندرب نموذجًا تمامًا باستخدامها ، لذا فكروا في ذلك. بالإضافة إلى ذلك ، نقوم بتضمين البرامج النصية لتشغيل نموذج على CIFAR ، وتشغيل SA-GAN (مع EMA) و SN-GAN على ImageNet. يفترض رمز SA-GAN أن لديك 4xtitanx (أو ما يعادلها من حيث RAM GPU) وسيتم تشغيله بحجم دفعة من 128 و 2 تراكم التدرج.

ملاحظة مهمة حول مقاييس البدء

يستخدم هذا الريبو شبكة التأسيس في Pytorch في حساب IS و FID. تختلف هذه الدرجات عن الدرجات التي ستحصل عليها باستخدام رمز تأسيس TF الرسمي ، وهي فقط لأغراض المراقبة! قم بتشغيل sample.py على النموذج الخاص بك ، باستخدام وسيطة --sample_npz ، ثم قم بتشغيل inception_tf13 لحساب tensorflow الفعلي. لاحظ أنك ستحتاج إلى تثبيت TensorFlow 1.3 أو تم تثبيته في وقت سابق ، حيث يقوم TF1.4+ بفك الرمز الأصلي.

نماذج ما قبل

درجة بدء Pytorch و FID نحن ندرج نقاط تفتيش نموذجية من النماذج (مع G و D ونسخة EMA من G و The Pensidizers و DICT):

نقطة التفتيش الرئيسية هي لبيغان مدربة على ImageNet على 128x128 ، باستخدام تراكمات التدرج BS256 و 8 ، التي تم أخذها قبل الانهيار مباشرة ، مع درجة تأسيس TF قدرها 97.35 +/- 1.79: Link
نقطة تفتيش سابقة للنموذج الأول (100 كيلو متر) ، في الأداء العالي ولكن قبل الانهيار ، والتي قد يكون من الأسهل ضبطها: رابط

نماذج مسبقة للأماكن-365 قريبا.

يحتوي هذا الريبو أيضًا على برامج نصية لتنظيف أوزان مولد TFHUB Biggan الأصلية إلى Pytorch. انظر البرامج النصية في مجلد TFHUB لمزيد من التفاصيل.

صقل جيد ، باستخدام مجموعة البيانات الخاصة بك ، أو وضع وظائف تدريب جديدة

That's deep, man

إذا كنت ترغب في استئناف التدريب المقطع أو ضبط نموذج تم تدريبه مسبقًا ، فقم بتشغيل نفس البرنامج النصي للانطلاق ولكن مع --resume الحجة المضافة. يتم إنشاء أسماء التجربة تلقائيًا من التكوين ، ولكن يمكن تجاوزها باستخدام- --experiment_name arg (على سبيل المثال ، إذا كنت ترغب في ضبط نموذج باستخدام إعدادات مُحسّنة معدلة).

لإعداد مجموعة البيانات الخاصة بك ، ستحتاج إلى إضافتها إلى مجموعات البيانات. ypy وتعديل التصميمات الراحة في utils.py (dset_dict ، imsize_dict ، root_dict ، nclass_dict ، classes_per_sheet_dict) للحصول على البيانات الوصفية المناسبة لمجموعة البيانات الخاصة بك. كرر العملية في prepared_data.sh (تنتج اختياريا نسخة HDF5 معالجة مسبقا ، وحساب لحظات بدء FID).

بشكل افتراضي ، سيوفر البرنامج النصي التدريبي أفضل 5 نقاط تفتيش كما تم قياسها من خلال درجة البداية. بالنسبة لمجموعات البيانات بخلاف ImageNet ، يمكن أن تكون نقاط Inception مقياسًا سيئًا للغاية للجودة ، لذلك من المحتمل أن ترغب في استخدام --which_best FID بدلاً من ذلك.

لاستخدام وظيفة التدريب الخاصة بك (على سبيل المثال ، قم بتدريب BigVae): إما تعديل Train_fns.gan_training_function أو إضافة قطار جديد وأضفه بعد if config['which_train_fn'] == 'GAN': line in train.py .

أشياء أنيقة

نحن ندرج سجلات التدريب والمقاييس الكاملة هنا للرجوع إليها. لقد وجدت أن واحدة من أصعب الأشياء حول إعادة تنفيذ ورقة يمكن أن تتحقق مما إذا كانت السجلات تصطف مبكرًا في التدريب ، خاصة إذا استغرق التدريب عدة أسابيع. نأمل أن تكون هذه مفيدة للعمل في المستقبل.
ندرج حساب FID متسارع-يمكن أن يتطلب إصدار Scipy الأصلي ما يزيد عن 10 دقائق لحساب Matrix SQRT ، ويستخدم هذا الإصدار إصدار Pytorch المتسارع لحسابه في تحت ثانية.
نحن ندرج تنفيذ ortho ortho الاستهلاك المنخفض الذاكرة.
بشكل افتراضي ، نقوم فقط بحساب القيمة المفرد الأعلى (المعيار الطيفي) ، لكن هذا الرمز يدعم حساب المزيد من SVS من خلال وسيطة --num_G_SVs .

الاختلافات الرئيسية بين هذا الرمز و Biggan الأصلي

نستخدم إعدادات المُحسّنة من SA-GAN (G_LR = 1E-4 ، D_LR = 4E-4 ، NUM_D_STEPS = 1 ، على عكس G_LR من Biggan = 5E-5 ، D_LR = 2E-4 ، num_d_steps = 2). في حين أن أداء أقل بقليل ، كان هذا هو الزاوية الأولى التي قطعناها لإسقاط أوقات التدريب لأسفل.
بشكل افتراضي ، لا نستخدم دفعة REPLICA المتقاطعة (المعروف أيضًا باسم Batchnorm). المتغيران الذي جربتهما (أحدهما مخصص ، ساذج والآخر المدرج في هذا الريبو) لهما تدرجات مختلفة قليلاً (وإن كانت تمريرات متطابقة إلى الأمام) من الدُفعة المدمجة ، والتي يبدو أنها كافية لتدريبها.
تراكم التدرج يعني أننا نقوم بتحديث تقديرات SV وإحصائيات BN 8 مرات أكثر. هذا يعني أن إحصائيات BN أقرب إلى الإحصائيات الدائمة ، وأن تقديرات القيمة الفردية تميل إلى أن تكون أكثر دقة. لهذا السبب ، نقوم بقياس المقاييس افتراضيًا مع G في وضع الاختبار (باستخدام تقديرات STAT التي تعمل على تشغيل BatchNorm بدلاً من حساب الإحصائيات الدائمة كما في الورقة). ما زلنا ندعم إحصائيات الدائمة (انظر Sample.sh Scripts). يمكن أن يؤدي هذا أيضًا إلى أن يؤدي إلى تدرجات من التراكمات السابقة التي لا معنى لها ، ولكن في الممارسة العملية لا يبدو أن هذا يمثل مشكلة.
لم يتم تدريب النماذج المقدمة حاليًا مع تنظيم متعامد. يبدو أن التدريب بدون Ortho REG يزيد من احتمال أن النماذج لن تكون قابلة للاقتطاع ، لكن يبدو أن هذا النموذج المحدد حصل على تذكرة رابحة. بغض النظر ، فإننا نقدم تطبيقات ortho المحسّنة للغاية (سريعة وأقل من استهلاك للذاكرة) التي تحسب بشكل مباشر Ortho Reg. التدرجات.

ملاحظة حول تصميم هذا الريبو

تم تصميم هذا الرمز من الألف إلى الياء ليكون بمثابة قاعدة قابلة للتمديد يمكن اختراقها لمزيد من رمز البحث. لقد وضعنا الكثير من التفكير في التأكد من أن التجريدات هي السماكة المناسبة للبحث-ليس سميكًا جدًا بحيث لا يمكن اختراقه ، ولكن ليس رفيعًا بحيث يكون عديمة الفائدة. الفكرة الرئيسية هي أنه إذا كنت ترغب في تجربة إعداد SOTA وإجراء بعض التعديل (جرب وظيفة الخسارة الجديدة الخاصة بك ، والهندسة المعمارية ، وكتلة الاعتداء الذاتي ، وما إلى ذلك) ، فيجب أن تكون قادرًا على القيام بذلك بسهولة عن طريق إسقاط الكود في مكان واحد أو مكانين ، دون الحاجة إلى القلق بشأن بقية قاعلة الكود. أشياء مثل استخدام Self.hich_conv و functools.partial في تعريف نموذج Biggan.py مع هذا في الاعتبار ، كما كان تصميم ميراث الطبقة الطيفية.

مع ذلك ، هذه قاعدة كود كبيرة إلى حد ما لمشروع واحد. على الرغم من أننا حاولنا أن نكون شاملين في التعليقات ، إذا كان هناك شيء تعتقد أنه قد يكون أكثر وضوحًا أو مكتوبة بشكل أفضل أو تم إعادة تشكيله بشكل أفضل ، فلا تتردد في إثارة مشكلة أو طلب سحب.

طلبات الميزة

هل تريد العمل على هذا الرمز أو تحسينه؟ هناك أمرين سيستفيد منه هذا الريبو ، ولكنه لا يعمل بعد.

ثقم متزامن (ويعرف أيضًا باسم Batchnorm المتقاطع). لقد جربنا نوعين من هذا ، ولكن لسبب غير معروف ، تم شل التدريب في كل مرة. لم نجرب Syncbn Apex لأن خوادم مدرستي موجودة على سائقي Nvidia القديمة التي لا تدعمها-من المحتمل أن يكون apex مكانًا جيدًا للبدء.
التدريب الدقيق المختلط واستخدام النوى الموتر. يتضمن هذا الريبو تطبيق آدم المختلط الساذج الذي يعمل في وقت مبكر في التدريب ولكنه يؤدي إلى الانهيار المبكر ، ولا يفعل أي شيء لتفعيل نوى الموتر (إنه يقلل فقط من استهلاك الذاكرة). كما هو مذكور أعلاه ، فإن دمج APEX في هذا الرمز وتوظيف تقنيات التدريب المختلطة للاستفادة من نوى الموتر وتقليل استهلاك الذاكرة يمكن أن تحقق مكاسب كبيرة في السرعة.

ملاحظات متفرقات

انظر هذا الدليل لتسميات ImageNet.

إذا كنت تستخدم هذا الرمز ، يرجى الاستشهاد

 @inproceedings{
brock2018large,
title={Large Scale {GAN} Training for High Fidelity Natural Image Synthesis},
author={Andrew Brock and Jeff Donahue and Karen Simonyan},
booktitle={International Conference on Learning Representations},
year={2019},
url={https://openreview.net/forum?id=B1xsqj09Fm},
}