مشروع | ورقة | الشرائح | كولاب-فيد | كولاب التوازن | طاولات المتصدرين
بداية سريعة: حساب FID | حساب الطفل
[جديد] حساب FID باستخدام ميزات المقطع [Kynkäänniemi et al ، 2022] مدعوم الآن. انظر هنا لمزيد من التفاصيل.
يتضمن حساب FID العديد من الخطوات التي يمكن أن تنتج تناقضات في المقياس النهائي. كما هو موضح أدناه ، تستخدم التطبيقات المختلفة تقديرات الصور ذات المستوى المنخفض وتغيير حجمها ، وغالبًا ما يتم تنفيذ الأخير بشكل غير صحيح.
نحن نقدم مكتبة سهلة الاستخدام لمعالجة المشكلات المذكورة أعلاه وجعل درجات FID قابلة للمقارنة عبر الطرق والأوراق والمجموعات المختلفة.
على الحجم المستعار والتفاصيل الدقيقة المفاجئة في تقييم GAN
غوراف بارمار ، ريتشارد تشانغ ، جون يان تشو
CVPR ، 2022
CMU و Adobe
إذا وجدت هذا المستودع مفيدًا لبحثك ، فيرجى الاستشهاد بالعمل التالي.
@inproceedings{parmar2021cleanfid,
title={On Aliased Resizing and Surprising Subtleties in GAN Evaluation},
author={Parmar, Gaurav and Zhang, Richard and Zhu, Jun-Yan},
booktitle={CVPR},
year={2022}
}
عمليات تغيير حجم المستعار
تعاريف تغيير حجم الوظائف الرياضية ولا ينبغي أبدًا أن تكون وظيفة للمكتبة المستخدمة . لسوء الحظ ، تختلف التطبيقات عبر المكتبات المستخدمة بشكل شائع. غالبًا ما يتم تنفيذها بشكل غير صحيح بواسطة المكتبات الشهيرة. جرب تطبيقات تغيير حجم مختلفة في دفتر Google Colab هنا.
يمكن أن يكون للتناقضات بين التطبيقات تأثير كبير على مقاييس التقييمات. يوضح الجدول أدناه أن صور مجموعة بيانات FFHQ مصورة بتنفيذ ثنائي البكر من المكتبات الأخرى (OpenCV ، Pytorch ، Tensorflow ، OpenCV) لها درجة كبيرة من FID (≥ 6) بالمقارنة مع نفس الصور المقيدة مع مرشح pil-bicubic الذي تم تنفيذه بشكل صحيح. المرشحات الأخرى التي تم تنفيذها بشكل صحيح من PIL (Lanczos ، Bilinear ، Box) جميعها تؤدي إلى درجة FID أصغر نسبيًا (≤ 0.75). لاحظ أنه منذ TF 2.0 ، يمكن أن ينتج عن العلم الجديد antialias (الافتراضي: False ) نتائج بالقرب من PIL. ومع ذلك ، لم يتم استخدامه في REPO TF-FID الموجود وتم تعيينه False بشكل افتراضي.
JPEG ضغط الصورة
يمكن أن يكون لضغط الصورة تأثير كبير بشكل مدهش على FID. لا يمكن تمييز الصور بشكل إدراكي عن بعضها البعض ولكن لديها درجة كبيرة من FID. يتم حساب درجات FID تحت الصور بين جميع صور FFHQ المحفوظة باستخدام تنسيق JPEG المقابل وتنسيق PNG.
أدناه ، ندرس تأثير ضغط JPEG لنماذج stylegan2 المدربة على مجموعة بيانات FFHQ (يسار) ومجموعة بيانات الكنيسة في الهواء الطلق (يمين). لاحظ أنه تم جمع صور مجموعة بيانات LSUN باستخدام ضغط JPEG (الجودة 75) ، في حين تم جمع صور FFHQ كـ PNG. ومن المثير للاهتمام ، بالنسبة لمجموعة بيانات LSUN ، يتم الحصول على أفضل درجة FID (3.48) عندما يتم ضغط الصور التي تم إنشاؤها بجودة JPEG 87.
pip install clean-fid
from cleanfid import fid
score = fid.compute_fid(fdir1, fdir2)
FFHQ ) from cleanfid import fid
score = fid.compute_fid(fdir1, dataset_name="FFHQ", dataset_res=1024, dataset_split="trainval70k")
from cleanfid import fid
# function that accepts a latent and returns an image in range[0,255]
gen = lambda z: GAN(latent=z, ... , <other_flags>)
score = fid.compute_fid(gen=gen, dataset_name="FFHQ",
dataset_res=256, num_gen=50_000, dataset_split="trainval70k")
لاستخدام ميزات المقطع عند حساب FID [Kynkäänniemi et al ، 2022] ، حدد flag model_name="clip_vit_b_32"
from cleanfid import fid
score = fid.compute_fid(fdir1, fdir2, mode="clean", model_name="clip_vit_b_32")
يمكن حساب درجة KID باستخدام واجهة مماثلة مثل FID. يتم حساب إحصائيات مجموعة البيانات الخاصة بـ Kid فقط لمجموعات البيانات الأصغر AFHQ و BreCaHAD و MetFaces .
from cleanfid import fid
score = fid.compute_kid(fdir1, fdir2)
from cleanfid import fid
score = fid.compute_kid(fdir1, dataset_name="brecahad", dataset_res=512, dataset_split="train")
from cleanfid import fid
# function that accepts a latent and returns an image in range[0,255]
gen = lambda z: GAN(latent=z, ... , <other_flags>)
score = fid.compute_kid(gen=gen, dataset_name="brecahad", dataset_res=512, num_gen=50_000, dataset_split="train")
نحن نقدم إحصائيات مسبقة للتكوينات الشائعة الاستخدام التالية. يرجى الاتصال بنا إذا كنت ترغب في إضافة إحصائيات لمجموعات البيانات الجديدة.
| مهمة | مجموعة البيانات | دقة | انقسام المرجع | # الصور المرجعية | وضع |
|---|---|---|---|---|---|
| توليد الصور | cifar10 | 32 | train | 50000 | clean ، legacy_tensorflow ، legacy_pytorch |
| توليد الصور | cifar10 | 32 | test | 10000 | clean ، legacy_tensorflow ، legacy_pytorch |
| توليد الصور | ffhq | 1024 ، 256 | trainval | 50000 | clean ، legacy_tensorflow ، legacy_pytorch |
| توليد الصور | ffhq | 1024 ، 256 | trainval70k | 70،000 | clean ، legacy_tensorflow ، legacy_pytorch |
| توليد الصور | lsun_church | 256 | train | 50000 | clean ، legacy_tensorflow ، legacy_pytorch |
| توليد الصور | lsun_church | 256 | trainfull | 126،227 | clean |
| توليد الصور | lsun_horse | 256 | train | 50000 | clean ، legacy_tensorflow ، legacy_pytorch |
| توليد الصور | lsun_horse | 256 | trainfull | 2،000340 | clean |
| توليد الصور | lsun_cat | 256 | train | 50000 | clean ، legacy_tensorflow ، legacy_pytorch |
| توليد الصور | lsun_cat | 256 | trainfull | 1،657،264 | clean ، legacy_tensorflow ، legacy_pytorch |
| عدد قليل من جيل اللقطة | afhq_cat | 512 | train | 5153 | clean ، legacy_tensorflow ، legacy_pytorch |
| عدد قليل من جيل اللقطة | afhq_dog | 512 | train | 4739 | clean ، legacy_tensorflow ، legacy_pytorch |
| عدد قليل من جيل اللقطة | afhq_wild | 512 | train | 4738 | clean ، legacy_tensorflow ، legacy_pytorch |
| عدد قليل من جيل اللقطة | brecahad | 512 | train | 1944 | clean ، legacy_tensorflow ، legacy_pytorch |
| عدد قليل من جيل اللقطة | metfaces | 1024 | train | 1336 | clean ، legacy_tensorflow ، legacy_pytorch |
| صورة إلى الصورة | horse2zebra | 256 | test | 140 | clean ، legacy_tensorflow ، legacy_pytorch |
| صورة إلى الصورة | cat2dog | 256 | test | 500 | clean ، legacy_tensorflow ، legacy_pytorch |
باستخدام الإحصاءات المسبقة من أجل حساب درجة FID باستخدام إحصائيات مجموعة البيانات المسبقة ، استخدم الخيارات المقابلة. على سبيل المثال ، لحساب درجة FID النظيفة على صور 256 × 256 FFHQ استخدم الأمر:
fid_score = fid.compute_fid(fdir1, dataset_name="ffhq", dataset_res=256, mode="clean", dataset_split="trainval70k")
dataset_path : مجلد حيث يتم تخزين صور مجموعة البيانات
custom_name : الاسم لاستخدامه في الإحصائيات
توليد إحصائيات مخصصة (تم حفظها إلى ذاكرة التخزين المؤقت المحلية)
from cleanfid import fid
fid.make_custom_stats(custom_name, dataset_path, mode="clean")
باستخدام الإحصاءات المخصصة التي تم إنشاؤها
from cleanfid import fid
score = fid.compute_fid("folder_fake", dataset_name=custom_name,
mode="clean", dataset_split="custom")
إزالة الإحصائيات المخصصة
from cleanfid import fid
fid.remove_custom_stats(custom_name, mode="clean")
تحقق مما إذا كانت إحصائية مخصصة موجودة بالفعل
from cleanfid import fid
fid.test_stats_exists(custom_name, mode)
نحن نقدم اثنين من العلامات لإعادة إنتاج درجة Fid Legacy.
mode="legacy_pytorch"
هذا العلم يعادل استخدام تطبيق Pytorch Fid الشهير المقدم هنا
الفرق بين استخدام التنظيف مع هذا الخيار والرمز هو ~ 2E-06
انظر DOC عن كيفية مقارنة الأساليب
mode="legacy_tensorflow"
هذا العلم يعادل استخدام التنفيذ الرسمي لـ FID الذي أصدره المؤلفون.
الفرق بين استخدام التنظيف مع هذا الخيار والرمز هو ~ 2E-05
انظر DOC للحصول على خطوات مفصلة لكيفية مقارنة الأساليب
python setup.py bdist_wheel
pip install dist/*
نقوم بحساب درجات FID باستخدام الطرق المقابلة المستخدمة في الأوراق الأصلية واستخدام FID Clean المقترح هنا. يتم حساب جميع القيم باستخدام 10 عمليات تقييم. نحن نقدم API للاستعلام عن النتائج الموضحة في الجداول أدناه مباشرة من حزمة PIP.
إذا كنت ترغب في إضافة أرقام ونماذج جديدة إلى لوحة المتصدرين لدينا ، فلا تتردد في الاتصال بنا.
يتم استخدام مجموعة test كتوزيع مرجعي ومقارنة مع صور 10K التي تم إنشاؤها.
بيانات 100 ٪ (غير مشروط)
| نموذج | إرث (تم الإبلاغ عنه) | إرث (مستنسخة) | نظيفة |
|---|---|---|---|
| Stylegan2 ( + ADA + Tuning) [Karras et al ، 2020] | - † | - † | 8.20 ± 0.10 |
| Stylegan2 (+ADA) [Karras et al ، 2020] | - † | - † | 9.26 ± 0.06 |
| Stylegan2 (Diff-Augment) [Zhao et al ، 2020] [CKPT] | 9.89 | 9.90 ± 0.09 | 10.85 ± 0.10 |
| stylegan2 (مرآة الفلطيات) [Karras et al ، 2020] [CKPT] | 11.07 | 11.07 ± 0.10 | 12.96 ± 0.07 |
| Stylegan2 (بدون Flips) [Karras et al ، 2020] | - † | - † | 14.53 ± 0.13 |
| Autogan (config a) [Gong et al ، 2019] | - † | - † | 21.18 ± 0.12 |
| Autogan (Config B) [Gong et al ، 2019] | - † | - † | 22.46 ± 0.15 |
| Autogan (Config C) [Gong et al ، 2019] | - † | - † | 23.62 ± 0.30 |
† تستخدم هذه الطرق مجموعة التدريب كتوزيع مرجعي ومقارنة مع 50 ألف صورة تم إنشاؤها
20 ٪ بيانات
| نموذج | إرث (تم الإبلاغ عنه) | إرث (مستنسخة) | نظيفة |
|---|---|---|---|
| stylegan2-diff-Augment [Zhao et al ، 2020] [CKPT] | 12.15 | 12.12 ± 0.15 | 14.18 ± 0.13 |
| stylegan2-mirror-flips [Karras et al ، 2020] [CKPT] | 23.08 | 23.01 ± 0.19 | 29.49 ± 0.17 |
10 ٪ بيانات
| نموذج | إرث (تم الإبلاغ عنه) | إرث (مستنسخة) | نظيفة |
|---|---|---|---|
| stylegan2-diff-Augment [Zhao et al ، 2020] [CKPT] | 14.50 | 14.53 ± 0.12 | 16.98 ± 0.18 |
| stylegan2-mirror-flips [Karras et al ، 2020] [CKPT] | 36.02 | 35.94 ± 0.17 | 43.60 ± 0.17 |
يتم استخدام مجموعة test كتوزيع مرجعي ومقارنة مع صور 10K التي تم إنشاؤها.
بيانات 100 ٪
| نموذج | إرث (تم الإبلاغ عنه) | إرث (مستنسخة) | نظيفة |
|---|---|---|---|
| stylegan2-mirror-flips [Karras et al ، 2020] [CKPT] | 16.54 | 16.44 ± 0.19 | 18.44 ± 0.24 |
| stylegan2-diff-Augment [Zhao et al ، 2020] [CKPT] | 15.22 | 15.15 ± 0.13 | 16.80 ± 0.13 |
20 ٪ بيانات
| نموذج | إرث (تم الإبلاغ عنه) | إرث (مستنسخة) | نظيفة |
|---|---|---|---|
| stylegan2-mirror-flips [Karras et al ، 2020] [CKPT] | 32.30 | 32.26 ± 0.19 | 34.88 ± 0.14 |
| stylegan2-diff-Augment [Zhao et al ، 2020] [CKPT] | 16.65 | 16.74 ± 0.10 | 18.49 ± 0.08 |
10 ٪ بيانات
| نموذج | إرث (تم الإبلاغ عنه) | إرث (مستنسخة) | نظيفة |
|---|---|---|---|
| stylegan2-mirror-flips [Karras et al ، 2020] [CKPT] | 45.87 | 45.97 ± 0.20 | 46.77 ± 0.19 |
| stylegan2-diff-Augment [Zhao et al ، 2020] [CKPT] | 20.75 | 20.69 ± 0.12 | 23.40 ± 0.09 |
جميع الصور @ 1024x1024
يتم حساب القيم باستخدام صور 50K التي تم إنشاؤها
| نموذج | إرث (تم الإبلاغ عنه) | إرث (مستنسخة) | نظيفة | انقسام المرجع |
|---|---|---|---|---|
| Stylegan1 (config a) [Karras et al ، 2020] | 4.4 | 4.39 ± 0.03 | 4.77 ± 0.03 | trainval |
| stylegan2 (config b) [Karras et al ، 2020] | 4.39 | 4.43 ± 0.03 | 4.89 ± 0.03 | trainval |
| Stylegan2 (config c) [Karras et al ، 2020] | 4.38 | 4.40 ± 0.02 | 4.79 ± 0.02 | trainval |
| Stylegan2 (config d) [Karras et al ، 2020] | 4.34 | 4.34 ± 0.02 | 4.78 ± 0.03 | trainval |
| Stylegan2 (config e) [Karras et al ، 2020] | 3.31 | 3.33 ± 0.02 | 3.79 ± 0.02 | trainval |
| Stylegan2 (config f) [Karras et al ، 2020] [CKPT] | 2.84 | 2.83 +- 0.03 | 3.06 +- 0.02 | trainval |
| Stylegan2 [Karras et al ، 2020] [CKPT] | ن/أ | 2.76 ± 0.03 | 2.98 ± 0.03 | trainval70k |
140k - الصور @ 256x256 (مجموعة تدريب كاملة مع قلب أفقي) يتم استخدام الصور 70k من مجموعة trainval70k كصور مرجعية ومقارنة مع 50 ألف صورة تم إنشاؤها.
| نموذج | إرث (تم الإبلاغ عنه) | إرث (مستنسخة) | نظيفة |
|---|---|---|---|
| ZCR [Zhao et al ، 2020] † | 3.45 ± 0.19 | 3.29 ± 0.01 | 3.40 ± 0.01 |
| Stylegan2 [Karras et al ، 2020] † | 3.66 ± 0.10 | 3.57 ± 0.03 | 3.73 ± 0.03 |
| Pa-Gan [Zhang and Khoreva et al ، 2019] † | 3.78 ± 0.06 | 3.67 ± 0.03 | 3.81 ± 0.03 |
| stylegan2-ada [Karras et al ، 2020] † | 3.88 ± 0.13 | 3.84 ± 0.02 | 3.93 ± 0.02 |
| الدوران المساعد [Chen et al ، 2019] † | 4.16 ± 0.05 | 4.10 ± 0.02 | 4.29 ± 0.03 |
| التسرب التكيفي [Karras et al ، 2020] † | 4.16 ± 0.05 | 4.09 ± 0.02 | 4.20 ± 0.02 |
| المعيار الطيفي [Miyato et al ، 2018] † | 4.60 ± 0.19 | 4.43 ± 0.02 | 4.65 ± 0.02 |
| Wgan-GP [Gulrajani et al ، 2017] † | 6.54 ± 0.37 | 6.19 ± 0.03 | 6.62 ± 0.03 |
† أبلغ عنها [Karras et al ، 2020]
30K - صور @ 256x256 (جيل قليل من اللقطات)
يتم استخدام الصور 70K من مجموعة trainval70k كصور مرجعية ومقارنة مع 50 ألف صورة تم إنشاؤها.
| نموذج | إرث (تم الإبلاغ عنه) | إرث (مستنسخة) | نظيفة |
|---|---|---|---|
| Stylegan2 [Karras et al ، 2020] [CKPT] | 6.16 | 6.14 ± 0.064 | 6.49 ± 0.068 |
| stylegan2 Diffaugment [Zhao et al ، 2020] [CKPT] | 5.05 | 5.07 ± 0.030 | 5.18 ± 0.032 |
10K - صور @ 256x256 (عدد قليل من جيل اللقطة)
يتم استخدام الصور 70K من مجموعة trainval70k كصور مرجعية ومقارنة مع 50 ألف صورة تم إنشاؤها.
| نموذج | إرث (تم الإبلاغ عنه) | إرث (مستنسخة) | نظيفة |
|---|---|---|---|
| Stylegan2 [Karras et al ، 2020] [CKPT] | 14.75 | 14.88 ± 0.070 | 16.04 ± 0.078 |
| stylegan2 Diffaugment [Zhao et al ، 2020] [CKPT] | 7.86 | 7.82 ± 0.045 | 8.12 ± 0.044 |
5K - صور @ 256x256 (جيل قليل من اللقطات)
يتم استخدام الصور 70K من مجموعة trainval70k كصور مرجعية ومقارنة مع 50 ألف صورة تم إنشاؤها.
| نموذج | إرث (تم الإبلاغ عنه) | إرث (مستنسخة) | نظيفة |
|---|---|---|---|
| Stylegan2 [Karras et al ، 2020] [CKPT] | 26.60 | 26.64 ± 0.086 | 28.17 ± 0.090 |
| stylegan2 Diffaugment [Zhao et al ، 2020] [CKPT] | 10.45 | 10.45 ± 0.047 | 10.99 ± 0.050 |
1K - صور @ 256x256 (جيل قليل من اللقطات)
يتم استخدام الصور 70K من مجموعة trainval70k كصور مرجعية ومقارنة مع 50 ألف صورة تم إنشاؤها.
| نموذج | إرث (تم الإبلاغ عنه) | إرث (مستنسخة) | نظيفة |
|---|---|---|---|
| Stylegan2 [Karras et al ، 2020] [CKPT] | 62.16 | 62.14 ± 0.108 | 64.17 ± 0.113 |
| stylegan2 Diffaugment [Zhao et al ، 2020] [CKPT] | 25.66 | 25.60 ± 0.071 | 27.26 ± 0.077 |
بيانات 100 ٪
يتم استخدام الصور 50k من مجموعة train كصور مرجعية ومقارنة مع 50 ألف صورة تم إنشاؤها.
| فئة | نموذج | إرث (تم الإبلاغ عنه) | إرث (مستنسخة) | نظيفة |
|---|---|---|---|---|
| الكنائس في الهواء الطلق | Stylegan2 [Karras et al ، 2020] [CKPT] | 3.86 | 3.87 ± 0.029 | 4.08 ± 0.028 |
| خيل | Stylegan2 [Karras et al ، 2020] [CKPT] | 3.43 | 3.41 ± 0.021 | 3.62 ± 0.023 |
| قطة | Stylegan2 [Karras et al ، 2020] [CKPT] | 6.93 | 7.02 ± 0.039 | 7.47 ± 0.035 |
LSUN CAT - 30K Images (عدد قليل من جيل اللقطات)
يتم استخدام جميع صور 1،657،264 من تقسيم trainfull كصور مرجعية ومقارنة مع 50 ألف صورة تم إنشاؤها.
| نموذج | إرث (تم الإبلاغ عنه) | إرث (مستنسخة) | نظيفة |
|---|---|---|---|
| stylegan2-mirror-flips [Karras et al ، 2020] [CKPT] | 10.12 | 10.15 ± 0.04 | 10.87 ± 0.04 |
| stylegan2-diff-Augment [Zhao et al ، 2020] [CKPT] | 9.68 | 9.70 ± 0.07 | 10.25 ± 0.07 |
Lsun Cat - 10K Images (عدد قليل من جيل اللقطات)
يتم استخدام جميع صور 1،657،264 من تقسيم trainfull كصور مرجعية ومقارنة مع 50 ألف صورة تم إنشاؤها.
| نموذج | إرث (تم الإبلاغ عنه) | إرث (مستنسخة) | نظيفة |
|---|---|---|---|
| stylegan2-mirror-flips [Karras et al ، 2020] [CKPT] | 17.93 | 17.98 ± 0.09 | 18.71 ± 0.09 |
| stylegan2-diff-Augment [Zhao et al ، 2020] [CKPT] | 12.07 | 12.04 ± 0.08 | 12.53 ± 0.08 |
Lsun Cat - 5K Images (عدد قليل من جيل اللقطات)
يتم استخدام جميع صور 1،657،264 من تقسيم trainfull كصور مرجعية ومقارنة مع 50 ألف صورة تم إنشاؤها.
| نموذج | إرث (تم الإبلاغ عنه) | إرث (مستنسخة) | نظيفة |
|---|---|---|---|
| stylegan2-mirror-flips [Karras et al ، 2020] [CKPT] | 34.69 | 34.66 ± 0.12 | 35.85 ± 0.12 |
| stylegan2-diff-Augment [Zhao et al ، 2020] [CKPT] | 16.11 | 16.11 ± 0.09 | 16.79 ± 0.09 |
LSUN CAT - 1K صور (جيل قليل من اللقطات)
يتم استخدام جميع صور 1،657،264 من تقسيم trainfull كصور مرجعية ومقارنة مع 50 ألف صورة تم إنشاؤها.
| نموذج | إرث (تم الإبلاغ عنه) | إرث (مستنسخة) | نظيفة |
|---|---|---|---|
| stylegan2-mirror-flips [Karras et al ، 2020] [CKPT] | 182.85 | 182.80 ± 0.21 | 185.86 ± 0.21 |
| stylegan2-diff-Augment [Zhao et al ، 2020] [CKPT] | 42.26 | 42.07 ± 0.16 | 43.12 ± 0.16 |
كلب AFHQ
يتم استخدام جميع الصور 4739 من تقسيم train كصور مرجعية ومقارنة مع 50 ألف صورة تم إنشاؤها.
| نموذج | إرث (تم الإبلاغ عنه) | إرث (مستنسخة) | نظيفة |
|---|---|---|---|
| Stylegan2 [Karras et al ، 2020] [CKPT] | 19.37 | 19.34 ± 0.08 | 20.10 ± 0.08 |
| Stylegan2 -ADA [Karras et al ، 2020] [CKPT] | 7.40 | 7.41 ± 0.02 | 7.61 ± 0.02 |
AFHQ البرية
يتم استخدام جميع الصور 4738 من تقسيم train كصور مرجعية ومقارنة مع 50 ألف صورة تم إنشاؤها.
| نموذج | إرث (تم الإبلاغ عنه) | إرث (مستنسخة) | نظيفة |
|---|---|---|---|
| Stylegan2 [Karras et al ، 2020] [CKPT] | 3.48 | 3.55 ± 0.03 | 3.66 ± 0.02 |
| Stylegan2 -ADA [Karras et al ، 2020] [CKPT] | 3.05 | 3.01 ± 0.02 | 3.03 ± 0.02 |
يتم استخدام جميع صور 1944 من تقسيم train كصور مرجعية ومقارنة مع 50 ألف صورة تم إنشاؤها.
| نموذج | إرث fid (تم الإبلاغ عنه) | إرث fid (مستنسخة) | نظيفة | إرث طفل (تم الإبلاغ عنه) 10^3 | إرث طفل (مستنسخة) 10^3 | ينظف طفل 10^3 |
|---|---|---|---|---|---|---|
| Stylegan2 [Karras et al ، 2020] [CKPT] | 97.72 | 97.46 ± 0.17 | 98.35 ± 0.17 | 89.76 | 89.90 ± 0.31 | 92.51 ± 0.32 |
| Stylegan2 -ADA [Karras et al ، 2020] [CKPT] | 15.71 | 15.70 ± 0.06 | 15.63 ± 0.06 | 2.88 | 2.93 ± 0.08 | 3.08 ± 0.08 |
يتم استخدام جميع الصور 1336 من تقسيم train كصور مرجعية ومقارنة مع 50 ألف صورة تم إنشاؤها.
| نموذج | إرث fid (تم الإبلاغ عنه) | إرث fid (مستنسخة) | نظيفة | إرث طفل (تم الإبلاغ عنه) 10^3 | إرث طفل (مستنسخة) 10^3 | ينظف طفل 10^3 |
|---|---|---|---|---|---|---|
| Stylegan2 [Karras et al ، 2020] [CKPT] | 57.26 | 57.36 ± 0.10 | 65.74 ± 0.11 | 35.66 | 35.69 ± 0.16 | 40.90 ± 0.14 |
| Stylegan2 -ADA [Karras et al ، 2020] [CKPT] | 18.22 | 18.18 ± 0.03 | 19.60 ± 0.03 | 2.41 | 2.38 ± 0.05 | 2.86 ± 0.04 |
يتم استخدام جميع الصور الـ 140 من تقسيم test كصور مرجعية ومقارنة مع 120 صورة مترجمة.
| نموذج | إرث (تم الإبلاغ عنه) | إرث (مستنسخة) | نظيفة |
|---|---|---|---|
| Cut [Park et al ، 2020] | 45.5 | 45.51 | 43.71 |
| المسافة [Benaim and Wolf et al ، 2017] التي أبلغ عنها [Park et al ، 2020] | 72.0 | 71.97 | 71.01 |
| Fastcut [Park et al ، 2020] | 73.4 | 73.38 | 72.53 |
| Cyclegan [Zhu et al ، 2017] أبلغ عنها [Park et al ، 2020] | 77.2 | 77.20 | 75.17 |
| الناقض الذاتي [Benaim and Wolf et al ، 2017] التي أبلغ عنها [Park et al ، 2020] | 80.8 | 80.78 | 79.28 |
| GCGAN [FU et al ، 2019] أبلغ عنها [Park et al ، 2020] | 86.7 | 85.86 | 83.65 |
| Munit [Huang et al ، 2018] أبلغ عنها [Park et al ، 2020] | 133.8 | - † | 120.48 |
| Drit [Lee et al ، 2017] أبلغ عنها [Park et al ، 2020] | 140.0 | - † | 99.56 |
† تمت مقارنة الصور المترجمة لهذه الأساليب بشكل دقيق بواسطة [Park et al ، 2020] باستخدام ضغط .jpeg. نعيد تدريب هاتين الطريقتين باستخدام نفس البروتوكال وإنشاء الصور كـ .png لمقارنة عادلة.
يتم استخدام جميع الصور 500 من تقسيم test كصور مرجعية ومقارنة مع 500 صورة مترجمة.
| نموذج | إرث (تم الإبلاغ عنه) | إرث (مستنسخة) | نظيفة |
|---|---|---|---|
| Cut [Park et al ، 2020] | 76.2 | 76.21 | 77.58 |
| Fastcut [Park et al ، 2020] | 94.0 | 93.95 | 95.37 |
| GCGAN [FU et al ، 2019] أبلغ عنها [Park et al ، 2020] | 96.6 | 96.61 | 96.49 |
| Munit [Huang et al ، 2018] أبلغ عنها [Park et al ، 2020] | 104.4 | - † | 123.73 |
| Drit [Lee et al ، 2017] أبلغ عنها [Park et al ، 2020] | 123.4 | - † | 127.21 |
| الناقض الذاتي [Benaim and Wolf et al ، 2017] التي أبلغ عنها [Park et al ، 2020] | 144.4 | 144.42 | 147.23 |
| المسافة [Benaim and Wolf et al ، 2017] التي أبلغ عنها [Park et al ، 2020] | 155.3 | 155.34 | 158.39 |
† تمت مقارنة الصور المترجمة لهذه الأساليب بشكل دقيق بواسطة [Park et al ، 2020] باستخدام ضغط .jpeg. نعيد تدريب هاتين الطريقتين باستخدام نفس البروتوكال وإنشاء الصور كـ .png لمقارنة عادلة.
شعلة الشعلة: مقاييس أداء عالية الدقة للنماذج التوليدية في Pytorch.
TTUR: قاعدة تحديث على نطاق زمني لتدريب GANS.
LPIPS: مقياس التشابه الإدراكي ومجموعة البيانات.
يتم توفير جميع المواد في هذا المستودع بموجب ترخيص معهد ماساتشوستس للتكنولوجيا.
inception_pytorch.py مشتق من تنفيذ Pytorch لـ FID المقدم من Maximilian Seitzer. تمت مشاركة هذه الملفات في الأصل بموجب ترخيص Apache 2.0.
Inception-2015-12-05. تمت مشاركة الشبكة في الأصل بموجب ترخيص Apache 2.0 على مستودع موديلات TensorFlow. يتم توفير غلاف Torchscript بواسطة Tero Karras و Miika Aittala و Janne Hellsten و Samuli Laine و Jaakko Lehtinen و Timo Aila الذي تم إصداره تحت رخصة رمز المصدر Nvidia.