โครงการ | กระดาษ | สไลด์ colab-fid | Colab-Resize | โต๊ะลีดเดอร์บอร์ด
เริ่มต้นอย่างรวดเร็ว: คำนวณ FID | คำนวณเด็ก
[ใหม่] การคำนวณ FID โดยใช้คุณสมบัติคลิป [Kynkänniemi et al, 2022] ได้รับการสนับสนุนแล้ว ดูรายละเอียดเพิ่มเติมที่นี่
การคำนวณ FID เกี่ยวข้องกับหลายขั้นตอนที่สามารถสร้างความไม่สอดคล้องกันในตัวชี้วัดสุดท้าย ดังที่แสดงไว้ด้านล่างการใช้งานที่แตกต่างกันใช้ปริมาณภาพระดับต่ำที่แตกต่างกันและฟังก์ชั่นการปรับขนาดซึ่งหลังมักจะถูกนำไปใช้อย่างไม่ถูกต้อง
เราให้บริการห้องสมุดที่ใช้งานง่ายเพื่อแก้ไขปัญหาข้างต้นและทำให้คะแนน FID เทียบเท่ากับวิธีการที่แตกต่างกันเอกสารและกลุ่ม
เกี่ยวกับการปรับขนาดนามแฝงและรายละเอียดปลีกย่อยที่น่าประหลาดใจในการประเมิน GAN
Gaurav Parmar, Richard Zhang, Jun-yan zhu
CVPR, 2022
CMU และ Adobe
หากคุณพบว่าที่เก็บนี้มีประโยชน์สำหรับการวิจัยของคุณโปรดอ้างอิงงานต่อไปนี้
@inproceedings{parmar2021cleanfid,
title={On Aliased Resizing and Surprising Subtleties in GAN Evaluation},
author={Parmar, Gaurav and Zhang, Richard and Zhu, Jun-Yan},
booktitle={CVPR},
year={2022}
}
การปรับขนาดการปรับขนาด
คำจำกัดความของฟังก์ชั่นการปรับขนาดเป็นคณิตศาสตร์และ ไม่ควรเป็นฟังก์ชั่นของไลบรารีที่ใช้ น่าเสียดายที่การใช้งานแตกต่างกันไปในห้องสมุดที่ใช้กันทั่วไป พวกเขามักจะถูกนำไปใช้อย่างไม่ถูกต้องโดยห้องสมุดยอดนิยม ลองใช้การปรับขนาดการปรับขนาดที่แตกต่างกันในสมุดบันทึก Google Colab ที่นี่
ความไม่สอดคล้องกันระหว่างการใช้งานอาจมีผลกระทบอย่างมากจากการประเมินการวัด ตารางด้านล่างแสดงให้เห็นว่าภาพชุดข้อมูล FFHQ ที่ปรับขนาดด้วยการใช้งาน bicubic จากไลบรารีอื่น ๆ (OpenCV, Pytorch, TensorFlow, OpenCV) มีคะแนน FID ขนาดใหญ่ (≥ 6) เมื่อเปรียบเทียบกับภาพเดียวกันกับตัวกรอง Pil-Bicubic ที่ใช้งานอย่างถูกต้อง ตัวกรองที่ใช้งานอย่างถูกต้องอื่น ๆ จาก PIL (Lanczos, Bilinear, Box) ทั้งหมดส่งผลให้คะแนน FID ค่อนข้างเล็ก (≤ 0.75) โปรดทราบว่าตั้งแต่ TF 2.0 antialias ธงใหม่ (ค่าเริ่มต้น: False ) สามารถสร้างผลลัพธ์ใกล้กับ PIL อย่างไรก็ตามมันไม่ได้ใช้ใน repo tf-fid ที่มีอยู่และตั้งค่าเป็น False โดยค่าเริ่มต้น
การบีบอัดภาพ JPEG
การบีบอัดภาพอาจมีผลกระทบอย่างมากต่อ FID รูปภาพไม่สามารถแยกแยะได้จากกันและกัน แต่มีคะแนน FID ขนาดใหญ่ คะแนน FID ภายใต้ภาพจะถูกคำนวณระหว่างภาพ FFHQ ทั้งหมดที่บันทึกไว้โดยใช้รูปแบบ JPEG ที่สอดคล้องกันและรูปแบบ PNG
ด้านล่างนี้เราศึกษาผลของการบีบอัด JPEG สำหรับโมเดล Stylegan2 ที่ได้รับการฝึกฝนในชุดข้อมูล FFHQ (ซ้าย) และชุดข้อมูลโบสถ์กลางแจ้ง LSUN (ขวา) โปรดทราบว่าภาพชุดข้อมูล LSUN ถูกรวบรวมด้วยการบีบอัด JPEG (คุณภาพ 75) ในขณะที่ภาพ FFHQ ถูกรวบรวมเป็น PNG ที่น่าสนใจสำหรับชุดข้อมูล LSUN จะได้รับคะแนน FID ที่ดีที่สุด (3.48) เมื่อภาพที่สร้างขึ้นถูกบีบอัดด้วยคุณภาพ JPEG 87
pip install clean-fid
from cleanfid import fid
score = fid.compute_fid(fdir1, fdir2)
FFHQ ) from cleanfid import fid
score = fid.compute_fid(fdir1, dataset_name="FFHQ", dataset_res=1024, dataset_split="trainval70k")
from cleanfid import fid
# function that accepts a latent and returns an image in range[0,255]
gen = lambda z: GAN(latent=z, ... , <other_flags>)
score = fid.compute_fid(gen=gen, dataset_name="FFHQ",
dataset_res=256, num_gen=50_000, dataset_split="trainval70k")
หากต้องการใช้คุณสมบัติคลิปเมื่อคำนวณ FID [Kynkänniemi et al, 2022] ให้ระบุ FLAG model_name="clip_vit_b_32"
from cleanfid import fid
score = fid.compute_fid(fdir1, fdir2, mode="clean", model_name="clip_vit_b_32")
คะแนนเด็กสามารถคำนวณได้โดยใช้อินเทอร์เฟซที่คล้ายกันกับ FID สถิติชุดข้อมูลสำหรับเด็กจะถูกคำนวณล่วงหน้าสำหรับชุดข้อมูลขนาดเล็ก AFHQ , BreCaHAD และ MetFaces
from cleanfid import fid
score = fid.compute_kid(fdir1, fdir2)
from cleanfid import fid
score = fid.compute_kid(fdir1, dataset_name="brecahad", dataset_res=512, dataset_split="train")
from cleanfid import fid
# function that accepts a latent and returns an image in range[0,255]
gen = lambda z: GAN(latent=z, ... , <other_flags>)
score = fid.compute_kid(gen=gen, dataset_name="brecahad", dataset_res=512, num_gen=50_000, dataset_split="train")
เราให้บริการสถิติล่วงหน้าสำหรับการกำหนดค่าที่ใช้กันทั่วไปต่อไปนี้ โปรดติดต่อเราหากคุณต้องการเพิ่มสถิติสำหรับชุดข้อมูลใหม่ของคุณ
| งาน | ชุดข้อมูล | ปณิธาน | แยกอ้างอิง | # ภาพอ้างอิง | โหมด |
|---|---|---|---|---|---|
| การสร้างภาพ | cifar10 | 32 | train | 50,000 | clean , legacy_tensorflow , legacy_pytorch |
| การสร้างภาพ | cifar10 | 32 | test | 10,000 | clean , legacy_tensorflow , legacy_pytorch |
| การสร้างภาพ | ffhq | 1024, 256 | trainval | 50,000 | clean , legacy_tensorflow , legacy_pytorch |
| การสร้างภาพ | ffhq | 1024, 256 | trainval70k | 70,000 | clean , legacy_tensorflow , legacy_pytorch |
| การสร้างภาพ | lsun_church | 256 | train | 50,000 | clean , legacy_tensorflow , legacy_pytorch |
| การสร้างภาพ | lsun_church | 256 | trainfull | 126,227 | clean |
| การสร้างภาพ | lsun_horse | 256 | train | 50,000 | clean , legacy_tensorflow , legacy_pytorch |
| การสร้างภาพ | lsun_horse | 256 | trainfull | 2,000,340 | clean |
| การสร้างภาพ | lsun_cat | 256 | train | 50,000 | clean , legacy_tensorflow , legacy_pytorch |
| การสร้างภาพ | lsun_cat | 256 | trainfull | 1,657,264 | clean , legacy_tensorflow , legacy_pytorch |
| ไม่กี่รุ่นช็อต | afhq_cat | 512 | train | 5153 | clean , legacy_tensorflow , legacy_pytorch |
| ไม่กี่รุ่นช็อต | afhq_dog | 512 | train | 4739 | clean , legacy_tensorflow , legacy_pytorch |
| ไม่กี่รุ่นช็อต | afhq_wild | 512 | train | 4738 | clean , legacy_tensorflow , legacy_pytorch |
| ไม่กี่รุ่นช็อต | brecahad | 512 | train | 2487 | clean , legacy_tensorflow , legacy_pytorch |
| ไม่กี่รุ่นช็อต | metfaces | 1024 | train | 1336 | clean , legacy_tensorflow , legacy_pytorch |
| รูปภาพเป็นภาพ | horse2zebra | 256 | test | 140 | clean , legacy_tensorflow , legacy_pytorch |
| รูปภาพเป็นภาพ | cat2dog | 256 | test | 500 | clean , legacy_tensorflow , legacy_pytorch |
การใช้สถิติล่วงหน้า เพื่อคำนวณคะแนน FID ด้วยสถิติชุดข้อมูลที่คำนวณล่วงหน้าใช้ตัวเลือกที่เกี่ยวข้อง ตัวอย่างเช่นในการคำนวณคะแนน Clean-Fid บนภาพ 256x256 FFHQ ที่สร้างขึ้นให้ใช้คำสั่ง:
fid_score = fid.compute_fid(fdir1, dataset_name="ffhq", dataset_res=256, mode="clean", dataset_split="trainval70k")
dataSet_path : โฟลเดอร์ที่เก็บภาพชุดข้อมูล
custom_name : ชื่อที่จะใช้สำหรับสถิติ
สร้างสถิติที่กำหนดเอง (บันทึกลงในแคชท้องถิ่น)
from cleanfid import fid
fid.make_custom_stats(custom_name, dataset_path, mode="clean")
ใช้สถิติที่กำหนดเองที่สร้างขึ้น
from cleanfid import fid
score = fid.compute_fid("folder_fake", dataset_name=custom_name,
mode="clean", dataset_split="custom")
การลบสถิติที่กำหนดเอง
from cleanfid import fid
fid.remove_custom_stats(custom_name, mode="clean")
ตรวจสอบว่ามีสถิติที่กำหนดเองอยู่แล้ว
from cleanfid import fid
fid.test_stats_exists(custom_name, mode)
เราให้ธงสองธงเพื่อทำคะแนน FID มรดก
mode="legacy_pytorch"
ธงนี้เทียบเท่ากับการใช้การใช้งาน Pytorch Fid ยอดนิยมที่ให้ไว้ที่นี่
ความแตกต่างระหว่างการใช้ Clean-Fid กับตัวเลือกนี้และรหัสคือ ~ 2E-06
ดูเอกสารสำหรับวิธีการเปรียบเทียบวิธีการ
mode="legacy_tensorflow"
ธงนี้เทียบเท่ากับการใช้การดำเนินการอย่างเป็นทางการของ FID ที่ปล่อยออกมาโดยผู้เขียน
ความแตกต่างระหว่างการใช้ Clean-Fid กับตัวเลือกนี้และรหัสคือ ~ 2E-05
ดูเอกสารสำหรับขั้นตอนโดยละเอียดสำหรับวิธีการเปรียบเทียบวิธีการ
python setup.py bdist_wheel
pip install dist/*
เราคำนวณคะแนน FID โดยใช้วิธีการที่เกี่ยวข้องที่ใช้ในเอกสารต้นฉบับและใช้ความสะอาดที่เสนอไว้ที่นี่ ค่าทั้งหมดจะคำนวณโดยใช้การประเมินผล 10 ครั้ง เราให้ API เพื่อสอบถามผลลัพธ์ที่แสดงในตารางด้านล่างโดยตรงจากแพ็คเกจ PIP
หากคุณต้องการเพิ่มหมายเลขและโมเดลใหม่ลงในกระดานผู้นำของเราอย่าลังเลที่จะติดต่อเรา
ชุด test ใช้เป็นการกระจายอ้างอิงและเปรียบเทียบกับภาพที่สร้างขึ้น 10k
ข้อมูล 100% (ไม่มีเงื่อนไข)
| แบบอย่าง | มรดก (รายงาน) | มรดก (ทำซ้ำ) | สะอาดหมดจด |
|---|---|---|---|
| Stylegan2 ( + ADA + TUNING) [Karras et al, 2020] | - | - | 8.20 ± 0.10 |
| Stylegan2 (+ADA) [Karras et al, 2020] | - | - | 9.26 ± 0.06 |
| Stylegan2 (Diff-Augment) [Zhao et al, 2020] [CKPT] | 9.89 | 9.90 ± 0.09 | 10.85 ± 0.10 |
| Stylegan2 (Mirror-Flips) [Karras et al, 2020] [CKPT] | 11.07 | 11.07 ± 0.10 | 12.96 ± 0.07 |
| stylegan2 (ไม่มี flips) [Karras et al, 2020] | - | - | 14.53 ± 0.13 |
| autogan (config a) [Gong et al, 2019] | - | - | 21.18 ± 0.12 |
| autogan (config b) [Gong et al, 2019] | - | - | 22.46 ± 0.15 |
| autogan (config c) [Gong et al, 2019] | - | - | 23.62 ± 0.30 |
†วิธีการเหล่านี้ใช้ชุดการฝึกอบรมเป็นการกระจายอ้างอิงและเปรียบเทียบกับภาพที่สร้างขึ้น 50k
ข้อมูล 20%
| แบบอย่าง | มรดก (รายงาน) | มรดก (ทำซ้ำ) | สะอาดหมดจด |
|---|---|---|---|
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 12.15 | 12.12 ± 0.15 | 14.18 ± 0.13 |
| Stylegan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 23.08 | 23.01 ± 0.19 | 29.49 ± 0.17 |
ข้อมูล 10%
| แบบอย่าง | มรดก (รายงาน) | มรดก (ทำซ้ำ) | สะอาดหมดจด |
|---|---|---|---|
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 14.50 | 14.53 ± 0.12 | 16.98 ± 0.18 |
| Stylegan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 36.02 | 35.94 ± 0.17 | 43.60 ± 0.17 |
ชุด test ใช้เป็นการกระจายอ้างอิงและเปรียบเทียบกับภาพที่สร้างขึ้น 10k
ข้อมูล 100%
| แบบอย่าง | มรดก (รายงาน) | มรดก (ทำซ้ำ) | สะอาดหมดจด |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 16.54 | 16.44 ± 0.19 | 18.44 ± 0.24 |
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 15.22 | 15.15 ± 0.13 | 16.80 ± 0.13 |
ข้อมูล 20%
| แบบอย่าง | มรดก (รายงาน) | มรดก (ทำซ้ำ) | สะอาดหมดจด |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 32.30 | 32.26 ± 0.19 | 34.88 ± 0.14 |
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 16.65 | 16.74 ± 0.10 | 18.49 ± 0.08 |
ข้อมูล 10%
| แบบอย่าง | มรดก (รายงาน) | มรดก (ทำซ้ำ) | สะอาดหมดจด |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 45.87 | 45.97 ± 0.20 | 46.77 ± 0.19 |
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 20.75 | 20.69 ± 0.12 | 23.40 ± 0.09 |
รูปภาพทั้งหมด @ 1024x1024
ค่าถูกคำนวณโดยใช้ภาพที่สร้างขึ้น 50k
| แบบอย่าง | มรดก (รายงาน) | มรดก (ทำซ้ำ) | สะอาดหมดจด | แยกอ้างอิง |
|---|---|---|---|---|
| Stylegan1 (config a) [Karras et al, 2020] | 4.4 | 4.39 ± 0.03 | 4.77 ± 0.03 | trainval |
| Stylegan2 (config b) [Karras et al, 2020] | 4.39 | 4.43 ± 0.03 | 4.89 ± 0.03 | trainval |
| Stylegan2 (config c) [Karras et al, 2020] | 4.38 | 4.40 ± 0.02 | 4.79 ± 0.02 | trainval |
| Stylegan2 (config d) [Karras et al, 2020] | 4.34 | 4.34 ± 0.02 | 4.78 ± 0.03 | trainval |
| Stylegan2 (config e) [Karras et al, 2020] | 3.31 | 3.33 ± 0.02 | 3.79 ± 0.02 | trainval |
| Stylegan2 (config f) [Karras et al, 2020] [CKPT] | 2.84 | 2.83 +- 0.03 | 3.06 +- 0.02 | trainval |
| Stylegan2 [Karras et al, 2020] [CKPT] | N/A | 2.76 ± 0.03 | 2.98 ± 0.03 | trainval70k |
140K - รูปภาพ @ 256x256 (ชุดการฝึกอบรมทั้งหมดด้วยการพลิกแนวนอน) ภาพ 70K จากชุด trainval70k ถูกใช้เป็นภาพอ้างอิงและเปรียบเทียบกับภาพที่สร้างขึ้น 50K
| แบบอย่าง | มรดก (รายงาน) | มรดก (ทำซ้ำ) | สะอาดหมดจด |
|---|---|---|---|
| ZCR [Zhao et al, 2020] † | 3.45 ± 0.19 | 3.29 ± 0.01 | 3.40 ± 0.01 |
| Stylegan2 [Karras et al, 2020] † | 3.66 ± 0.10 | 3.57 ± 0.03 | 3.73 ± 0.03 |
| Pa-Gan [Zhang and Khoreva et al, 2019] † | 3.78 ± 0.06 | 3.67 ± 0.03 | 3.81 ± 0.03 |
| Stylegan2-ADA [Karras et al, 2020] † | 3.88 ± 0.13 | 3.84 ± 0.02 | 3.93 ± 0.02 |
| การหมุนเสริม [Chen et al, 2019] † | 4.16 ± 0.05 | 4.10 ± 0.02 | 4.29 ± 0.03 |
| Dropout Adaptive [Karras et al, 2020] † | 4.16 ± 0.05 | 4.09 ± 0.02 | 4.20 ± 0.02 |
| บรรทัดฐานทางสเปกตรัม [Miyato et al, 2018] † | 4.60 ± 0.19 | 4.43 ± 0.02 | 4.65 ± 0.02 |
| WGAN-GP [Gulrajani et al, 2017] † | 6.54 ± 0.37 | 6.19 ± 0.03 | 6.62 ± 0.03 |
†รายงานโดย [Karras et al, 2020]
30k - รูปภาพ @ 256x256 (ไม่กี่นัดช็อต)
ภาพ 70k จากชุด trainval70k ใช้เป็นภาพอ้างอิงและเปรียบเทียบกับภาพที่สร้างขึ้น 50k
| แบบอย่าง | มรดก (รายงาน) | มรดก (ทำซ้ำ) | สะอาดหมดจด |
|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 6.16 | 6.14 ± 0.064 | 6.49 ± 0.068 |
| Diffaugment-stylegan2 [Zhao et al, 2020] [CKPT] | 5.05 | 5.07 ± 0.030 | 5.18 ± 0.032 |
10K - รูปภาพ @ 256x256 (ไม่กี่นัดช็อต)
ภาพ 70k จากชุด trainval70k ใช้เป็นภาพอ้างอิงและเปรียบเทียบกับภาพที่สร้างขึ้น 50k
| แบบอย่าง | มรดก (รายงาน) | มรดก (ทำซ้ำ) | สะอาดหมดจด |
|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 14.75 | 14.88 ± 0.070 | 16.04 ± 0.078 |
| Diffaugment-stylegan2 [Zhao et al, 2020] [CKPT] | 7.86 | 7.82 ± 0.045 | 8.12 ± 0.044 |
5K - รูปภาพ @ 256x256 (ไม่กี่ช็อตช็อต)
ภาพ 70k จากชุด trainval70k ใช้เป็นภาพอ้างอิงและเปรียบเทียบกับภาพที่สร้างขึ้น 50k
| แบบอย่าง | มรดก (รายงาน) | มรดก (ทำซ้ำ) | สะอาดหมดจด |
|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 26.60 | 26.64 ± 0.086 | 28.17 ± 0.090 |
| Diffaugment-stylegan2 [Zhao et al, 2020] [CKPT] | 10.45 | 10.45 ± 0.047 | 10.99 ± 0.050 |
1K - รูปภาพ @ 256x256 (ไม่กี่นัดช็อต)
ภาพ 70k จากชุด trainval70k ใช้เป็นภาพอ้างอิงและเปรียบเทียบกับภาพที่สร้างขึ้น 50k
| แบบอย่าง | มรดก (รายงาน) | มรดก (ทำซ้ำ) | สะอาดหมดจด |
|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 62.16 | 62.14 ± 0.108 | 64.17 ± 0.113 |
| Diffaugment-stylegan2 [Zhao et al, 2020] [CKPT] | 25.66 | 25.60 ± 0.071 | 27.26 ± 0.077 |
ข้อมูล 100%
ภาพ 50K จากชุด train ใช้เป็นภาพอ้างอิงและเปรียบเทียบกับภาพที่สร้างขึ้น 50K
| หมวดหมู่ | แบบอย่าง | มรดก (รายงาน) | มรดก (ทำซ้ำ) | สะอาดหมดจด |
|---|---|---|---|---|
| โบสถ์กลางแจ้ง | Stylegan2 [Karras et al, 2020] [CKPT] | 3.86 | 3.87 ± 0.029 | 4.08 ± 0.028 |
| ม้า | Stylegan2 [Karras et al, 2020] [CKPT] | 3.43 | 3.41 ± 0.021 | 3.62 ± 0.023 |
| แมว | Stylegan2 [Karras et al, 2020] [CKPT] | 6.93 | 7.02 ± 0.039 | 7.47 ± 0.035 |
LSUN CAT - รูปภาพ 30K (รุ่นช็อตน้อย)
ภาพทั้งหมด 1,657,264 ภาพจาก trainfull Split ถูกใช้เป็นภาพอ้างอิงและเปรียบเทียบกับภาพที่สร้างขึ้น 50k
| แบบอย่าง | มรดก (รายงาน) | มรดก (ทำซ้ำ) | สะอาดหมดจด |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 10.12 | 10.15 ± 0.04 | 10.87 ± 0.04 |
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 9.68 | 9.70 ± 0.07 | 10.25 ± 0.07 |
LSUN CAT - ภาพ 10K (รุ่นช็อตน้อย)
ภาพทั้งหมด 1,657,264 ภาพจาก trainfull Split ถูกใช้เป็นภาพอ้างอิงและเปรียบเทียบกับภาพที่สร้างขึ้น 50k
| แบบอย่าง | มรดก (รายงาน) | มรดก (ทำซ้ำ) | สะอาดหมดจด |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 17.93 | 17.98 ± 0.09 | 18.71 ± 0.09 |
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 12.07 | 12.04 ± 0.08 | 12.53 ± 0.08 |
LSUN CAT - ภาพ 5K (รุ่นช็อตน้อย)
ภาพทั้งหมด 1,657,264 ภาพจาก trainfull Split ถูกใช้เป็นภาพอ้างอิงและเปรียบเทียบกับภาพที่สร้างขึ้น 50k
| แบบอย่าง | มรดก (รายงาน) | มรดก (ทำซ้ำ) | สะอาดหมดจด |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 34.69 | 34.66 ± 0.12 | 35.85 ± 0.12 |
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 16.11 | 16.11 ± 0.09 | 16.79 ± 0.09 |
LSUN CAT - ภาพ 1K (รุ่นช็อตน้อย)
ภาพทั้งหมด 1,657,264 ภาพจาก trainfull Split ถูกใช้เป็นภาพอ้างอิงและเปรียบเทียบกับภาพที่สร้างขึ้น 50k
| แบบอย่าง | มรดก (รายงาน) | มรดก (ทำซ้ำ) | สะอาดหมดจด |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 182.85 | 182.80 ± 0.21 | 185.86 ± 0.21 |
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 42.26 | 42.07 ± 0.16 | 43.12 ± 0.16 |
สุนัข AFHQ
ภาพทั้งหมด 4739 ภาพจากการแยก train เป็นภาพอ้างอิงและเปรียบเทียบกับภาพที่สร้างขึ้น 50k
| แบบอย่าง | มรดก (รายงาน) | มรดก (ทำซ้ำ) | สะอาดหมดจด |
|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 19.37 | 19.34 ± 0.08 | 20.10 ± 0.08 |
| Stylegan2-ADA [Karras et al, 2020] [CKPT] | 7.40 | 7.41 ± 0.02 | 7.61 ± 0.02 |
AFHQ Wild
ภาพทั้งหมด 4738 ภาพจากการแยก train ใช้เป็นภาพอ้างอิงและเปรียบเทียบกับภาพที่สร้างขึ้น 50k
| แบบอย่าง | มรดก (รายงาน) | มรดก (ทำซ้ำ) | สะอาดหมดจด |
|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 3.48 | 3.55 ± 0.03 | 3.66 ± 0.02 |
| Stylegan2-ADA [Karras et al, 2020] [CKPT] | 3.05 | 3.01 ± 0.02 | 3.03 ± 0.02 |
ภาพทั้งหมดในปี 1944 จากการแยก train เป็นภาพอ้างอิงและเปรียบเทียบกับภาพที่สร้างขึ้น 50k
| แบบอย่าง | มรดก บด (รายงาน) | มรดก บด (ทำซ้ำ) | สะอาดหมดจด | มรดก เด็ก (รายงาน) 10^3 | มรดก เด็ก (ทำซ้ำ) 10^3 | ทำความสะอาด เด็ก 10^3 |
|---|---|---|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 97.72 | 97.46 ± 0.17 | 98.35 ± 0.17 | 89.76 | 89.90 ± 0.31 | 92.51 ± 0.32 |
| Stylegan2-ADA [Karras et al, 2020] [CKPT] | 15.71 | 15.70 ± 0.06 | 15.63 ± 0.06 | 2.88 | 2.93 ± 0.08 | 3.08 ± 0.08 |
ภาพทั้งหมด 1336 ภาพจากการแยก train ใช้เป็นภาพอ้างอิงและเปรียบเทียบกับภาพที่สร้างขึ้น 50k
| แบบอย่าง | มรดก บด (รายงาน) | มรดก บด (ทำซ้ำ) | สะอาดหมดจด | มรดก เด็ก (รายงาน) 10^3 | มรดก เด็ก (ทำซ้ำ) 10^3 | ทำความสะอาด เด็ก 10^3 |
|---|---|---|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 57.26 | 57.36 ± 0.10 | 65.74 ± 0.11 | 35.66 | 35.69 ± 0.16 | 40.90 ± 0.14 |
| Stylegan2-ADA [Karras et al, 2020] [CKPT] | 18.22 | 18.18 ± 0.03 | 19.60 ± 0.03 | 2.41 | 2.38 ± 0.05 | 2.86 ± 0.04 |
ภาพทั้งหมด 140 ภาพจากการแยก test ใช้เป็นภาพอ้างอิงและเปรียบเทียบกับภาพที่แปล 120 ภาพ
| แบบอย่าง | มรดก (รายงาน) | มรดก (ทำซ้ำ) | สะอาดหมดจด |
|---|---|---|---|
| ตัด [Park et al, 2020] | 45.5 | 45.51 | 43.71 |
| ระยะทาง [Benaim and Wolf et al, 2017] รายงานโดย [Park et al, 2020] | 72.0 | 71.97 | 71.01 |
| Fastcut [Park et al, 2020] | 73.4 | 73.38 | 72.53 |
| Cyclegan [Zhu et al, 2017] รายงานโดย [Park et al, 2020] | 77.2 | 77.20 | 75.17 |
| Selfdistance [Benaim and Wolf et al, 2017] รายงานโดย [Park et al, 2020] | 80.8 | 80.78 | 79.28 |
| Gcgan [Fu et al, 2019] รายงานโดย [Park et al, 2020] | 86.7 | 85.86 | 83.65 |
| Munit [Huang et al, 2018] รายงานโดย [Park et al, 2020] | 133.8 | - | 120.48 |
| Drit [Lee et al, 2017] รายงานโดย [Park et al, 2020] | 140.0 | - | 99.56 |
†ภาพที่แปลสำหรับวิธีการเหล่านี้ถูกเปรียบเทียบโดย [Park et al, 2020] โดยใช้การบีบอัด. jpeg เราฝึกอบรมสองวิธีนี้โดยใช้ protocal เดียวกันและสร้างภาพเป็น. png สำหรับการเปรียบเทียบที่เป็นธรรม
ภาพทั้งหมด 500 ภาพจากการแยก test ใช้เป็นภาพอ้างอิงและเปรียบเทียบกับภาพที่แปล 500 ภาพ
| แบบอย่าง | มรดก (รายงาน) | มรดก (ทำซ้ำ) | สะอาดหมดจด |
|---|---|---|---|
| ตัด [Park et al, 2020] | 76.2 | 76.21 | 77.58 |
| Fastcut [Park et al, 2020] | 94.0 | 93.95 | 95.37 |
| Gcgan [Fu et al, 2019] รายงานโดย [Park et al, 2020] | 96.6 | 96.61 | 96.49 |
| Munit [Huang et al, 2018] รายงานโดย [Park et al, 2020] | 104.4 | - | 123.73 |
| Drit [Lee et al, 2017] รายงานโดย [Park et al, 2020] | 123.4 | - | 127.21 |
| Selfdistance [Benaim and Wolf et al, 2017] รายงานโดย [Park et al, 2020] | 144.4 | 144.42 | 147.23 |
| ระยะทาง [Benaim and Wolf et al, 2017] รายงานโดย [Park et al, 2020] | 155.3 | 155.34 | 158.39 |
†ภาพที่แปลสำหรับวิธีการเหล่านี้ถูกเปรียบเทียบโดย [Park et al, 2020] โดยใช้การบีบอัด. jpeg เราฝึกอบรมสองวิธีนี้โดยใช้ protocal เดียวกันและสร้างภาพเป็น. png สำหรับการเปรียบเทียบที่เป็นธรรม
ไฟฉาย-Fidelity: ตัวชี้วัดประสิทธิภาพความเที่ยงตรงสูงสำหรับรุ่นกำเนิดใน Pytorch
TTUR: กฎการอัปเดตสองช่วงเวลาสำหรับการฝึกอบรม GANS
LPIPS: การรับรู้การวัดความคล้ายคลึงกันและชุดข้อมูล
วัสดุทั้งหมดในที่เก็บนี้มีให้ภายใต้ใบอนุญาต MIT
Inception_pytorch.py มาจากการใช้งาน Pytorch ของ FID ที่จัดทำโดย Maximilian Seitzer ไฟล์เหล่านี้ถูกแชร์ภายใต้ใบอนุญาต Apache 2.0
Inception-2015-12-05.PT เป็นแบบจำลอง Torchscript ของเครือข่าย Inception-V3 ที่ผ่านการฝึกอบรมมาก่อนโดย Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens และ Zbigniew Wojna เดิมเครือข่ายถูกแชร์ภายใต้ใบอนุญาต Apache 2.0 บนพื้นที่เก็บข้อมูลรุ่น Tensorflow เสื้อคลุม Torchscript จัดทำโดย Tero Karras และ Miika Aittala และ Janne Hellsten และ Samuli Laine และ Jaakko Lehtinen และ Timo Aila ซึ่งได้รับการปล่อยตัวภายใต้ใบอนุญาตรหัสแหล่งที่มาของ Nvidia