프로젝트 | 종이 | 슬라이드 | Colab-fid | Colab-resize | 리더 보드 테이블
빠른 시작 : FID 계산 | 아이를 계산하십시오
클립 기능을 사용하여 FID를 계산하는 [Kynkäänniemi et al, 2022] 가 지원됩니다. 자세한 내용은 여기를 참조하십시오.
FID 계산에는 최종 메트릭에서 불일치를 생성 할 수있는 많은 단계가 포함됩니다. 아래에 표시된 바와 같이, 다른 구현은 다른 저수준 이미지 양자화 및 크기 조정 함수를 사용하며, 후자는 종종 잘못 구현됩니다.
우리는 위의 문제를 해결하고 다른 방법, 논문 및 그룹에서 FID 점수를 비교할 수있는 사용하기 쉬운 라이브러리를 제공합니다.
GAN 평가에서 별명 크기 조정 및 놀라운 미묘함
Gaurav Parmar, Richard Zhang, Jun-yan Zhu
CVPR, 2022
CMU 및 Adobe
이 저장소가 귀하의 연구에 유용하다고 생각되면 다음 작업을 인용하십시오.
@inproceedings{parmar2021cleanfid,
title={On Aliased Resizing and Surprising Subtleties in GAN Evaluation},
author={Parmar, Gaurav and Zhang, Richard and Zhu, Jun-Yan},
booktitle={CVPR},
year={2022}
}
별칭 크기 조정 작업
기능 크기 조정 기능의 정의는 수학적이며 사용중인 라이브러리의 함수가되어서는 안됩니다 . 불행히도, 구현은 일반적으로 사용되는 라이브러리마다 다릅니다. 그들은 종종 인기있는 라이브러리에 의해 잘못 구현됩니다. Google Colab 노트북에서 다양한 크기 조정 구현을 사용해보십시오.
구현의 불일치는 평가 지표의 급격한 영향을 미칠 수 있습니다. 아래 표는 다른 라이브러리 (OpenCV, Pytorch, Tensorflow, OpenCV)의 Bicubic 구현으로 크기가 조정 된 FFHQ 데이터 세트 이미지가 올바르게 구현 된 Pil-Bicubic 필터와 크게 조정 될 때 큰 FID 점수 (≥ 6)를 가지고 있음을 보여줍니다. PIL (Lanczos, Bilinear, Box)에서 올바르게 구현 된 다른 필터는 모두 비교적 작은 FID 점수 (≤ 0.75)를 초래합니다. TF 2.0이므로 새로운 플래그 antialias (기본값 : False )는 PIL에 가까운 결과를 생성 할 수 있습니다. 그러나 기존 TF-FID Repo에는 사용되지 않았으며 기본적으로 False 로 설정되었습니다.
JPEG 이미지 압축
이미지 압축은 FID에 놀랍게도 큰 영향을 줄 수 있습니다. 이미지는 지각 적으로 서로 구별 할 수 없지만 FID 점수가 크다. 이미지의 FID 점수는 해당 JPEG 형식과 PNG 형식을 사용하여 저장된 모든 FFHQ 이미지 사이에서 계산됩니다.
아래에서 우리는 FFHQ 데이터 세트 (왼쪽) 및 LSUN Outdoor Church DataSet (오른쪽)에 대한 훈련 된 StyleGan2 모델에 대한 JPEG 압축의 효과를 연구합니다. LSUN 데이터 세트 이미지는 JPEG 압축 (품질 75)으로 수집되었으며, FFHQ 이미지는 PNG로 수집되었습니다. 흥미롭게도 LSUN 데이터 세트의 경우 생성 된 이미지가 JPEG 품질 87로 압축 될 때 최고의 FID 점수 (3.48)가 얻어집니다.
pip install clean-fid
from cleanfid import fid
score = fid.compute_fid(fdir1, fdir2)
FFHQ ) from cleanfid import fid
score = fid.compute_fid(fdir1, dataset_name="FFHQ", dataset_res=1024, dataset_split="trainval70k")
from cleanfid import fid
# function that accepts a latent and returns an image in range[0,255]
gen = lambda z: GAN(latent=z, ... , <other_flags>)
score = fid.compute_fid(gen=gen, dataset_name="FFHQ",
dataset_res=256, num_gen=50_000, dataset_split="trainval70k")
FID를 계산할 때 클립 기능을 사용하려면 [Kynkäänniemi et al, 2022], 플래그 model_name="clip_vit_b_32" 지정하십시오.
from cleanfid import fid
score = fid.compute_fid(fdir1, fdir2, mode="clean", model_name="clip_vit_b_32")
KID 점수는 FID와 유사한 인터페이스를 사용하여 계산할 수 있습니다. 어린이의 데이터 세트 통계는 소규모 데이터 세트 AFHQ , BreCaHAD 및 MetFaces 에 대해서만 계산됩니다.
from cleanfid import fid
score = fid.compute_kid(fdir1, fdir2)
from cleanfid import fid
score = fid.compute_kid(fdir1, dataset_name="brecahad", dataset_res=512, dataset_split="train")
from cleanfid import fid
# function that accepts a latent and returns an image in range[0,255]
gen = lambda z: GAN(latent=z, ... , <other_flags>)
score = fid.compute_kid(gen=gen, dataset_name="brecahad", dataset_res=512, num_gen=50_000, dataset_split="train")
일반적으로 사용되는 구성에 대한 사전 콤비네이션 통계를 제공합니다. 새 데이터 세트에 대한 통계를 추가하려면 당사에 문의하십시오.
| 일 | 데이터 세트 | 해결 | 참조 분할 | # 참조 이미지 | 방법 |
|---|---|---|---|---|---|
| 이미지 생성 | cifar10 | 32 | train | 50,000 | clean legacy_tensorflow , legacy_pytorch |
| 이미지 생성 | cifar10 | 32 | test | 10,000 | clean legacy_tensorflow , legacy_pytorch |
| 이미지 생성 | ffhq | 1024, 256 | trainval | 50,000 | clean legacy_tensorflow , legacy_pytorch |
| 이미지 생성 | ffhq | 1024, 256 | trainval70k | 70,000 | clean legacy_tensorflow , legacy_pytorch |
| 이미지 생성 | lsun_church | 256 | train | 50,000 | clean legacy_tensorflow , legacy_pytorch |
| 이미지 생성 | lsun_church | 256 | trainfull | 126,227 | clean |
| 이미지 생성 | lsun_horse | 256 | train | 50,000 | clean legacy_tensorflow , legacy_pytorch |
| 이미지 생성 | lsun_horse | 256 | trainfull | 2,000,340 | clean |
| 이미지 생성 | lsun_cat | 256 | train | 50,000 | clean legacy_tensorflow , legacy_pytorch |
| 이미지 생성 | lsun_cat | 256 | trainfull | 1,657,264 | clean legacy_tensorflow , legacy_pytorch |
| 몇 가지 샷 세대 | afhq_cat | 512 | train | 5153 | clean legacy_tensorflow , legacy_pytorch |
| 몇 가지 샷 세대 | afhq_dog | 512 | train | 4739 | clean legacy_tensorflow , legacy_pytorch |
| 몇 가지 샷 세대 | afhq_wild | 512 | train | 4738 | clean legacy_tensorflow , legacy_pytorch |
| 몇 가지 샷 세대 | brecahad | 512 | train | 1944 | clean legacy_tensorflow , legacy_pytorch |
| 몇 가지 샷 세대 | metfaces | 1024 | train | 1336 | clean legacy_tensorflow , legacy_pytorch |
| 이미지에서 이미지 | horse2zebra | 256 | test | 140 | clean legacy_tensorflow , legacy_pytorch |
| 이미지에서 이미지 | cat2dog | 256 | test | 500 | clean legacy_tensorflow , legacy_pytorch |
미리 계산 된 통계를 사용하여 미리 계산 된 데이터 세트 통계로 FID 점수를 계산하려면 해당 옵션을 사용하십시오. 예를 들어, 생성 된 256x256 FFHQ 이미지에서 깨끗한 충전 점수를 계산하려면 다음 명령을 사용하십시오.
fid_score = fid.compute_fid(fdir1, dataset_name="ffhq", dataset_res=256, mode="clean", dataset_split="trainval70k")
DataSet_Path : 데이터 세트 이미지가 저장되는 폴더
Custom_Name : 통계에 사용할 이름입니다
사용자 정의 통계 생성 (로컬 캐시에 저장)
from cleanfid import fid
fid.make_custom_stats(custom_name, dataset_path, mode="clean")
생성 된 사용자 정의 통계 사용
from cleanfid import fid
score = fid.compute_fid("folder_fake", dataset_name=custom_name,
mode="clean", dataset_split="custom")
커스텀 통계 제거
from cleanfid import fid
fid.remove_custom_stats(custom_name, mode="clean")
사용자 정의 통계가 이미 존재하는지 확인하십시오
from cleanfid import fid
fid.test_stats_exists(custom_name, mode)
레거시 FID 점수를 재현하기위한 두 개의 플래그를 제공합니다.
mode="legacy_pytorch"
이 플래그는 여기에서 제공되는 인기있는 Pytorch FID 구현을 사용하는 것과 같습니다.
이 옵션과 Clean Fid를 사용하는 것의 차이점은 ~ 2E-06 입니다.
방법 비교 방법은 DOC를 참조하십시오
mode="legacy_tensorflow"
이 플래그는 저자가 발표 한 FID의 공식 구현을 사용하는 것과 같습니다.
이 옵션과 Clean Fid를 사용하는 것의 차이점은 ~ 2E-05 입니다.
방법 비교 방법에 대한 자세한 단계는 문서를 참조하십시오.
python setup.py bdist_wheel
pip install dist/*
우리는 원래 논문에 사용 된 해당 방법과 여기에서 제안 된 깨끗한 실체를 사용하여 FID 점수를 계산합니다. 모든 값은 10 개의 평가 실행을 사용하여 계산됩니다. PIP 패키지에서 직접 아래 표에 표시된 결과를 쿼리하기 위해 API를 제공합니다.
리더 보드에 새로운 숫자와 모델을 추가하려면 언제든지 저희에게 연락하십시오.
test 세트는 기준 분포로 사용되며 10K 생성 이미지와 비교됩니다.
100% 데이터 (무조건)
| 모델 | 레거시 고정 (보고) | 레거시 고정 (복제) | 깨끗한 고정 |
|---|---|---|---|
| Stylegan2 ( + ada + 튜닝) [Karras et al, 2020] | - † | - † | 8.20 ± 0.10 |
| Stylegan2 (+ada) [Karras et al, 2020] | - † | - † | 9.26 ± 0.06 |
| Stylegan2 (diff-augment) [Zhao et al, 2020] [ckpt] | 9.89 | 9.90 ± 0.09 | 10.85 ± 0.10 |
| Stylegan2 (Mirror-Flips) [Karras et al, 2020] [CKPT] | 11.07 | 11.07 ± 0.10 | 12.96 ± 0.07 |
| Stylegan2 (플립 없음) [Karras et al, 2020] | - † | - † | 14.53 ± 0.13 |
| Autogan (구성 A) [Gong et al, 2019] | - † | - † | 21.18 ± 0.12 |
| Autogan (구성 B) [Gong et al, 2019] | - † | - † | 22.46 ± 0.15 |
| Autogan (Config C) [Gong et al, 2019] | - † | - † | 23.62 ± 0.30 |
†이 방법은 교육 세트를 참조 분포로 사용하고 50k 생성 이미지와 비교합니다.
20% 데이터
| 모델 | 레거시 고정 (보고) | 레거시 고정 (복제) | 깨끗한 고정 |
|---|---|---|---|
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 12.15 | 12.12 ± 0.15 | 14.18 ± 0.13 |
| Stylegan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 23.08 | 23.01 ± 0.19 | 29.49 ± 0.17 |
10% 데이터
| 모델 | 레거시 고정 (보고) | 레거시 고정 (복제) | 깨끗한 고정 |
|---|---|---|---|
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 14.50 | 14.53 ± 0.12 | 16.98 ± 0.18 |
| Stylegan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 36.02 | 35.94 ± 0.17 | 43.60 ± 0.17 |
test 세트는 기준 분포로 사용되며 10K 생성 이미지와 비교됩니다.
100% 데이터
| 모델 | 레거시 고정 (보고) | 레거시 고정 (복제) | 깨끗한 고정 |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 16.54 | 16.44 ± 0.19 | 18.44 ± 0.24 |
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 15.22 | 15.15 ± 0.13 | 16.80 ± 0.13 |
20% 데이터
| 모델 | 레거시 고정 (보고) | 레거시 고정 (복제) | 깨끗한 고정 |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 32.30 | 32.26 ± 0.19 | 34.88 ± 0.14 |
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 16.65 | 16.74 ± 0.10 | 18.49 ± 0.08 |
10% 데이터
| 모델 | 레거시 고정 (보고) | 레거시 고정 (복제) | 깨끗한 고정 |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 45.87 | 45.97 ± 0.20 | 46.77 ± 0.19 |
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 20.75 | 20.69 ± 0.12 | 23.40 ± 0.09 |
모든 이미지 @ 1024x1024
값은 50K 생성 이미지를 사용하여 계산됩니다
| 모델 | 레거시 고정 (보고) | 레거시 고정 (복제) | 깨끗한 고정 | 참조 분할 |
|---|---|---|---|---|
| Stylegan1 (구성 A) [Karras et al, 2020] | 4.4 | 4.39 ± 0.03 | 4.77 ± 0.03 | trainval |
| Stylegan2 (config b) [Karras et al, 2020] | 4.39 | 4.43 ± 0.03 | 4.89 ± 0.03 | trainval |
| Stylegan2 (config c) [Karras et al, 2020] | 4.38 | 4.40 ± 0.02 | 4.79 ± 0.02 | trainval |
| Stylegan2 (구성 D) [Karras et al, 2020] | 4.34 | 4.34 ± 0.02 | 4.78 ± 0.03 | trainval |
| Stylegan2 (구성 E) [Karras et al, 2020] | 3.31 | 3.33 ± 0.02 | 3.79 ± 0.02 | trainval |
| Stylegan2 (config f) [Karras et al, 2020] [CKPT] | 2.84 | 2.83 +-0.03 | 3.06 +-0.02 | trainval |
| Stylegan2 [Karras et al, 2020] [CKPT] | N/A | 2.76 ± 0.03 | 2.98 ± 0.03 | trainval70k |
140K- 이미지 @ 256x256 (수평 플립이있는 전체 교육 세트) trainval70k 세트의 70k 이미지는 기준 이미지로 사용되며 50k 생성 이미지와 비교됩니다.
| 모델 | 레거시 고정 (보고) | 레거시 고정 (복제) | 깨끗한 고정 |
|---|---|---|---|
| ZCR [Zhao et al, 2020] † | 3.45 ± 0.19 | 3.29 ± 0.01 | 3.40 ± 0.01 |
| Stylegan2 [Karras et al, 2020] † | 3.66 ± 0.10 | 3.57 ± 0.03 | 3.73 ± 0.03 |
| Pa-gan [Zhang and Khoreva et al, 2019] † | 3.78 ± 0.06 | 3.67 ± 0.03 | 3.81 ± 0.03 |
| Stylegan2-Ada [Karras et al, 2020] † | 3.88 ± 0.13 | 3.84 ± 0.02 | 3.93 ± 0.02 |
| 보조 회전 [Chen et al, 2019] † | 4.16 ± 0.05 | 4.10 ± 0.02 | 4.29 ± 0.03 |
| 적응 형 중퇴 [Karras et al, 2020] † | 4.16 ± 0.05 | 4.09 ± 0.02 | 4.20 ± 0.02 |
| 스펙트럼 규범 [Miyato et al, 2018] † | 4.60 ± 0.19 | 4.43 ± 0.02 | 4.65 ± 0.02 |
| WGAN-GP [Gulrajani et al, 2017] † | 6.54 ± 0.37 | 6.19 ± 0.03 | 6.62 ± 0.03 |
† [Karras et al, 2020]
30k- 이미지 @ 256x256 (몇 개의 샷 생성)
trainval70k 세트의 70k 이미지는 참조 이미지로 사용되며 50k 생성 이미지와 비교됩니다.
| 모델 | 레거시 고정 (보고) | 레거시 고정 (복제) | 깨끗한 고정 |
|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 6.16 | 6.14 ± 0.064 | 6.49 ± 0.068 |
| Diffaugment-Stylegan2 [Zhao et al, 2020] [CKPT] | 5.05 | 5.07 ± 0.030 | 5.18 ± 0.032 |
10k- 이미지 @ 256x256 (몇 개의 샷 생성)
trainval70k 세트의 70k 이미지는 참조 이미지로 사용되며 50k 생성 이미지와 비교됩니다.
| 모델 | 레거시 고정 (보고) | 레거시 고정 (복제) | 깨끗한 고정 |
|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 14.75 | 14.88 ± 0.070 | 16.04 ± 0.078 |
| Diffaugment-Stylegan2 [Zhao et al, 2020] [CKPT] | 7.86 | 7.82 ± 0.045 | 8.12 ± 0.044 |
5K- 이미지 @ 256x256 (몇 개의 샷 생성)
trainval70k 세트의 70k 이미지는 참조 이미지로 사용되며 50k 생성 이미지와 비교됩니다.
| 모델 | 레거시 고정 (보고) | 레거시 고정 (복제) | 깨끗한 고정 |
|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 26.60 | 26.64 ± 0.086 | 28.17 ± 0.090 |
| Diffaugment-Stylegan2 [Zhao et al, 2020] [CKPT] | 10.45 | 10.45 ± 0.047 | 10.99 ± 0.050 |
1K- 이미지 @ 256x256 (몇 개의 샷 생성)
trainval70k 세트의 70k 이미지는 참조 이미지로 사용되며 50k 생성 이미지와 비교됩니다.
| 모델 | 레거시 고정 (보고) | 레거시 고정 (복제) | 깨끗한 고정 |
|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 62.16 | 62.14 ± 0.108 | 64.17 ± 0.113 |
| Diffaugment-Stylegan2 [Zhao et al, 2020] [CKPT] | 25.66 | 25.60 ± 0.071 | 27.26 ± 0.077 |
100% 데이터
train 세트의 50K 이미지는 기준 이미지로 사용되며 50K 생성 이미지와 비교됩니다.
| 범주 | 모델 | 레거시 고정 (보고) | 레거시 고정 (복제) | 깨끗한 고정 |
|---|---|---|---|---|
| 야외 교회 | Stylegan2 [Karras et al, 2020] [CKPT] | 3.86 | 3.87 ± 0.029 | 4.08 ± 0.028 |
| 말 | Stylegan2 [Karras et al, 2020] [CKPT] | 3.43 | 3.41 ± 0.021 | 3.62 ± 0.023 |
| 고양이 | Stylegan2 [Karras et al, 2020] [CKPT] | 6.93 | 7.02 ± 0.039 | 7.47 ± 0.035 |
LSUN CAT -30K 이미지 (몇 개의 샷 생성)
trainfull 분할의 1,657,264 개의 이미지는 참조 이미지로 사용되며 50k 생성 이미지와 비교됩니다.
| 모델 | 레거시 고정 (보고) | 레거시 고정 (복제) | 깨끗한 고정 |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 10.12 | 10.15 ± 0.04 | 10.87 ± 0.04 |
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 9.68 | 9.70 ± 0.07 | 10.25 ± 0.07 |
LSUN CAT -10K 이미지 (몇 개의 샷 생성)
trainfull 분할의 1,657,264 개의 이미지는 참조 이미지로 사용되며 50k 생성 이미지와 비교됩니다.
| 모델 | 레거시 고정 (보고) | 레거시 고정 (복제) | 깨끗한 고정 |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 17.93 | 17.98 ± 0.09 | 18.71 ± 0.09 |
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 12.07 | 12.04 ± 0.08 | 12.53 ± 0.08 |
LSUN CAT -5K 이미지 (몇 개의 샷 생성)
trainfull 분할의 1,657,264 개의 이미지는 참조 이미지로 사용되며 50k 생성 이미지와 비교됩니다.
| 모델 | 레거시 고정 (보고) | 레거시 고정 (복제) | 깨끗한 고정 |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 34.69 | 34.66 ± 0.12 | 35.85 ± 0.12 |
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 16.11 | 16.11 ± 0.09 | 16.79 ± 0.09 |
LSUN CAT -1K 이미지 (몇 개의 샷 생성)
trainfull 분할의 1,657,264 개의 이미지는 참조 이미지로 사용되며 50k 생성 이미지와 비교됩니다.
| 모델 | 레거시 고정 (보고) | 레거시 고정 (복제) | 깨끗한 고정 |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al, 2020] [CKPT] | 182.85 | 182.80 ± 0.21 | 185.86 ± 0.21 |
| Stylegan2-Diff-Augment [Zhao et al, 2020] [CKPT] | 42.26 | 42.07 ± 0.16 | 43.12 ± 0.16 |
AFHQ 개
train Split의 4739 개의 이미지는 참조 이미지로 사용되며 50k 생성 이미지와 비교됩니다.
| 모델 | 레거시 고정 (보고) | 레거시 고정 (복제) | 깨끗한 고정 |
|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 19.37 | 19.34 ± 0.08 | 20.10 ± 0.08 |
| Stylegan2-Ada [Karras et al, 2020] [CKPT] | 7.40 | 7.41 ± 0.02 | 7.61 ± 0.02 |
Afhq Wild
train Split의 4738 개의 이미지는 참조 이미지로 사용되며 50k 생성 이미지와 비교됩니다.
| 모델 | 레거시 고정 (보고) | 레거시 고정 (복제) | 깨끗한 고정 |
|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 3.48 | 3.55 ± 0.03 | 3.66 ± 0.02 |
| Stylegan2-Ada [Karras et al, 2020] [CKPT] | 3.05 | 3.01 ± 0.02 | 3.03 ± 0.02 |
train Split의 1944 년 이미지는 참조 이미지로 사용되며 50k 생성 이미지와 비교됩니다.
| 모델 | 유산 버팀대 (보고) | 유산 버팀대 (복제) | 깨끗한 고정 | 유산 어린이 (보고) 10^3 | 유산 어린이 (복제) 10^3 | 깨끗한 어린이 10^3 |
|---|---|---|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 97.72 | 97.46 ± 0.17 | 98.35 ± 0.17 | 89.76 | 89.90 ± 0.31 | 92.51 ± 0.32 |
| Stylegan2-Ada [Karras et al, 2020] [CKPT] | 15.71 | 15.70 ± 0.06 | 15.63 ± 0.06 | 2.88 | 2.93 ± 0.08 | 3.08 ± 0.08 |
train Split의 모든 1336 개의 이미지는 참조 이미지로 사용되며 50k 생성 이미지와 비교됩니다.
| 모델 | 유산 버팀대 (보고) | 유산 버팀대 (복제) | 깨끗한 고정 | 유산 어린이 (보고) 10^3 | 유산 어린이 (복제) 10^3 | 깨끗한 어린이 10^3 |
|---|---|---|---|---|---|---|
| Stylegan2 [Karras et al, 2020] [CKPT] | 57.26 | 57.36 ± 0.10 | 65.74 ± 0.11 | 35.66 | 35.69 ± 0.16 | 40.90 ± 0.14 |
| Stylegan2-Ada [Karras et al, 2020] [CKPT] | 18.22 | 18.18 ± 0.03 | 19.60 ± 0.03 | 2.41 | 2.38 ± 0.05 | 2.86 ± 0.04 |
test Split의 140 개 이미지는 모두 참조 이미지로 사용되며 120 개의 번역 이미지와 비교됩니다.
| 모델 | 레거시 고정 (보고) | 레거시 고정 (복제) | 깨끗한 고정 |
|---|---|---|---|
| 컷 [Park et al, 2020] | 45.5 | 45.51 | 43.71 |
| 거리 [Benaim and Wolf et al, 2017] [Park et al, 2020] | 72.0 | 71.97 | 71.01 |
| Fastcut [Park et al, 2020] | 73.4 | 73.38 | 72.53 |
| Cyclegan [Zhu et al, 2017]은 [Park et al, 2020]에 의해보고되었습니다. | 77.2 | 77.20 | 75.17 |
| Selfdistance [Benaim and Wolf et al, 2017] [Park et al, 2020] | 80.8 | 80.78 | 79.28 |
| GCGAN [Fu et al, 2019] [Park et al, 2020] | 86.7 | 85.86 | 83.65 |
| Munit [Huang et al, 2018] [Park et al, 2020] | 133.8 | - † | 120.48 |
| DRIT [Lee et al, 2017] [Park et al, 2020] | 140.0 | - † | 99.56 |
† 이들 방법에 대한 번역 된 이미지는 .jpeg 압축을 사용하여 [Park et al, 2020]에 의해 집중적으로 비교되었다. 우리는 동일한 프로토칼을 사용 하여이 두 가지 방법을 재교육하고 공정한 비교를 위해 .png와 이미지를 생성합니다.
test Split의 500 개의 이미지는 참조 이미지로 사용되며 500 개의 번역 이미지와 비교됩니다.
| 모델 | 레거시 고정 (보고) | 레거시 고정 (복제) | 깨끗한 고정 |
|---|---|---|---|
| 컷 [Park et al, 2020] | 76.2 | 76.21 | 77.58 |
| Fastcut [Park et al, 2020] | 94.0 | 93.95 | 95.37 |
| GCGAN [Fu et al, 2019] [Park et al, 2020] | 96.6 | 96.61 | 96.49 |
| Munit [Huang et al, 2018] [Park et al, 2020] | 104.4 | - † | 123.73 |
| DRIT [Lee et al, 2017] [Park et al, 2020] | 123.4 | - † | 127.21 |
| Selfdistance [Benaim and Wolf et al, 2017] [Park et al, 2020] | 144.4 | 144.42 | 147.23 |
| 거리 [Benaim and Wolf et al, 2017] [Park et al, 2020] | 155.3 | 155.34 | 158.39 |
† 이들 방법에 대한 번역 된 이미지는 .jpeg 압축을 사용하여 [Park et al, 2020]에 의해 집중적으로 비교되었다. 우리는 동일한 프로토칼을 사용 하여이 두 가지 방법을 재교육하고 공정한 비교를 위해 .png와 이미지를 생성합니다.
Torch Fidelity : Pytorch의 생성 모델에 대한 고급 성능 지표.
TTUR : 훈련 GAN을위한 2 개의 시간 규모 업데이트 규칙.
LPIPS : 지각 유사성 메트릭 및 데이터 세트.
이 저장소의 모든 자료는 MIT 라이센스에 따라 제공됩니다.
inception_pytorch.py는 Maximilian Seitzer가 제공하는 FID의 Pytorch 구현에서 파생되었습니다. 이 파일은 원래 Apache 2.0 라이센스에 따라 공유되었습니다.
Inception-2015-12-05.pt는 Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens 및 Zbigniew Wojna의 미리 훈련 된 Inception-V3 네트워크의 토치 스크립트 모델입니다. 네트워크는 원래 Tensorflow 모델 저장소에서 Apache 2.0 라이센스에 따라 공유되었습니다. Torchscript 래퍼는 Tero Karras와 Miika Aittala, Janne Hellsten 및 Samuli Laine 및 Jaakko Lehtinen 및 Timo Aila가 Nvidia 소스 코드 라이센스에 의해 제공됩니다.