clean fidダウンロード - clean fidソースコードのダウンロード

clean fid

パイソン

1.0.0

ダウンロード

生成モデルを評価するためのクリーンフィッド

[新しい]クリップ機能を使用してFIDを計算します[Kynkäänniemietal、2022]がサポートされています。詳細については、こちらをご覧ください。

FID計算には、最終的なメトリックで矛盾を生成できる多くのステップが含まれます。以下に示すように、さまざまな実装では、異なる低レベルの画像量子化とサイズ変更関数を使用しますが、後者はしばしば誤って実装されます。

上記の問題に対処し、さまざまな方法、論文、およびグループにわたってFIDスコアを匹敵させるための使いやすいライブラリを提供します。

対応する原稿

Gan評価におけるエイリアスのサイズ変更と驚くべき微妙さについて
Gaurav Parmar、Richard Zhang、Jun-Yan Zhu
CVPR、2022
CMUとAdobe

このリポジトリが研究に役立つと思われる場合は、次の作業を引用してください。

 @inproceedings{parmar2021cleanfid,
  title={On Aliased Resizing and Surprising Subtleties in GAN Evaluation},
  author={Parmar, Gaurav and Zhang, Richard and Zhu, Jun-Yan},
  booktitle={CVPR},
  year={2022}
}

エイリアスのサイズ変更操作

サイズ変更関数の定義は数学的であり、使用されているライブラリの関数であるべきではありません。残念ながら、実装は一般的に使用されるライブラリ間で異なります。多くの場合、人気のあるライブラリによって誤って実装されます。 Google Colabノートブックで、さまざまなサイズ変更の実装をこちらをお試しください。

実装間の矛盾は、評価メトリックの劇的な効果をもたらす可能性があります。以下の表は、他のライブラリ（OpenCV、Pytorch、Tensorflow、OpenCV）からの二気実装でサイズ変更されたFFHQデータセット画像が、正しく実装されたピラビックフィルターでサイズ変更された同じ画像と比較した場合、大きなFIDスコア（≥6）を持っていることを示しています。 PIL（Lanczos、Bilinear、Box）からのその他の正しく実装されたフィルターはすべて、比較的小さいFIDスコア（≤0.75）になります。 TF 2.0以降、新しいフラグantialias （デフォルト： False ）はPILに近い結果を生成できることに注意してください。ただし、既存のTF-FIDリポジトリでは使用されず、デフォルトではFalseとして設定されています。

JPEG画像圧縮

画像圧縮は、FIDに驚くほど大きな影響を与える可能性があります。画像は互いに見分けがつかないが、FIDスコアが大きい。画像の下のFIDスコアは、対応するJPEG形式とPNG形式を使用して保存されたすべてのFFHQ画像間で計算されます。

以下では、FFHQデータセット（左）およびLSUN屋外教会データセット（右）で訓練されたStyleGan2モデルのJPEG圧縮の効果を研究します。 LSUNデータセット画像はJPEG圧縮（品質75）で収集され、FFHQ画像はPNGとして収集されたことに注意してください。興味深いことに、LSUNデータセットの場合、生成された画像がJPEG品質87で圧縮されると、最高のFIDスコア（3.48）が取得されます。

クイックスタート

ライブラリをインストールします
```
 pip install clean-fid
```

コンピューティングfid

2つの画像フォルダー間でFIDを計算します

 from cleanfid import fid
score = fid.compute_fid(fdir1, fdir2)

画像の1つのフォルダーと事前に計算されたデータセット統計の間にFIDを計算する（例： FFHQ ）

 from cleanfid import fid
score = fid.compute_fid(fdir1, dataset_name="FFHQ", dataset_res=1024, dataset_split="trainval70k")

生成モデルと事前に計算されたデータセット統計を使用してFIDを計算します。

 from cleanfid import fid
# function that accepts a latent and returns an image in range[0,255]
gen = lambda z: GAN(latent=z, ... , <other_flags>)
score = fid.compute_fid(gen=gen, dataset_name="FFHQ",
        dataset_res=256, num_gen=50_000, dataset_split="trainval70k")

コンピューティングクリップフィッド

fid [kynkäänniemietal、2022]を計算するときにクリップ機能を使用するには、flag model_name="clip_vit_b_32"を指定します。

たとえば、画像の2つのフォルダー間でクリップ仕上げを計算するには、次のコマンドを使用します。
```
 from cleanfid import fid
score = fid.compute_fid(fdir1, fdir2, mode="clean", model_name="clip_vit_b_32")
```

コンピューティングキッド

KIDスコアは、FIDと同様のインターフェイスを使用して計算できます。 KIDのデータセット統計は、 AFHQ 、 BreCaHAD 、およびMetFaces小さなデータセットに対してのみ事前計算されます。

2つの画像フォルダーの間で子供を計算します

 from cleanfid import fid
score = fid.compute_kid(fdir1, fdir2)

画像の1つのフォルダーと事前に計算されたデータセット統計の間で子供を計算する

 from cleanfid import fid
score = fid.compute_kid(fdir1, dataset_name="brecahad", dataset_res=512, dataset_split="train")

生成モデルと事前に計算されたデータセット統計を使用して子供を計算します。

 from cleanfid import fid
# function that accepts a latent and returns an image in range[0,255]
gen = lambda z: GAN(latent=z, ... , <other_flags>)
score = fid.compute_kid(gen=gen, dataset_name="brecahad", dataset_res=512, num_gen=50_000, dataset_split="train")

サポートされている事前計算されたデータセット

次の一般的に使用される構成の事前計算統計を提供します。新しいデータセットの統計を追加する場合は、お問い合わせください。

タスク	データセット	解決	参照分割	＃参照画像	モード
画像生成	`cifar10`	32	`train`	50,000	`clean` 、 `legacy_tensorflow` 、 `legacy_pytorch`
画像生成	`cifar10`	32	`test`	10,000	`clean` 、 `legacy_tensorflow` 、 `legacy_pytorch`
画像生成	`ffhq`	1024、256	`trainval`	50,000	`clean` 、 `legacy_tensorflow` 、 `legacy_pytorch`
画像生成	`ffhq`	1024、256	`trainval70k`	70,000	`clean` 、 `legacy_tensorflow` 、 `legacy_pytorch`
画像生成	`lsun_church`	256	`train`	50,000	`clean` 、 `legacy_tensorflow` 、 `legacy_pytorch`
画像生成	`lsun_church`	256	`trainfull`	126,227	`clean`
画像生成	`lsun_horse`	256	`train`	50,000	`clean` 、 `legacy_tensorflow` 、 `legacy_pytorch`
画像生成	`lsun_horse`	256	`trainfull`	2,000,340	`clean`
画像生成	`lsun_cat`	256	`train`	50,000	`clean` 、 `legacy_tensorflow` 、 `legacy_pytorch`
画像生成	`lsun_cat`	256	`trainfull`	1,657,264	`clean` 、 `legacy_tensorflow` 、 `legacy_pytorch`
ショット生成はほとんどありません	`afhq_cat`	512	`train`	5153	`clean` 、 `legacy_tensorflow` 、 `legacy_pytorch`
ショット生成はほとんどありません	`afhq_dog`	512	`train`	4739	`clean` 、 `legacy_tensorflow` 、 `legacy_pytorch`
ショット生成はほとんどありません	`afhq_wild`	512	`train`	4738	`clean` 、 `legacy_tensorflow` 、 `legacy_pytorch`
ショット生成はほとんどありません	`brecahad`	512	`train`	1944年	`clean` 、 `legacy_tensorflow` 、 `legacy_pytorch`
ショット生成はほとんどありません	`metfaces`	1024	`train`	1336	`clean` 、 `legacy_tensorflow` 、 `legacy_pytorch`
画像から画像	`horse2zebra`	256	`test`	140	`clean` 、 `legacy_tensorflow` 、 `legacy_pytorch`
画像から画像	`cat2dog`	256	`test`	500	`clean` 、 `legacy_tensorflow` 、 `legacy_pytorch`

事前計算されたデータセット統計でFIDスコアを計算するために事前計算された統計を使用するには、対応するオプションを使用します。たとえば、生成された256x256 FFHQ画像でクリーンフィッドスコアを計算するには、コマンドを使用します。

 fid_score = fid.compute_fid(fdir1, dataset_name="ffhq", dataset_res=256,  mode="clean", dataset_split="trainval70k")

カスタムデータセット統計を作成します

DataSet_Path ：データセット画像が保存されているフォルダー
custom_name ：統計に使用する名前

カスタム統計の生成（ローカルキャッシュに保存）

 from cleanfid import fid
fid.make_custom_stats(custom_name, dataset_path, mode="clean")

生成されたカスタム統計を使用します

 from cleanfid import fid
score = fid.compute_fid("folder_fake", dataset_name=custom_name,
          mode="clean", dataset_split="custom")

カスタム統計の削除

 from cleanfid import fid
fid.remove_custom_stats(custom_name, mode="clean")

カスタム統計が既に存在するかどうかを確認してください
```
 from cleanfid import fid
fid.test_stats_exists(custom_name, mode)
```

後方互換性

レガシーFIDスコアを再現するための2つのフラグを提供します。

mode="legacy_pytorch"
このフラグは、ここで提供される人気のあるPytorch fidの実装を使用することと同等です
このオプションとコードを使用してクリーンFIDを使用することの違いは〜2E-06です
メソッドの比較方法については、Docを参照してください
mode="legacy_tensorflow"
このフラグは、著者がリリースしたFIDの公式実装を使用することと同等です。
このオプションとコードを使用してクリーンFIDを使用することの違いは〜2E-05です
メソッドの比較方法については、詳細な手順についてはドキュメントを参照してください

ソースからローカルにクリーンフィッドを構築します

 python setup.py bdist_wheel
pip install dist/*

一般的なタスク用のCleanFidリーダーボード

元の論文で使用されている対応する方法を使用して、ここで提案されているきれいなFIDを使用して、FIDスコアを計算します。すべての値は、10の評価実行を使用して計算されます。 PIPパッケージから以下の表に直接示されている結果を照会するAPIを提供します。

リーダーボードに新しい数字とモデルを追加したい場合は、お気軽にお問い合わせください。

CIFAR-10（ショットが少ない）

testセットは参照分布として使用され、10K生成された画像と比較されます。

100％データ（無条件）

モデル	レガシーフィッド（報告）	レガシーフィッド（複製）	きれいなフィッド
stylegan2（ + ada +チューニング）[Karras et al、2020]	- †	- †	8.20±0.10
stylegan2（+ada）[Karras et al、2020]	- †	- †	9.26±0.06
stylegan2（diff-augment）[zhao et al、2020] [ckpt]	9.89	9.90±0.09	10.85±0.10
stylegan2（mirror-flips）[Karras et al、2020] [ckpt]	11.07	11.07±0.10	12.96±0.07
stylegan2（フリップなし）[Karras et al、2020]	- †	- †	14.53±0.13
Autogan（config a）[Gong et al、2019]	- †	- †	21.18±0.12
Autogan（config b）[Gong et al、2019]	- †	- †	22.46±0.15
Autogan（config C）[Gong et al、2019]	- †	- †	23.62±0.30

†これらの方法は、トレーニングセットを参照配信として使用し、50K生成された画像と比較してください

20％のデータ

モデル	レガシーフィッド（報告）	レガシーフィッド（複製）	きれいなフィッド
stylegan2-diff-augment [zhao et al、2020] [ckpt]	12.15	12.12±0.15	14.18±0.13
stylegan2-mirror-flips [Karras et al、2020] [ckpt]	23.08	23.01±0.19	29.49±0.17

10％のデータ

モデル	レガシーフィッド（報告）	レガシーフィッド（複製）	きれいなフィッド
stylegan2-diff-augment [zhao et al、2020] [ckpt]	14.50	14.53±0.12	16.98±0.18
stylegan2-mirror-flips [Karras et al、2020] [ckpt]	36.02	35.94±0.17	43.60±0.17

CIFAR-100（ショットが少ない）

testセットは参照分布として使用され、10K生成された画像と比較されます。

100％のデータ

モデル	レガシーフィッド（報告）	レガシーフィッド（複製）	きれいなフィッド
stylegan2-mirror-flips [Karras et al、2020] [ckpt]	16.54	16.44±0.19	18.44±0.24
stylegan2-diff-augment [zhao et al、2020] [ckpt]	15.22	15.15±0.13	16.80±0.13

20％のデータ

モデル	レガシーフィッド（報告）	レガシーフィッド（複製）	きれいなフィッド
stylegan2-mirror-flips [Karras et al、2020] [ckpt]	32.30	32.26±0.19	34.88±0.14
stylegan2-diff-augment [zhao et al、2020] [ckpt]	16.65	16.74±0.10	18.49±0.08

10％のデータ

モデル	レガシーフィッド（報告）	レガシーフィッド（複製）	きれいなフィッド
stylegan2-mirror-flips [Karras et al、2020] [ckpt]	45.87	45.97±0.20	46.77±0.19
stylegan2-diff-augment [zhao et al、2020] [ckpt]	20.75	20.69±0.12	23.40±0.09

ffhq

すべての画像 @ 1024x1024
値は、50K生成された画像を使用して計算されます

モデル	レガシーフィッド（報告）	レガシーフィッド（複製）	きれいなフィッド	参照分割
stylegan1（config a）[Karras et al、2020]	4.4	4.39±0.03	4.77±0.03	`trainval`
stylegan2（config b）[Karras et al、2020]	4.39	4.43±0.03	4.89±0.03	`trainval`
stylegan2（config c）[Karras et al、2020]	4.38	4.40±0.02	4.79±0.02	`trainval`
stylegan2（config d）[Karras et al、2020]	4.34	4.34±0.02	4.78±0.03	`trainval`
stylegan2（config e）[Karras et al、2020]	3.31	3.33±0.02	3.79±0.02	`trainval`
stylegan2（config f）[Karras et al、2020] [ckpt]	2.84	2.83 + - 0.03	3.06 +-0.02	`trainval`
stylegan2 [Karras et al、2020] [ckpt]	n/a	2.76±0.03	2.98±0.03	`trainval70k`

140K-画像 @ 256x256（水平フリップを使用したトレーニングセット全体） trainval70kセットの70K画像は、参照画像として使用され、50K生成された画像と比較されます。

モデル	レガシーフィッド（報告）	レガシーフィッド（複製）	きれいなフィッド
ZCR [Zhao et al、2020]†	3.45±0.19	3.29±0.01	3.40±0.01
stylegan2 [Karras et al、2020]†	3.66±0.10	3.57±0.03	3.73±0.03
Pa-Gan [Zhang and Khoreva et al、2019]†	3.78±0.06	3.67±0.03	3.81±0.03
stylegan2-ada [karras et al、2020]†	3.88±0.13	3.84±0.02	3.93±0.02
補助回転[Chen et al、2019]†	4.16±0.05	4.10±0.02	4.29±0.03
適応ドロップアウト[Karras et al、2020]†	4.16±0.05	4.09±0.02	4.20±0.02
Spectral Norm [Miyato et al、2018]†	4.60±0.19	4.43±0.02	4.65±0.02
WGAN-GP [Gulrajani et al、2017]†	6.54±0.37	6.19±0.03	6.62±0.03

†[Karras et al、2020]による報告

30K -Images @ 256x256（ショット生成が少ない）
trainval70kセットの70K画像は、参照画像として使用され、50K生成画像と比較されます。

モデル	レガシーフィッド（報告）	レガシーフィッド（複製）	きれいなフィッド
stylegan2 [Karras et al、2020] [ckpt]	6.16	6.14±0.064	6.49±0.068
diffaugment-stylegan2 [Zhao et al、2020] [ckpt]	5.05	5.07±0.030	5.18±0.032

10K-画像 @ 256x256（ショット生成が少ない）
trainval70kセットの70K画像は、参照画像として使用され、50K生成画像と比較されます。

モデル	レガシーフィッド（報告）	レガシーフィッド（複製）	きれいなフィッド
stylegan2 [Karras et al、2020] [ckpt]	14.75	14.88±0.070	16.04±0.078
diffaugment-stylegan2 [Zhao et al、2020] [ckpt]	7.86	7.82±0.045	8.12±0.044

5K-画像 @ 256x256（ショット生成が少ない）
trainval70kセットの70K画像は、参照画像として使用され、50K生成画像と比較されます。

モデル	レガシーフィッド（報告）	レガシーフィッド（複製）	きれいなフィッド
stylegan2 [Karras et al、2020] [ckpt]	26.60	26.64±0.086	28.17±0.090
diffaugment-stylegan2 [Zhao et al、2020] [ckpt]	10.45	10.45±0.047	10.99±0.050

1K-画像 @ 256x256（ショット生成が少ない）
trainval70kセットの70K画像は、参照画像として使用され、50K生成画像と比較されます。

モデル	レガシーフィッド（報告）	レガシーフィッド（複製）	きれいなフィッド
stylegan2 [Karras et al、2020] [ckpt]	62.16	62.14±0.108	64.17±0.113
diffaugment-stylegan2 [Zhao et al、2020] [ckpt]	25.66	25.60±0.071	27.26±0.077

LSUNカテゴリ

100％のデータ
trainセットからの50K画像は、参照画像として使用され、50K生成された画像と比較されます。

カテゴリ	モデル	レガシーフィッド（報告）	レガシーフィッド（複製）	きれいなフィッド
屋外教会	stylegan2 [Karras et al、2020] [ckpt]	3.86	3.87±0.029	4.08±0.028
馬	stylegan2 [Karras et al、2020] [ckpt]	3.43	3.41±0.021	3.62±0.023
猫	stylegan2 [Karras et al、2020] [ckpt]	6.93	7.02±0.039	7.47±0.035

Lsun Cat -30K画像（ショット生成が少ない）
trainfull分割からの1,657,264個の画像はすべて、参照画像として使用され、50K生成された画像と比較されます。

モデル	レガシーフィッド（報告）	レガシーフィッド（複製）	きれいなフィッド
stylegan2-mirror-flips [Karras et al、2020] [ckpt]	10.12	10.15±0.04	10.87±0.04
stylegan2-diff-augment [zhao et al、2020] [ckpt]	9.68	9.70±0.07	10.25±0.07

Lsun Cat -10K画像（ショット生成が少ない）
trainfull分割からの1,657,264個の画像はすべて、参照画像として使用され、50K生成された画像と比較されます。

モデル	レガシーフィッド（報告）	レガシーフィッド（複製）	きれいなフィッド
stylegan2-mirror-flips [Karras et al、2020] [ckpt]	17.93	17.98±0.09	18.71±0.09
stylegan2-diff-augment [zhao et al、2020] [ckpt]	12.07	12.04±0.08	12.53±0.08

Lsun Cat -5K画像（ショット生成が少ない）
trainfull分割からの1,657,264個の画像はすべて、参照画像として使用され、50K生成された画像と比較されます。

モデル	レガシーフィッド（報告）	レガシーフィッド（複製）	きれいなフィッド
stylegan2-mirror-flips [Karras et al、2020] [ckpt]	34.69	34.66±0.12	35.85±0.12
stylegan2-diff-augment [zhao et al、2020] [ckpt]	16.11	16.11±0.09	16.79±0.09

Lsun Cat -1K画像（ショット生成が少ない）
trainfull分割からの1,657,264個の画像はすべて、参照画像として使用され、50K生成された画像と比較されます。

モデル	レガシーフィッド（報告）	レガシーフィッド（複製）	きれいなフィッド
stylegan2-mirror-flips [Karras et al、2020] [ckpt]	182.85	182.80±0.21	185.86±0.21
stylegan2-diff-augment [zhao et al、2020] [ckpt]	42.26	42.07±0.16	43.12±0.16

AFHQ（ショット生成が少ない）

AFHQ犬
train分割からの4739の画像はすべて、参照画像として使用され、50K生成された画像と比較されます。

モデル	レガシーフィッド（報告）	レガシーフィッド（複製）	きれいなフィッド
stylegan2 [Karras et al、2020] [ckpt]	19.37	19.34±0.08	20.10±0.08
stylegan2-ada [karras et al、2020] [ckpt]	7.40	7.41±0.02	7.61±0.02

Afhq Wild
train分割からの4738枚の画像はすべて、参照画像として使用され、50K生成された画像と比較されます。

モデル	レガシーフィッド（報告）	レガシーフィッド（複製）	きれいなフィッド
stylegan2 [Karras et al、2020] [ckpt]	3.48	3.55±0.03	3.66±0.02
stylegan2-ada [karras et al、2020] [ckpt]	3.05	3.01±0.02	3.03±0.02

Brecahad（ショット生成が少ない）

train分割からの1944年の画像はすべて、参照画像として使用され、50K生成された画像と比較されます。

モデル	遺産 fid （報告）	遺産 fid （複製）	きれいなフィッド	遺産子供（報告） 10^3	遺産子供（複製） 10^3	クリーン子供 10^3
stylegan2 [Karras et al、2020] [ckpt]	97.72	97.46±0.17	98.35±0.17	89.76	89.90±0.31	92.51±0.32
stylegan2-ada [karras et al、2020] [ckpt]	15.71	15.70±0.06	15.63±0.06	2.88	2.93±0.08	3.08±0.08

metfaces（ショット生成が少ない）

train分割からの1336のすべての画像は、参照画像として使用され、50K生成された画像と比較されます。

モデル	遺産 fid （報告）	遺産 fid （複製）	きれいなフィッド	遺産子供（報告） 10^3	遺産子供（複製） 10^3	クリーン子供 10^3
stylegan2 [Karras et al、2020] [ckpt]	57.26	57.36±0.10	65.74±0.11	35.66	35.69±0.16	40.90±0.14
stylegan2-ada [karras et al、2020] [ckpt]	18.22	18.18±0.03	19.60±0.03	2.41	2.38±0.05	2.86±0.04

Horse2zebra（画像の翻訳から画像）

test分割からの140の画像はすべて、参照画像として使用され、120の翻訳された画像と比較されます。

モデル	レガシーフィッド（報告）	レガシーフィッド（複製）	きれいなフィッド
カット[Park et al、2020]	45.5	45.51	43.71
[Park et al、2020]によって報告された距離[Benaim and Wolf et al、2017]	72.0	71.97	71.01
FastCut [Park et al、2020]	73.4	73.38	72.53
Cyclegan [Zhu et al、2017]が[Park et al、2020]によって報告された	77.2	77.20	75.17
自己距離[Benaim and Wolf et al、2017]が[Park et al、2020]によって報告された	80.8	80.78	79.28
GCGAN [Fu et al、2019]が[Park et al、2020]によって報告された	86.7	85.86	83.65
Munit [Huang et al、2018]は[Park et al、2020]によって報告されました	133.8	- †	120.48
[Park et al、2020]によって報告されたDRIT [Lee et al、2017]	140.0	- †	99.56

†これらの方法の翻訳された画像は、.jpeg圧縮を使用して[Park et al、2020]によって直観的に比較されました。同じプロトカルを使用してこれら2つのメソッドを再訓練し、公正な比較のために.pngとして画像を生成します。

CAT2DOG（画像から画像翻訳）

testスプリットからの500個の画像はすべて、参照画像として使用され、500個の翻訳された画像と比較されます。

モデル	レガシーフィッド（報告）	レガシーフィッド（複製）	きれいなフィッド
カット[Park et al、2020]	76.2	76.21	77.58
FastCut [Park et al、2020]	94.0	93.95	95.37
GCGAN [Fu et al、2019]が[Park et al、2020]によって報告された	96.6	96.61	96.49
Munit [Huang et al、2018]は[Park et al、2020]によって報告されました	104.4	- †	123.73
[Park et al、2020]によって報告されたDRIT [Lee et al、2017]	123.4	- †	127.21
自己距離[Benaim and Wolf et al、2017]が[Park et al、2020]によって報告された	144.4	144.42	147.23
[Park et al、2020]によって報告された距離[Benaim and Wolf et al、2017]	155.3	155.34	158.39

†これらの方法の翻訳された画像は、.jpeg圧縮を使用して[Park et al、2020]によって直観的に比較されました。同じプロトカルを使用してこれら2つのメソッドを再訓練し、公正な比較のために.pngとして画像を生成します。

ライセンス

このリポジトリのすべての資料は、MITライセンスの下で利用可能になります。

Inception_pytorch.pyは、Maximilian Seitzerが提供するFIDのPytorch実装から派生しています。これらのファイルは、もともとApache 2.0ライセンスの下で共有されていました。

Inception-2015-12-05.PTは、Christian Szegedy、Vincent Vanhoucke、Sergey Ioffe、Jonathon Shlens、およびZbigniew Wojnaによる事前訓練を受けたインセプション-V3ネットワークのトーチスクリプトモデルです。ネットワークはもともと、Tensorflow ModelsリポジトリのApache 2.0ライセンスに基づいて共有されていました。 Torchscriptラッパーは、Tero KarrasとMiika Aittala、Janne Hellsten、Samuli Laine、Jaakko LehtinenとTimo Ailaによって提供されます。

拡大する

追加情報