Projeto | Papel | Slides | Colab-fid | Colab-Resize | Mesas de tabela de classificação
Início rápido: Calcule FID | Calcule o garoto
[Novo] computando o FID usando os recursos do clipe [Kynkänniemi et al, 2022] agora é suportado. Veja aqui para mais detalhes.
O cálculo do FID envolve muitas etapas que podem produzir inconsistências na métrica final. Como mostrado abaixo, diferentes implementações usam diferentes funções de quantização e redimensionamento de imagens de baixo nível, as últimas são frequentemente implementadas incorretamente.
Fornecemos uma biblioteca fácil de usar para abordar os problemas acima e tornar as pontuações do FID comparáveis em diferentes métodos, papéis e grupos.
Sobre redimensionamento e surpreendente sutilezas na avaliação de GaN
Gaurav Parmar, Richard Zhang, Jun-Yan Zhu
CVPR, 2022
CMU e Adobe
Se você achar esse repositório útil para sua pesquisa, cite o trabalho a seguir.
@inproceedings{parmar2021cleanfid,
title={On Aliased Resizing and Surprising Subtleties in GAN Evaluation},
author={Parmar, Gaurav and Zhang, Richard and Zhu, Jun-Yan},
booktitle={CVPR},
year={2022}
}
Operações de redimensionamento com alias
As definições de redimensionamento são matemáticas e nunca devem ser uma função da biblioteca que está sendo usada . Infelizmente, as implementações diferem em bibliotecas comumente usadas. Eles são frequentemente implementados incorretamente por bibliotecas populares. Experimente as diferentes implementações de redimensionamento no Notebook do Google Colab aqui.
As inconsistências entre as implementações podem ter um efeito drástico das métricas de avaliações. A tabela abaixo mostra que as imagens do conjunto de dados FFHQ foram redimensionadas com a implementação bicúica de outras bibliotecas (OpenCV, Pytorch, Tensorflow, OpenCV) têm uma grande pontuação de FID (≥ 6) quando comparada às mesmas imagens redimensionadas com o filtro pil-Bicubic implementado corretamente. Outros filtros implementados corretamente de PIL (Lanczos, bilinear, caixa) resultam em uma pontuação Relativamente menor do FID (≤ 0,75). Observe que, como o TF 2.0, o novo sinalizador antialias (padrão: False ) pode produzir resultados próximos ao PIL. No entanto, não foi usado no repositório TF-FID existente e definido como False por padrão.
Compressão da imagem JPEG
A compressão da imagem pode ter um efeito surpreendentemente grande no FID. As imagens são perceptivamente indistinguíveis uma da outra, mas têm uma grande pontuação de FID. As pontuações do FID nas imagens são calculadas entre todas as imagens FFHQ salvas usando o formato JPEG correspondente e o formato PNG.
Abaixo, estudamos o efeito da compactação JPEG para os modelos Stylegan2 treinados no conjunto de dados FFHQ (à esquerda) e no conjunto de dados da igreja ao ar livre LSUN (à direita). Observe que as imagens do conjunto de dados LSUN foram coletadas com compactação JPEG (qualidade 75), enquanto as imagens do FFHQ foram coletadas como PNG. Curiosamente, para o conjunto de dados LSUN, a melhor pontuação do FID (3,48) é obtida quando as imagens geradas são compactadas com a qualidade JPEG 87.
pip install clean-fid
from cleanfid import fid
score = fid.compute_fid(fdir1, fdir2)
FFHQ ) from cleanfid import fid
score = fid.compute_fid(fdir1, dataset_name="FFHQ", dataset_res=1024, dataset_split="trainval70k")
from cleanfid import fid
# function that accepts a latent and returns an image in range[0,255]
gen = lambda z: GAN(latent=z, ... , <other_flags>)
score = fid.compute_fid(gen=gen, dataset_name="FFHQ",
dataset_res=256, num_gen=50_000, dataset_split="trainval70k")
Para usar os recursos do clipe ao calcular o fid [Kynkäänniemi et al, 2022], especifique o model_name="clip_vit_b_32"
from cleanfid import fid
score = fid.compute_fid(fdir1, fdir2, mode="clean", model_name="clip_vit_b_32")
A pontuação do garoto pode ser calculada usando uma interface semelhante à FID. As estatísticas do conjunto de dados para Kid são pré -computadas para conjuntos de dados menores AFHQ , BreCaHAD e MetFaces .
from cleanfid import fid
score = fid.compute_kid(fdir1, fdir2)
from cleanfid import fid
score = fid.compute_kid(fdir1, dataset_name="brecahad", dataset_res=512, dataset_split="train")
from cleanfid import fid
# function that accepts a latent and returns an image in range[0,255]
gen = lambda z: GAN(latent=z, ... , <other_flags>)
score = fid.compute_kid(gen=gen, dataset_name="brecahad", dataset_res=512, num_gen=50_000, dataset_split="train")
Fornecemos estatísticas pré -computadas para as seguintes configurações comumente usadas. Entre em contato conosco se você deseja adicionar estatísticas para seus novos conjuntos de dados.
| Tarefa | Conjunto de dados | Resolução | Divisão de referência | # Imagens de referência | modo |
|---|---|---|---|---|---|
| Geração de imagens | cifar10 | 32 | train | 50.000 | clean , legacy_tensorflow , legacy_pytorch |
| Geração de imagens | cifar10 | 32 | test | 10.000 | clean , legacy_tensorflow , legacy_pytorch |
| Geração de imagens | ffhq | 1024, 256 | trainval | 50.000 | clean , legacy_tensorflow , legacy_pytorch |
| Geração de imagens | ffhq | 1024, 256 | trainval70k | 70.000 | clean , legacy_tensorflow , legacy_pytorch |
| Geração de imagens | lsun_church | 256 | train | 50.000 | clean , legacy_tensorflow , legacy_pytorch |
| Geração de imagens | lsun_church | 256 | trainfull | 126.227 | clean |
| Geração de imagens | lsun_horse | 256 | train | 50.000 | clean , legacy_tensorflow , legacy_pytorch |
| Geração de imagens | lsun_horse | 256 | trainfull | 2.000.340 | clean |
| Geração de imagens | lsun_cat | 256 | train | 50.000 | clean , legacy_tensorflow , legacy_pytorch |
| Geração de imagens | lsun_cat | 256 | trainfull | 1.657.264 | clean , legacy_tensorflow , legacy_pytorch |
| Poucos gerações de tiro | afhq_cat | 512 | train | 5153 | clean , legacy_tensorflow , legacy_pytorch |
| Poucos gerações de tiro | afhq_dog | 512 | train | 4739 | clean , legacy_tensorflow , legacy_pytorch |
| Poucos gerações de tiro | afhq_wild | 512 | train | 4738 | clean , legacy_tensorflow , legacy_pytorch |
| Poucos gerações de tiro | brecahad | 512 | train | 1944 | clean , legacy_tensorflow , legacy_pytorch |
| Poucos gerações de tiro | metfaces | 1024 | train | 1336 | clean , legacy_tensorflow , legacy_pytorch |
| Imagem para imagem | horse2zebra | 256 | test | 140 | clean , legacy_tensorflow , legacy_pytorch |
| Imagem para imagem | cat2dog | 256 | test | 500 | clean , legacy_tensorflow , legacy_pytorch |
Usando estatísticas pré -computadas para calcular a pontuação do FID com as estatísticas do conjunto de dados pré -computadas, use as opções correspondentes. Por exemplo, para calcular a pontuação de FID limpa em imagens geradas 256x256 FFHQ Use o comando:
fid_score = fid.compute_fid(fdir1, dataset_name="ffhq", dataset_res=256, mode="clean", dataset_split="trainval70k")
DataSet_Path : pasta onde as imagens do conjunto de dados são armazenadas
Custom_name : Nome a ser usado para as estatísticas
Gerando estatísticas personalizadas (salvo para cache local)
from cleanfid import fid
fid.make_custom_stats(custom_name, dataset_path, mode="clean")
Usando as estatísticas personalizadas geradas
from cleanfid import fid
score = fid.compute_fid("folder_fake", dataset_name=custom_name,
mode="clean", dataset_split="custom")
Removendo as estatísticas personalizadas
from cleanfid import fid
fid.remove_custom_stats(custom_name, mode="clean")
Verifique se já existe uma estatística personalizada
from cleanfid import fid
fid.test_stats_exists(custom_name, mode)
Fornecemos duas bandeiras para reproduzir a pontuação do Legacy FID.
mode="legacy_pytorch"
Esta bandeira é equivalente a usar a popular implementação Pytorch FID fornecida aqui
A diferença entre usar o FID limpo com esta opção e código é ~ 2e-06
Veja o DOC sobre como os métodos são comparados
mode="legacy_tensorflow"
Esse sinalizador é equivalente a usar a implementação oficial do FID lançada pelos autores.
A diferença entre usar o FID limpo com esta opção e código é ~ 2e-05
Veja o DOC para obter etapas detalhadas de como os métodos são comparados
python setup.py bdist_wheel
pip install dist/*
Calculamos as pontuações do FID usando os métodos correspondentes usados nos papéis originais e usando o fid limpo proposto aqui. Todos os valores são calculados usando 10 execuções de avaliação. Fornecemos uma API para consultar os resultados mostrados nas tabelas abaixo diretamente do pacote PIP.
Se você deseja adicionar novos números e modelos à nossa tabela de classificação, sinta -se à vontade para entrar em contato conosco.
O conjunto test é usado como distribuição de referência e comparado às imagens geradas por 10K.
Dados 100% (incondicional)
| Modelo | Legacy-fid (relatado) | Legacy-fid (reproduzido) | FID limpo |
|---|---|---|---|
| Stylegan2 ( + Ada + Tuning) [Karras et al, 2020] | - † | - † | 8,20 ± 0,10 |
| Stylegan2 (+Ada) [Karras et al., 2020] | - † | - † | 9,26 ± 0,06 |
| Stylegan2 (Diff-Augment) [Zhao et al, 2020] [CKPT] | 9.89 | 9,90 ± 0,09 | 10,85 ± 0,10 |
| Stylegan2 (Mirror-Flips) [Karras et al., 2020] [CKPT] | 11.07 | 11,07 ± 0,10 | 12,96 ± 0,07 |
| Stylegan2 (sem flips) [Karras et al, 2020] | - † | - † | 14,53 ± 0,13 |
| Autogan (Config A) [Gong et al, 2019] | - † | - † | 21,18 ± 0,12 |
| Autogan (Config B) [Gong et al, 2019] | - † | - † | 22,46 ± 0,15 |
| Autogan (Config C) [Gong et al, 2019] | - † | - † | 23,62 ± 0,30 |
† Esses métodos usam o conjunto de treinamento como distribuição de referência e comparam com 50k imagens geradas
20% de dados
| Modelo | Legacy-fid (relatado) | Legacy-fid (reproduzido) | FID limpo |
|---|---|---|---|
| Stylegan2-Diff-agment [Zhao et al., 2020] [CKPT] | 12.15 | 12,12 ± 0,15 | 14,18 ± 0,13 |
| Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT] | 23.08 | 23,01 ± 0,19 | 29,49 ± 0,17 |
10% de dados
| Modelo | Legacy-fid (relatado) | Legacy-fid (reproduzido) | FID limpo |
|---|---|---|---|
| Stylegan2-Diff-agment [Zhao et al., 2020] [CKPT] | 14.50 | 14,53 ± 0,12 | 16,98 ± 0,18 |
| Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT] | 36.02 | 35,94 ± 0,17 | 43,60 ± 0,17 |
O conjunto test é usado como distribuição de referência e comparado às imagens geradas por 10K.
100% de dados
| Modelo | Legacy-fid (relatado) | Legacy-fid (reproduzido) | FID limpo |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT] | 16.54 | 16,44 ± 0,19 | 18,44 ± 0,24 |
| Stylegan2-Diff-agment [Zhao et al., 2020] [CKPT] | 15.22 | 15,15 ± 0,13 | 16,80 ± 0,13 |
20% de dados
| Modelo | Legacy-fid (relatado) | Legacy-fid (reproduzido) | FID limpo |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT] | 32.30 | 32,26 ± 0,19 | 34,88 ± 0,14 |
| Stylegan2-Diff-agment [Zhao et al., 2020] [CKPT] | 16.65 | 16,74 ± 0,10 | 18,49 ± 0,08 |
10% de dados
| Modelo | Legacy-fid (relatado) | Legacy-fid (reproduzido) | FID limpo |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT] | 45.87 | 45,97 ± 0,20 | 46,77 ± 0,19 |
| Stylegan2-Diff-agment [Zhao et al., 2020] [CKPT] | 20.75 | 20,69 ± 0,12 | 23,40 ± 0,09 |
Todas as imagens @ 1024x1024
Os valores são calculados usando 50k Imagens geradas
| Modelo | Legacy-fid (relatado) | Legacy-fid (reproduzido) | FID limpo | Divisão de referência |
|---|---|---|---|---|
| Stylegan1 (Config A) [Karras et al, 2020] | 4.4 | 4,39 ± 0,03 | 4,77 ± 0,03 | trainval |
| Stylegan2 (Config B) [Karras et al., 2020] | 4.39 | 4,43 ± 0,03 | 4,89 ± 0,03 | trainval |
| Stylegan2 (Config C) [Karras et al., 2020] | 4.38 | 4,40 ± 0,02 | 4,79 ± 0,02 | trainval |
| Stylegan2 (Config D) [Karras et al., 2020] | 4.34 | 4,34 ± 0,02 | 4,78 ± 0,03 | trainval |
| Stylegan2 (Config E) [Karras et al, 2020] | 3.31 | 3,33 ± 0,02 | 3,79 ± 0,02 | trainval |
| Stylegan2 (Config F) [Karras et al., 2020] [CKPT] | 2.84 | 2,83 +- 0,03 | 3.06 +- 0,02 | trainval |
| Stylegan2 [Karras et al., 2020] [CKPT] | N / D | 2,76 ± 0,03 | 2,98 ± 0,03 | trainval70k |
140K - Imagens @ 256x256 (conjunto de treinamento inteiro com flips horizontais) As imagens de 70k do conjunto de trainval70k são usadas como imagens de referência e comparadas com 50k geradas imagens.
| Modelo | Legacy-fid (relatado) | Legacy-fid (reproduzido) | FID limpo |
|---|---|---|---|
| ZCR [Zhao et al., 2020] † | 3,45 ± 0,19 | 3,29 ± 0,01 | 3,40 ± 0,01 |
| Stylegan2 [Karras et al., 2020] † | 3,66 ± 0,10 | 3,57 ± 0,03 | 3,73 ± 0,03 |
| Pa-Gan [Zhang e Khoreva et al, 2019] † | 3,78 ± 0,06 | 3,67 ± 0,03 | 3,81 ± 0,03 |
| Stylegan2-Ada [Karras et al., 2020] † | 3,88 ± 0,13 | 3,84 ± 0,02 | 3,93 ± 0,02 |
| Rotação auxiliar [Chen et al, 2019] † | 4,16 ± 0,05 | 4,10 ± 0,02 | 4,29 ± 0,03 |
| Abandono adaptativo [Karras et al., 2020] † | 4,16 ± 0,05 | 4,09 ± 0,02 | 4,20 ± 0,02 |
| Norma espectral [Miyato et al, 2018] † | 4,60 ± 0,19 | 4,43 ± 0,02 | 4,65 ± 0,02 |
| WGAN-GP [Gulrajani et al, 2017] † | 6,54 ± 0,37 | 6,19 ± 0,03 | 6,62 ± 0,03 |
† Relatado por [Karras et al, 2020]
30k - imagens @ 256x256 (poucas gerações de tiro)
As imagens de 70k do conjunto de trainval70k são usadas como imagens de referência e comparadas a 50k imagens geradas.
| Modelo | Legacy-fid (relatado) | Legacy-fid (reproduzido) | FID limpo |
|---|---|---|---|
| Stylegan2 [Karras et al., 2020] [CKPT] | 6.16 | 6,14 ± 0,064 | 6,49 ± 0,068 |
| Difflaugment-Stylegan2 [Zhao et al., 2020] [CKPT] | 5.05 | 5,07 ± 0,030 | 5,18 ± 0,032 |
10k - imagens @ 256x256 (poucas gerações de tiros)
As imagens de 70k do conjunto de trainval70k são usadas como imagens de referência e comparadas a 50k imagens geradas.
| Modelo | Legacy-fid (relatado) | Legacy-fid (reproduzido) | FID limpo |
|---|---|---|---|
| Stylegan2 [Karras et al., 2020] [CKPT] | 14.75 | 14,88 ± 0,070 | 16,04 ± 0,078 |
| Difflaugment-Stylegan2 [Zhao et al., 2020] [CKPT] | 7.86 | 7,82 ± 0,045 | 8,12 ± 0,044 |
5k - imagens @ 256x256 (poucas gerações de tiro)
As imagens de 70k do conjunto de trainval70k são usadas como imagens de referência e comparadas a 50k imagens geradas.
| Modelo | Legacy-fid (relatado) | Legacy-fid (reproduzido) | FID limpo |
|---|---|---|---|
| Stylegan2 [Karras et al., 2020] [CKPT] | 26.60 | 26,64 ± 0,086 | 28,17 ± 0,090 |
| Difflaugment-Stylegan2 [Zhao et al., 2020] [CKPT] | 10.45 | 10,45 ± 0,047 | 10,99 ± 0,050 |
1k - imagens @ 256x256 (poucas gerações de tiros)
As imagens de 70k do conjunto de trainval70k são usadas como imagens de referência e comparadas a 50k imagens geradas.
| Modelo | Legacy-fid (relatado) | Legacy-fid (reproduzido) | FID limpo |
|---|---|---|---|
| Stylegan2 [Karras et al., 2020] [CKPT] | 62.16 | 62,14 ± 0,108 | 64,17 ± 0,113 |
| Difflaugment-Stylegan2 [Zhao et al., 2020] [CKPT] | 25.66 | 25,60 ± 0,071 | 27,26 ± 0,077 |
100% de dados
As imagens de 50k do conjunto train são usadas como imagens de referência e comparadas a 50k geradas imagens.
| Categoria | Modelo | Legacy-fid (relatado) | Legacy-fid (reproduzido) | FID limpo |
|---|---|---|---|---|
| Igrejas ao ar livre | Stylegan2 [Karras et al., 2020] [CKPT] | 3.86 | 3,87 ± 0,029 | 4,08 ± 0,028 |
| Cavalos | Stylegan2 [Karras et al., 2020] [CKPT] | 3.43 | 3,41 ± 0,021 | 3,62 ± 0,023 |
| Gato | Stylegan2 [Karras et al., 2020] [CKPT] | 6.93 | 7,02 ± 0,039 | 7,47 ± 0,035 |
LSUN CAT - Imagens de 30k (poucas gerações de tiros)
Todas as 1.657.264 imagens da Split trainfull são usadas como imagens de referência e comparadas a 50k geradas imagens.
| Modelo | Legacy-fid (relatado) | Legacy-fid (reproduzido) | FID limpo |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT] | 10.12 | 10,15 ± 0,04 | 10,87 ± 0,04 |
| Stylegan2-Diff-agment [Zhao et al., 2020] [CKPT] | 9.68 | 9,70 ± 0,07 | 10,25 ± 0,07 |
Lsun Cat - imagens de 10k (poucas gerações de tiro)
Todas as 1.657.264 imagens da Split trainfull são usadas como imagens de referência e comparadas a 50k geradas imagens.
| Modelo | Legacy-fid (relatado) | Legacy-fid (reproduzido) | FID limpo |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT] | 17.93 | 17,98 ± 0,09 | 18,71 ± 0,09 |
| Stylegan2-Diff-agment [Zhao et al., 2020] [CKPT] | 12.07 | 12,04 ± 0,08 | 12,53 ± 0,08 |
Lsun Cat - imagens 5K (poucas gerações de tiro)
Todas as 1.657.264 imagens da Split trainfull são usadas como imagens de referência e comparadas a 50k geradas imagens.
| Modelo | Legacy-fid (relatado) | Legacy-fid (reproduzido) | FID limpo |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT] | 34.69 | 34,66 ± 0,12 | 35,85 ± 0,12 |
| Stylegan2-Diff-agment [Zhao et al., 2020] [CKPT] | 16.11 | 16,11 ± 0,09 | 16,79 ± 0,09 |
Lsun Cat - Imagens 1k (poucas gerações de tiro)
Todas as 1.657.264 imagens da Split trainfull são usadas como imagens de referência e comparadas a 50k geradas imagens.
| Modelo | Legacy-fid (relatado) | Legacy-fid (reproduzido) | FID limpo |
|---|---|---|---|
| Stylegan2-Mirror-Flips [Karras et al., 2020] [CKPT] | 182.85 | 182,80 ± 0,21 | 185,86 ± 0,21 |
| Stylegan2-Diff-agment [Zhao et al., 2020] [CKPT] | 42.26 | 42,07 ± 0,16 | 43,12 ± 0,16 |
Cachorro afhq
Todas as 4739 imagens do Split train são usadas como imagens de referência e comparadas a 50k imagens geradas.
| Modelo | Legacy-fid (relatado) | Legacy-fid (reproduzido) | FID limpo |
|---|---|---|---|
| Stylegan2 [Karras et al., 2020] [CKPT] | 19.37 | 19,34 ± 0,08 | 20,10 ± 0,08 |
| Stylegan2-Ada [Karras et al., 2020] [CKPT] | 7.40 | 7,41 ± 0,02 | 7,61 ± 0,02 |
Afhq Wild
Todas as 4738 imagens do Split train são usadas como imagens de referência e comparadas a 50K geradas imagens.
| Modelo | Legacy-fid (relatado) | Legacy-fid (reproduzido) | FID limpo |
|---|---|---|---|
| Stylegan2 [Karras et al., 2020] [CKPT] | 3.48 | 3,55 ± 0,03 | 3,66 ± 0,02 |
| Stylegan2-Ada [Karras et al., 2020] [CKPT] | 3.05 | 3,01 ± 0,02 | 3,03 ± 0,02 |
Todas as imagens de 1944 do Split train são usadas como imagens de referência e comparadas a 50k imagens geradas.
| Modelo | Legado Fid (relatado) | Legado Fid (reproduzido) | FID limpo | Legado CRIANÇA (relatado) 10^3 | Legado CRIANÇA (reproduzido) 10^3 | Limpar CRIANÇA 10^3 |
|---|---|---|---|---|---|---|
| Stylegan2 [Karras et al., 2020] [CKPT] | 97.72 | 97,46 ± 0,17 | 98,35 ± 0,17 | 89.76 | 89,90 ± 0,31 | 92,51 ± 0,32 |
| Stylegan2-Ada [Karras et al., 2020] [CKPT] | 15.71 | 15,70 ± 0,06 | 15,63 ± 0,06 | 2.88 | 2,93 ± 0,08 | 3,08 ± 0,08 |
Todas as 1336 imagens do Split train são usadas como imagens de referência e comparadas a 50k imagens geradas.
| Modelo | Legado Fid (relatado) | Legado Fid (reproduzido) | FID limpo | Legado CRIANÇA (relatado) 10^3 | Legado CRIANÇA (reproduzido) 10^3 | Limpar CRIANÇA 10^3 |
|---|---|---|---|---|---|---|
| Stylegan2 [Karras et al., 2020] [CKPT] | 57.26 | 57,36 ± 0,10 | 65,74 ± 0,11 | 35.66 | 35,69 ± 0,16 | 40,90 ± 0,14 |
| Stylegan2-Ada [Karras et al., 2020] [CKPT] | 18.22 | 18,18 ± 0,03 | 19,60 ± 0,03 | 2.41 | 2,38 ± 0,05 | 2,86 ± 0,04 |
Todas as 140 imagens da divisão test são usadas como imagens de referência e comparadas a 120 imagens traduzidas.
| Modelo | Legacy-fid (relatado) | Legacy-fid (reproduzido) | FID limpo |
|---|---|---|---|
| Cut [Park et al, 2020] | 45.5 | 45.51 | 43.71 |
| Distância [Benaim e Wolf et al, 2017] relatados por [Park et al, 2020] | 72.0 | 71.97 | 71.01 |
| FastCut [Park et al., 2020] | 73.4 | 73.38 | 72.53 |
| Cyclegan [Zhu et al, 2017] relatado por [Park et al, 2020] | 77.2 | 77.20 | 75.17 |
| Autodistância [Benaim e Wolf et al, 2017] relatada por [Park et al, 2020] | 80.8 | 80,78 | 79.28 |
| Gcgan [Fu et al, 2019] relatado por [Park et al, 2020] | 86.7 | 85.86 | 83.65 |
| Munit [Huang et al, 2018] relatado por [Park et al, 2020] | 133.8 | - † | 120.48 |
| Drit [Lee et al, 2017] relatado por [Park et al, 2020] | 140.0 | - † | 99.56 |
† As imagens traduzidas para esses métodos foram comparadas intitialmente por [Park et al, 2020] usando compressão .jpeg. Returamos esses dois métodos usando o mesmo protocal e geramos as imagens como .png para uma comparação justa.
Todas as 500 imagens da divisão test são usadas como imagens de referência e comparadas a 500 imagens traduzidas.
| Modelo | Legacy-fid (relatado) | Legacy-fid (reproduzido) | FID limpo |
|---|---|---|---|
| Cut [Park et al, 2020] | 76.2 | 76.21 | 77.58 |
| FastCut [Park et al., 2020] | 94.0 | 93.95 | 95.37 |
| Gcgan [Fu et al, 2019] relatado por [Park et al, 2020] | 96.6 | 96.61 | 96.49 |
| Munit [Huang et al, 2018] relatado por [Park et al, 2020] | 104.4 | - † | 123.73 |
| Drit [Lee et al, 2017] relatado por [Park et al, 2020] | 123.4 | - † | 127.21 |
| Autodistância [Benaim e Wolf et al, 2017] relatada por [Park et al, 2020] | 144.4 | 144.42 | 147.23 |
| Distância [Benaim e Wolf et al, 2017] relatados por [Park et al, 2020] | 155.3 | 155.34 | 158.39 |
† As imagens traduzidas para esses métodos foram comparadas intitialmente por [Park et al, 2020] usando compressão .jpeg. Returamos esses dois métodos usando o mesmo protocal e geramos as imagens como .png para uma comparação justa.
Fidelidade da tocha: métricas de desempenho de alta fidelidade para modelos generativos em Pytorch.
TTUR: Duas regra de atualização em escala de tempo para treinar Gans.
LPIPS: Métrica de similaridade perceptiva e conjunto de dados.
Todo o material deste repositório é disponibilizado sob a licença do MIT.
INCMECCECTION_PYTORCH.PY é derivado da implementação de Pytorch do FID fornecida pelo Maximilian Seitzer. Esses arquivos foram originalmente compartilhados sob a licença Apache 2.0.
INFECPOÇÃO-2015-12-05.PT é um modelo de tochcript da rede de Inception-V3 pré-treinada de Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens e Zbigniew Wojna. A rede foi originalmente compartilhada com a licença Apache 2.0 no repositório de modelos TensorFlow. O invólucro da TorchScript é fornecido por Tero Karras e Miika Aittala e Janne Hellsten e Samuli Laine e Jaakko Lehtinen e Timo Aila, que são lançados sob a licença de código -fonte da Nvidia.