hifi gan下载hifi gan源代码下载

hifi gan

Ai源码

1.0.0

下载

HIFI-GAN：生成的对抗网络，可高效且高保真语音综合

Jungil Kong，Jaehyeon Kim，Jaekyoung Bae

在我们的论文中，我们提出了HIFI-GAN：一个基于GAN的模型，能够有效地产生高忠诚度的语音。
我们将实施和预估计的模型作为此存储库中的开源。

摘要：关于语音合成的最近几项工作已采用生成对抗网络（GAN）来产生原始波形。尽管此类方法提高了采样效率和记忆使用量，但它们的样本质量尚未达到自回归和基于流动的生成模型的质量。在这项工作中，我们提出了HIFI-GAN，它可以实现有效和高保真的语音综合。由于语音音频由具有各个时期的正弦信号组成，因此我们证明了音频的建模周期性模式对于提高样品质量至关重要。单个扬声器数据集的主观人类评估（平均意见分数，MOS）表明，我们提出的方法与人类质量相似，同时在单个V100 GPU上产生比实时快的22.05 kHz高保真音频167.9倍。我们进一步展示了Hifi-GAN的通用性与看不见的说话者和端到端语音综合的旋转光谱反演。最后，HIFI-GAN的小足迹版本的样品比实时的CPU生成13.4倍，其质量与自动回归对应物的质量可比。

访问我们的演示网站以获取音频样本。

先决条件

python> = 3.6
克隆这个存储库。
安装Python要求。请参阅要求
下载并提取LJ语音数据集。并将所有WAV文件移至LJSpeech-1.1/wavs

训练

 python train.py --config config_v1.json

要训练V2或V3生成器，请用config_v2.json或config_v3.json替换config_v1.json 。
默认情况下，检查点和配置文件的副本保存在cp_hifigan目录中。
您可以通过添加--checkpoint_path选项来更改路径。

V1发电机培训期间的验证损失。

预验证的模型

您也可以使用我们提供的验证型号。
下载验证的型号
每个文件夹的详细信息如下：

文件夹名称	发电机	数据集	微调
LJ_V1	V1	ljspeech	不
LJ_V2	v2	ljspeech	不
LJ_V3	V3	ljspeech	不
lj_ft_t2_v1	V1	ljspeech	是（tacotron2）
lj_ft_t2_v2	v2	ljspeech	是（tacotron2）
lj_ft_t2_v3	V3	ljspeech	是（tacotron2）
VCTK_V1	V1	VCTK	不
VCTK_V2	v2	VCTK	不
VCTK_V3	V3	VCTK	不
Universal_v1	V1	普遍的	不

我们为通用模型提供了歧视权重，可以用作将学习转移到其他数据集的基础。

微调

使用tacotron2和教师形式生成numpy格式的mel光谱图。
生成的MEL光谱图的文件名应与音频文件匹配，并且扩展名为.npy 。
例子：
```
 Audio File : LJ001-0001.wav
Mel-Spectrogram File : LJ001-0001.npy
```
创建ft_dataset文件夹，然后将生成的MEL-SPECTROGRAM文件复制到其中。
运行以下命令。
```
 python train.py --fine_tuning True --config config_v1.json
```
有关其他命令行选项，请参阅培训部分。

WAV文件的推断

将test_files目录并将WAV文件复制到目录中。

运行以下命令。

 python inference.py --checkpoint_file [generator checkpoint file path]

默认情况下，生成的WAV文件保存在generated_files中。
您可以通过添加--output_dir选项来更改路径。

端到端语音合成的推断

将test_mel_files目录和复制生成的MEL-SPECTROGRAM文件复制到目录中。
您可以使用tacotron2，Glow-TT等生成MEL-SPECTROGRAM。

运行以下命令。

 python inference_e2e.py --checkpoint_file [generator checkpoint file path]

默认情况下，生成的WAV文件保存在generated_files_from_mel中。
您可以通过添加--output_dir选项来更改路径。

致谢

我们提到了Waveglow，Melgan和Tacotron2来实现这一点。

展开

附加信息

版本 1.0.0
类型 Ai源码
更新时间 2025-08-21
大小 606.93KB
来自于 Github

hifi gan

HIFI-GAN：生成的对抗网络，可高效且高保真语音综合

Jungil Kong，Jaehyeon Kim，Jaekyoung Bae

先决条件

训练

预验证的模型

微调

WAV文件的推断

端到端语音合成的推断

致谢

GitHub sgrebnov/cordova plugin background download

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

viper hifi安卓版

VIPER HiFi 应用程序

Mini HiFi City游戏下载

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express