hifi gan 다운로드 -Hifi hifi gan 소스 코드 다운로드

hifi gan

AI 소스 코드

1.0.0

다운로드

Hifi-gan : 효율적이고 고 충실도 음성 합성을위한 생성 적대적 네트워크

Jungil Kong, Jaehyeon Kim, Jaekyoung Bae

우리 논문에서, 우리는 Hifi-Gan : 높은 충실도를 효율적으로 생성 할 수있는 GAN 기반 모델을 제안했습니다.
우리는이 저장소에서 구현 및 사전 처리 된 모델을 오픈 소스로 제공합니다.

초록 : 언어 합성에 관한 최근의 몇 가지 연구는 생성 적대성 네트워크 (GANS)를 사용하여 원시 파형을 생성했습니다. 이러한 방법은 샘플링 효율 및 메모리 사용을 향상 시키지만, 샘플 품질은 아직 자동 회귀 및 흐름 기반 생성 모델의 샘플 품질에 도달하지 못했습니다. 이 작업에서 우리는 효율적이고 고유 한 음성 합성을 달성하는 Hifi-Gan을 제안합니다. 음성 오디오가 다양한 기간을 가진 정현파 신호로 구성되므로 오디오의 정기 패턴을 모델링하는 것이 샘플 품질을 향상시키는 데 중요하다는 것을 보여줍니다. 단일 스피커 데이터 세트의 주관적인 인간 평가 (평균 의견 점수, MOS)는 우리의 제안 된 방법은 인간의 품질과 유사성을 나타내며 단일 V100 GPU에서 실시간보다 22.05 kHz 고 충실도 오디오 167.9 배 더 빠르게 생성 함을 나타냅니다. 우리는 또한 보이지 않는 스피커의 멜 스피어 그램 역전과 엔드 투 엔드 음성 합성에 대한 Hifi-Gan의 일반성을 보여줍니다. 마지막으로, Hifi-Gan의 작은 풋 프린트 버전은자가 회귀 대응 물과 비슷한 품질로 CPU의 실시간보다 13.4 배 빠른 샘플을 생성합니다.

오디오 샘플은 데모 웹 사이트를 방문하십시오.

사전 반품

파이썬> = 3.6
이 저장소를 복제하십시오.
파이썬 요구 사항을 설치하십시오. 요구 사항 .txt를 참조하십시오
LJ 음성 데이터 세트를 다운로드하여 추출하십시오. 모든 WAV 파일을 LJSpeech-1.1/wavs 로 옮깁니다

훈련

 python train.py --config config_v1.json

v2 또는 v3 생성기를 훈련 시키려면 config_v1.json config_v2.json 또는 config_v3.json 으로 교체하십시오.
체크 포인트 및 구성 파일의 사본은 기본적으로 cp_hifigan 디렉토리에 저장됩니다.
--checkpoint_path 옵션을 추가하여 경로를 변경할 수 있습니다.

V1 생성기를 사용한 훈련 중에 검증 손실.

사방 모델

우리가 제공하는 사전 취사 모델을 사용할 수도 있습니다.
사전 각인 모델을 다운로드하십시오
각 폴더의 세부 사항은 다음과 같습니다.

폴더 이름	발전기	데이터 세트	미세 조정
LJ_V1	v1	ljspeech	아니요
LJ_V2	v2	ljspeech	아니요
lj_v3	v3	ljspeech	아니요
LJ_FT_T2_V1	v1	ljspeech	예 (Tacotron2)
LJ_FT_T2_V2	v2	ljspeech	예 (Tacotron2)
LJ_FT_T2_V3	v3	ljspeech	예 (Tacotron2)
vctk_v1	v1	vctk	아니요
vctk_v2	v2	vctk	아니요
vctk_v3	v3	vctk	아니요
Universal_v1	v1	만능인	아니요

우리는 Universal 모델에 다른 데이터 세트로 전송을위한 기반으로 사용될 수있는 판별 자 가중치를 제공합니다.

미세 조정

Tacotron2를 사용하여 교사를 포싱하는 Numpy 형식으로 Mel-spectrogram을 생성합니다.
생성 된 Mel-Spectrogram의 파일 이름은 오디오 파일과 일치하고 확장자는 .npy 여야합니다.
예:
```
 Audio File : LJ001-0001.wav
Mel-Spectrogram File : LJ001-0001.npy
```
ft_dataset 폴더를 만들고 생성 된 멜 스펙트럼 파일을 복사하십시오.
다음 명령을 실행하십시오.
```
 python train.py --fine_tuning True --config config_v1.json
```
다른 명령 줄 옵션은 교육 섹션을 참조하십시오.

WAV 파일에서 추론

test_files 디렉토리를 만들고 wav 파일을 디렉토리로 복사하십시오.

다음 명령을 실행하십시오.

 python inference.py --checkpoint_file [generator checkpoint file path]

생성 된 WAV 파일은 기본적으로 generated_files 에 저장됩니다.
--output_dir 옵션을 추가하여 경로를 변경할 수 있습니다.

엔드 투 엔드 음성 합성에 대한 추론

test_mel_files 디렉토리를 만들고 생성 된 Mel-Spectrogram 파일을 디렉토리로 복사하십시오.
Tacotron2, Glow-TTS 등을 사용하여 Mel-Spectrogram을 생성 할 수 있습니다.

다음 명령을 실행하십시오.

 python inference_e2e.py --checkpoint_file [generator checkpoint file path]

생성 된 WAV 파일은 기본적으로 generated_files_from_mel 에 저장됩니다.
--output_dir 옵션을 추가하여 경로를 변경할 수 있습니다.

감사의 말

우리는 이것을 구현하기 위해 WaveGlow, Melgan 및 Tacotron2를 언급했습니다.

확장하다

추가 정보

버전 1.0.0
유형 AI 소스 코드
업데이트 시간 2025-08-21
크기 606.93KB
출처 Github

hifi gan

Hifi-gan : 효율적이고 고 충실도 음성 합성을위한 생성 적대적 네트워크

Jungil Kong, Jaehyeon Kim, Jaekyoung Bae

사전 반품

훈련

사방 모델

미세 조정

WAV 파일에서 추론

엔드 투 엔드 음성 합성에 대한 추론

감사의 말

GitHub sgrebnov/cordova plugin background download

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

바이퍼 하이파이 안드로이드 버전

VIPER HiFi 앱

미니 HiFi 시티 게임 다운로드

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express