melgan 다운로드 - melgan 소스 코드 다운로드

한국어

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

홈페이지>프로그래밍 관련>AI 소스 코드

melgan

AI 소스 코드

voiced segment (fix #30, #17)

다운로드

멜간

Melgan Vocoder의 비공식 Pytorch 구현

주요 기능

Melgan은 Waveglow보다 보이지 않는 스피커를 일반화하는 것이 더 가볍고 빠르며 더 좋습니다.
이 저장소는 NVIDIA/TACOTRON2의 동일한 MEL- 스피어 그램 기능을 사용하므로 NVIDIA의 Tacotron2에서 출력을 Raw-Audio로 변환하는 데 직접 사용할 수 있습니다.
Pytorch Hub를 통한 LJSpeech-1.1에서 사전 각인 모델.

전제 조건

파이썬 3.6에서 테스트

pip install -r requirements.txt

데이터 세트를 준비하십시오

교육을 위해 데이터 세트를 다운로드하십시오. 이것은 샘플 속도 22050Hz의 모든 WAV 파일 일 수 있습니다. (예 : ljspeech는 종이에 사용되었습니다)
전처리 : python preprocess.py -c config/default.yaml -d [data's root path]
구성 yaml 파일 편집

기차 및 텐서 보드

python trainer.py -c [config yaml file] -n [name of the run]
- cp config/default.yaml config/config.yaml 다음 config.yaml 편집하십시오
- 열차/유효성 검사 파일의 루트 경로를 2nd/3rd 라인에 기록하십시오.
- 각 경로에는 해당 (전처리) *.mel 파일이있는 *.wav 쌍이 포함되어야합니다.
- 데이터 로더는 경로 내 파일 목록을 재귀 적으로 구문 분석합니다.
tensorboard --logdir logs/

사방 모델

Google Colab : Todo와 함께 사용해보십시오

 import torch
vocoder = torch . hub . load ( 'seungwonpark/melgan' , 'melgan' )
vocoder . eval ()
mel = torch . randn ( 1 , 80 , 234 ) # use your own mel-spectrogram here

if torch . cuda . is_available ():
    vocoder = vocoder . cuda ()
    mel = mel . cuda ()

with torch . no_grad ():
    audio = vocoder . inference ( mel )

추론

python inference.py -p [checkpoint path] -i [input mel path]

결과

http://swpark.me/melgan/에서 오디오 샘플을 참조하십시오. 모델은 LJSPEECH-1.1을 사용하여 14 일 동안 V100 GPU에서 교육을 받았습니다.

구현 저자

Seungwon Park@Mindslab Inc. ([email protected], [email protected])
myunchul joe @ mindslab Inc.
Rishikesh @ Deepsync Technologies Pvt Ltd.

특허

BSD 3-Clause 라이센스.

Prem Seetharaman의 Utils/stft.py (BSD 3-Clause 라이센스)
https://github.com/nvidia/waveglow의 데이터 세트/mel2samp.py (bsd 3-clause 라이센스)
utils/hparams.py from https://github.com/harryvolek/pytorch_speaker_verification (라이센스가 지정되지 않음)

유용한 리소스

간을 훈련시키는 방법? Soumith Chintala의 Gans를 만들기위한 팁과 요령
원래 저자의 공식 Melgan 구현
Yifei Zhao, Yichao Yang 및 Yang Gao의 Melgan -Neurips 2019 재현성 도전 (Ablation Track)의 재생산
- "평균 풀링 레이어를 최대 풀링 레이어로 교체하고 반사 패딩을 복제 패딩으로 대체하면 성능이 크게 향상되며 결합하면 결과가 더 나빠집니다."

확장하다

추가 정보

버전 voiced segment (fix #30, #17)
유형 AI 소스 코드
업데이트 시간 2025-08-20
크기 223.05KB
출처 Github

관련 애플리케이션

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

추천

chat.petals.dev

기타 소스코드

1.0.0
GPT Prompt Templates

기타 소스코드

1.0.0
GPTyped

기타 소스코드

GPTyped 1.0.5
ML stack

AI 소스 코드

1.0.0
awesome free chatgpt

AI 소스 코드

1.0.0
pywin_contextmenu

AI 소스 코드

Version update
Google Dorks

기타 소스코드

1.0
shepherd

기타 소스코드

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

기타 소스코드

v1.1.0-rc-3

관련 정보 전체