TensorFlowTTS 다운로드 TensorFlowTTS 소스 코드 다운로드

TensorFlowTTS

AI 소스 코드

v1.8

다운로드

? Tensorflowtts

텐서 플로우에 대한 실시간 최신 언어 합성 2

? Tensorflowtts는 Tacotron-2, Melgan, Multiband-Melgan, Fastspeech, Fastspeech2 기반 Tensorflow 2와 같은 실시간 최신 음성 합성 아키텍처를 제공합니다. Tensorflow 2를 사용하면 속도를 높이고 실시기가 가짜 인식 및 가로를 사용하여 최적화를 최적화 할 수 있습니다. 시스템.

새로운 것

2021/08/18 ( New! ) Gradio와 함께 포옹 페이스 공간에 통합되었습니다. Gradio Web Demo를 참조하십시오.
2021/08/12 ( New! ) 지원 프랑스 TTS (Tacotron2, Multiband Melgan). pls는 Colab을 참조하십시오. 많은 감사합니다 Samuel Delalez
2021/06/01 Huggingface Hub와 통합. PR을 참조하십시오. Patrickvonplaten과 Osanseviero에게 감사드립니다
2021/03/18 FastSpeech2 및 MB Melgan 용 iOS 지원. kewlbear 감사합니다. 여기를 참조하십시오
2021/01/18 지원 TFLITE C ++ 추론. 감사합니다 Luan78zaoha. 여기를 참조하십시오
2020/12/02 Thorsten 데이터 세트와 함께 독일 TTS 지원. Colab을 참조하십시오. Thorstenmueller와 Monatis에게 감사드립니다
2020/11/24 Hifi-gan 보코더를 추가하십시오. 여기를 참조하십시오
2020/11/19 멀티 GPU 그라디언트 축적기를 추가하십시오. 여기를 참조하십시오
2020/08/23 병렬 웨이건 Tensorflow 구현을 추가하십시오. 여기를 참조하십시오
2020/08/20 C ++ 추론 코드 추가. @zdisket에게 감사합니다. 여기를 참조하십시오
2020/08/18 새로운 기본 프로세서 업데이트. 자동 프로세서 및 사전 처리 된 프로세서 JSON 파일을 추가하십시오
2020/08/14 지원 중국 TT. pls는 Colab을 참조하십시오. @azraelkuan 감사합니다
2020/08/05 지원 한국 TT. pls는 Colab을 참조하십시오. @crux153에 감사드립니다
2020/07/17 모든 트레이너를위한 Multigpu 지원
2020/07/05 지원 Tacotron-2, FastSpeech를 Tflite로 변환합니다. pls는 Colab을 참조하십시오. 그의 지원에 대해 Tflite 팀의 @jaeyoo에게 감사드립니다
2020/06/20 Tensorflow를 사용한 FastSpeech2 구현이 지원됩니다.
2020/06/07 Tensorflow를 사용한 멀티 밴드 Melgan (MB Melgan) 구현이 지원됩니다.

특징

언어 합성에 대한 고성능.
다른 언어를 미세 조정할 수 있습니다.
빠르고 확장 가능하며 신뢰할 수 있습니다.
배포에 적합합니다.
새로운 모델, 기반 초록 클래스를 쉽게 구현할 수 있습니다.
가능한 경우 속도를 높이기위한 혼합 정밀도.
단일/멀티 GPU 그라디언트 축적을 지원합니다.
베이스 트레이너 클래스에서 단일/멀티 GPU를 모두 지원합니다.
모든 지원되는 모델에 대한 TFLITE 변환.
안드로이드 예.
많은 언어를 지원합니다 (현재, 우리는 중국어, 한국, 영어, 프랑스어 및 독일어를 지원합니다)
C ++ 추론을 지원합니다.
지지 속도를 가속화하기 위해 일부 모델의 중량을 Pytorch에서 Tensorflow로 변환합니다.

요구 사항

이 저장소는 우분투 18.04에서 다음과 같이 테스트됩니다.

파이썬 3.7+
CUDA 10.1
CUDNN 7.6.5
텐서 플로 2.2/2.3/2.4/2.5/2.6
Tensorflow Addons> = 0.10.0

다른 Tensorflow 버전은 작동하지만 아직 테스트되지 않아야합니다. 이 repo는 최신 안정적인 Tensorflow 버전으로 작업하려고합니다. Multigpu를 사용하려는 경우 Tensorflow 2.6.0을 교육에 설치하는 것이 좋습니다.

설치

PIP와 함께

$ pip install TensorFlowTTS

소스에서

예제는 저장소에 포함되어 있지만 프레임 워크와 함께 배송되지 않습니다. 따라서 최신 버전의 예제를 실행하려면 아래 소스를 설치해야합니다.

$ git clone https://github.com/TensorSpeech/TensorFlowTTS.git
$ cd TensorFlowTTS
$ pip install .

저장소 및 그 종속성을 업그레이드하려면 :

$ git pull
$ pip install --upgrade .

지원되는 모델 아키텍처

Tensorflowtts는 현재 다음 아키텍처를 제공합니다.

Melgan은 Paper Melgan : Kundan Kumar, Ritheesh Kumar, Thibault de Boissiere, Lucas Gestin, Wei Zhen Teoh, Jose Sotelo, Alexandre de Brebisson, Yoshua Bengio, Aaron Courville의 조건부 파형 합성을위한 생성 적대 네트워크와 함께 출시되었습니다.
Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, Rj Skerry -ryan, a ahurous, ahurous, ahurous, ahurous, jhifeng chen, jhifeng chen, Zhifeng chen, Zhifeng Chen, Zhifeng Chen, Zhifeng Chen, Zhifeng Chen, Zhifeng Chen, Zhifeng Chen, Zhifeng chen Yonghui Wu.
FastSpeech 는 PAPER FASTSPEECH : FAST, 견고하며 제어 가능한 통제 가능한 텍스트와 함께 Yi Ren, Yangjun Ruan, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu.
Multi Band Melgan은 종이 멀티 밴드 Melgan : Geng Yang, Shan Yang, Kai Liu, Peng Fang, Wei Chen, Lei Xie의 고품질 텍스트 음성 연설을위한 더 빠른 파형 생성과 함께 출시되었습니다.
FastSpeech2 Paper Fastspeech 2 : Fast and 고품질의 엔드 투 엔드-엔드 투 엔드-엔드 투 엔드-엔드 투 엔드 텍스트에 대한 연설에 대한 연설, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu.
Parallel Wavegan Parallel Wavegan : Ryuichi Yamamoto, Eunwoo Song, Jae-Min Kim의 다중 해상도 스펙트로 그램을 갖춘 생성 적대적 네트워크를 기반으로 한 빠른 파형 생성 모델.
Hifi-Gan은 종이 Hifi-Gan : Jungil Kong, Jaehyeon Kim, Jaekyoung Bae의 효율적이고 높은 충실도 음성 합성을위한 생성 적대 네트워크와 함께 출시되었습니다.

또한 다음 논문에서 품질과 수렴 속도를 향상시키기위한 몇 가지 기술을 구현하고 있습니다.

이 논문과 함께 방출 된 주의 손실은 Hideyuki Tachibana, Katsuya Uenoyama, Shunsuke Aihara의 주목을받는 깊은 컨볼 루션 네트워크를 기반으로 효율적으로 훈련 가능한 텍스트 음성 연설 시스템을 사용합니다.

오디오 샘플

여기에 유효한 세트의 오디오 샘플에서. Tacotron-2, Fastspeech, Melgan, Melgan.stft, Fastspeech2, Multiband_melgan

튜토리얼 엔드 투 엔드

데이터 세트를 준비하십시오

다음 형식으로 데이터 세트를 준비하십시오.

 |- [NAME_DATASET]/
|   |- metadata.csv
|   |- wavs/
|       |- file1.wav
|       |- ...

여기서 metadata.csv 다음 형식을 갖습니다. id|transcription . 이것은 ljspeech와 같은 형식입니다. 다른 형식 데이터 세트가있는 경우 전처리 단계를 무시할 수 있습니다.

NAME_DATASET 은 예를 들어 [ljspeech/kss/baker/libritts/synpaflex] 여야합니다.

전처리

전처리에는 두 단계가 있습니다.

전처리 오디오 기능
- 문자를 ID로 변환합니다
- Mel Spectrograms를 계산합니다
- MEL 스펙트로 그램을 [-1, 1] 범위로 정규화합니다
- 데이터 세트를 기차 및 검증으로 분할하십시오
- 훈련 분할에서 여러 기능의 평균 및 표준 편차 계산
계산 된 통계를 기반으로 MEL 스펙트럼을 표준화하십시오

위의 단계를 재현하려면 :

 tensorflow-tts-preprocess --rootdir ./[ljspeech/kss/baker/libritts/thorsten/synpaflex] --outdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --config preprocess/[ljspeech/kss/baker/thorsten/synpaflex]_preprocess.yaml --dataset [ljspeech/kss/baker/libritts/thorsten/synpaflex]
tensorflow-tts-normalize --rootdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --outdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --config preprocess/[ljspeech/kss/baker/libritts/thorsten/synpaflex]_preprocess.yaml --dataset [ljspeech/kss/baker/libritts/thorsten/synpaflex]

현재 우리는 데이터 세트 인수에 대해 ljspeech , kss , baker , libritts , thorsten 및 synpaflex 만 지원합니다. 앞으로 더 많은 데이터 세트를 지원하려고합니다.

참고 : libritts Preprocessing을 실행하려면 먼저 예제/FastSpeech2_Libritts의 지침을 읽으십시오. 우리는 전처리를 실행하기 전에 먼저 그것을 재구성해야합니다.

참고 : synpaflex Preprocessing을 실행하려면 먼저 노트북 노트북/repay_synpaflex.ipynb를 실행하십시오. 우리는 전처리를 실행하기 전에 먼저 그것을 재구성해야합니다.

전처리 후 프로젝트 폴더의 구조는 다음과 같습니다.

 |- [NAME_DATASET]/
|   |- metadata.csv
|   |- wav/
|       |- file1.wav
|       |- ...
|- dump_[ljspeech/kss/baker/libritts/thorsten]/
|   |- train/
|       |- ids/
|           |- LJ001-0001-ids.npy
|           |- ...
|       |- raw-feats/
|           |- LJ001-0001-raw-feats.npy
|           |- ...
|       |- raw-f0/
|           |- LJ001-0001-raw-f0.npy
|           |- ...
|       |- raw-energies/
|           |- LJ001-0001-raw-energy.npy
|           |- ...
|       |- norm-feats/
|           |- LJ001-0001-norm-feats.npy
|           |- ...
|       |- wavs/
|           |- LJ001-0001-wave.npy
|           |- ...
|   |- valid/
|       |- ids/
|           |- LJ001-0009-ids.npy
|           |- ...
|       |- raw-feats/
|           |- LJ001-0009-raw-feats.npy
|           |- ...
|       |- raw-f0/
|           |- LJ001-0001-raw-f0.npy
|           |- ...
|       |- raw-energies/
|           |- LJ001-0001-raw-energy.npy
|           |- ...
|       |- norm-feats/
|           |- LJ001-0009-norm-feats.npy
|           |- ...
|       |- wavs/
|           |- LJ001-0009-wave.npy
|           |- ...
|   |- stats.npy
|   |- stats_f0.npy
|   |- stats_energy.npy
|   |- train_utt_ids.npy
|   |- valid_utt_ids.npy
|- examples/
|   |- melgan/
|   |- fastspeech/
|   |- tacotron2/
|   ...

stats.npy 훈련 분할 Mel 스펙트럼의 평균 및 STD를 포함합니다.
stats_energy.npy 훈련 분할의 에너지 값의 평균과 STD를 포함합니다.
stats_f0.npy 에는 훈련 분할의 F0 값의 평균과 STD가 포함됩니다.
train_utt_ids.npy / valid_utt_ids.npy 각각 교육 및 유효성 발화 ID가 포함되어 있습니다.

우리는 각 입력 유형에 접미사 ( ids , raw-feats , raw-energy , raw-f0 , norm-feats 및 wave )를 사용합니다.

중요한 메모 :

이 전처리 단계는 ESPNET를 기반으로하므로 모든 모델을 ESPNET 저장소의 다른 모델과 결합 할 수 있습니다.
데이터 세트가 형식화되는 방식에 관계없이, dump 폴더의 최종 구조는 위의 구조를 따라 훈련 스크립트를 사용할 수 있거나 직접 수정할 수 있습니까?

훈련 모델

다른 데이터 세트/언어로 모델을 처음부터 훈련시키는 방법을 알고 싶으시면 Example 디렉토리의 세부 사항을 참조하십시오.

Tacotron-2 튜토리얼의 경우 pls는 예/Tacotron2를 참조하십시오
FastSpeech 튜토리얼의 경우 Pls는 예/FastSpeech를 참조하십시오
FastSpeech2 튜토리얼의 경우 pls는 예제/FastSpeech2를 참조하십시오
FastSpeech2 + MFA 튜토리얼의 경우 pls는 예제/fastspeech2_libritts를 참조하십시오
Melgan 튜토리얼의 경우 Pls는 예/Melgan을 참조하십시오
Melgan + STFT Loss Tutorial의 경우 pls는 예제/melgan.stft를 참조하십시오
Multiband-Melgan 튜토리얼의 경우 Pls는 예제/Multiband_melgan을 참조하십시오
Parallel Wavegan 튜토리얼의 경우 Pls는 예제/Parallel_Wavegan을 참조하십시오
Multiband-Melgan Generator + Hifi-Gan 튜토리얼의 경우 pls 예제/multiband_melgan_hf를 참조하십시오
Hifi-gan 튜토리얼의 경우 pls는 예/Hifigan을 참조하십시오

추상 수업 설명

Abstract Dataloader Tensorflow 기반 데이터 세트

tensorflow_tts/dataset/actract_dataset에서 추상 데이터 세트 클래스의 세부 구현. 지나치게 이해해야 할 몇 가지 기능이 있습니다.

get_args :이 함수는 발전기 클래스에 대한 인수를 반환합니다. 일반적으로 UTT_IDS입니다.
생성기 :이 기능에는 get_args 함수의 입력이 있으며 모델에 대한 입력을 반환합니다. base_trainer는 모델 (** 배치)을 사용하여 앞으로 단계를 수행하기 때문에 모델의 매개 변수와 정확히 일치하는 키가있는 모든 발전기 기능에 대한 사전을 반환합니다.
get_output_dtypes :이 기능은 생성기 함수의 각 요소에 대해 반환 dtypes가 필요합니다.
get_len_dataset : 데이터 세트의 반환 Len, normaly is len (utt_ids).

중요한 메모 :

데이터 세트 생성 파이프 라인은 다음과 같아야합니다. cache-> 셔플 -> map_fn-> get_batch-> prefetch.
캐시 전에 셔플을 사용하는 경우 데이터 세트가 데이터 세트를 통해 다시 통과 할 때 데이터 세트가 셔플되지 않습니다.
배치를 얻고 모델로 공급하기 전에 발전기 함수에서 각 요소가 길이가 같은 길이를 갖도록 MAP_FN을 적용해야합니다.

이 Abstract_dataset을 사용하는 몇 가지 예는 Tacotron_dataset.py, fastspeech_dataset.py, melgan_dataset.py, fastspeech2_dataset.py입니다.

추상 트레이너 수업

Tensorflow_tts/Trainer/Base_trainer.py에서 Base_trainer의 세부 구현. SEQ2SeqbasedTrainer 및 GanBasedTrainer는 기반 트레이너에서 상속됩니다. 모든 트레이너는 단일/멀티 GPU를 모두 지원합니다. New_Trainer를 구현할 때 과도하게 내려야 하는 일부 기능이 있습니다.

컴파일 :이 기능은 모델과 손실을 정의하는 것을 목표로합니다.
generate_and_save_intermediate_result :이 함수는 다음과 같은 중간 결과를 저장합니다 : 플롯 정렬, 오디오 저장, 플롯 Mel-spectrogram ...
compute_per_example_losses :이 함수는 모델에 대해 PER_Example_Loss를 계산합니다. 손실의 모든 요소는 [batch_size] 모양이 있어야 합니다 .

이 repo의 모든 모델은 훈련 된 GanBasedTrainer (Train_Melgan.py, Train_Melgan_Stft.py, Train_Multiband_Melgan.py 참조) 및 SEQ2SeqBasedTrainer (Train_Tacotron2.py, Train_FastSpeech.py 참조)입니다.

엔드 투 엔드 예제

노트북에서 각 모델을 추론하거나 Colab (영어), Colab (한국어), Colab (중국어), Colab (프랑스어), Colab (독일어)을 참조하십시오. 다음은 FastSpeech2 및 다중 대역 Melgan과의 End2end 추론에 대한 예제 코드입니다. 우리는 Huggingface Hub에 사방 된 모든 것을 업로드했습니다.

 import numpy as np
import soundfile as sf
import yaml

import tensorflow as tf

from tensorflow_tts . inference import TFAutoModel
from tensorflow_tts . inference import AutoProcessor

# initialize fastspeech2 model.
fastspeech2 = TFAutoModel . from_pretrained ( "tensorspeech/tts-fastspeech2-ljspeech-en" )


# initialize mb_melgan model
mb_melgan = TFAutoModel . from_pretrained ( "tensorspeech/tts-mb_melgan-ljspeech-en" )


# inference
processor = AutoProcessor . from_pretrained ( "tensorspeech/tts-fastspeech2-ljspeech-en" )

input_ids = processor . text_to_sequence ( "Recent research at Harvard has shown meditating for as little as 8 weeks, can actually increase the grey matter in the parts of the brain responsible for emotional regulation, and learning." )
# fastspeech inference

mel_before , mel_after , duration_outputs , _ , _ = fastspeech2 . inference (
    input_ids = tf . expand_dims ( tf . convert_to_tensor ( input_ids , dtype = tf . int32 ), 0 ),
    speaker_ids = tf . convert_to_tensor ([ 0 ], dtype = tf . int32 ),
    speed_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
    f0_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
    energy_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
)

# melgan inference
audio_before = mb_melgan . inference ( mel_before )[ 0 , :, 0 ]
audio_after = mb_melgan . inference ( mel_after )[ 0 , :, 0 ]

# save to file
sf . write ( './audio_before.wav' , audio_before , 22050 , "PCM_16" )
sf . write ( './audio_after.wav' , audio_after , 22050 , "PCM_16" )