TensorFlowTTSダウンロードTensorFlowTTSソースコードのダウンロード

TensorFlowTTS

AI ソースコード

v1.8

ダウンロード

？ Tensorflowtts

Tensorflow 2のリアルタイム最先端の音声合成

？ Tensorflowttsは、リアルタイムの最先端の音声合成アーキテクチャを提供します。Tacotron-2、Melgan、Multiband-Melgan、Fastspeech、Fastspeech2ベースのTensorflow 2など。TensorFlow2。組み込みシステム。

特徴

音声合成の高性能。
他の言語で微調整できるようにします。
高速でスケーラブルで、信頼性があります。
展開に適しています。
新しいモデル、ベースの抽象クラスを簡単に実装できます。
可能であれば、スピードアップトレーニングと混合精度。
シングル/マルチGPU勾配の蓄積をサポートします。
ベーストレーナークラスでシングル/マルチGPUの両方をサポートします。
サポートされているすべてのモデルのtflite変換。
Androidの例。
多くの言語をサポートしています（現在、中国語、韓国語、英語、フランス語、ドイツ語をサポートしています）
C ++推論をサポートします。
PytorchからTensorflowへの一部のモデルの重量をサポートして、速度を加速します。

要件

このリポジトリは、以下でUbuntu 18.04でテストされています。

Python 3.7+
CUDA 10.1
Cudnn 7.6.5
Tensorflow 2.2/2.3/2.4/2.5/2.6
Tensorflowアドオン> = 0.10.0

異なるTensorflowバージョンは機能している必要がありますが、まだテストされていません。このレポは、最新の安定したTensorflowバージョンで動作しようとします。 MultiGPUを使用する場合に備えて、Tensorflow 2.6.0をトレーニングにインストールすることをお勧めします。

インストール

ピップ付き

$ pip install TensorFlowTTS

ソースから

例はリポジトリに含まれていますが、フレームワークには出荷されていません。したがって、最新バージョンの例を実行するには、以下にソースをインストールする必要があります。

$ git clone https://github.com/TensorSpeech/TensorFlowTTS.git
$ cd TensorFlowTTS
$ pip install .

リポジトリとその依存関係をアップグレードする場合：

$ git pull
$ pip install --upgrade .

サポートされているモデルアーキテクチャ

Tensorflowttsは現在、次のアーキテクチャを提供しています。

メルガンはペーパーでリリースされましたメルガン：クンダン・クマール、リテシュ・クマール、ティボー・デ・ボワシエール、ルーカス・ゲスティン、ウェイ・ゼン・テオ、ホセ・ソテロ、アレクサンドレ・デ・ブレビソン、ヨス・ベンギオ、アロン・クードビルによる条件付き波形合成のための生成敵のネットワーク。
Tacotron-2 released with the paper Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions by Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ Skerry-Ryan, Rif A. Saurous, Yannis Agiomyrgiannakis,ヨングイウ。
Faptspeechは、Yi Ren、Yangjun Ruan、Xu Tan、Tao Qin、Sheng Zhao、Zhou Zhao、Tie-Yan Liuによるスピーチによる高速、堅牢で、制御可能なテキストを紙でリリースしました。
マルチバンドメルガンは、ペーパーマルチバンドメルガンでリリースされました。GengYang、Shan Yang、Kai Liu、Peng Fang、Wei Chen、Lei Xieによる高品質のテキストからスピーチの高速生成の高速生成。
fastspeech2は、Paper fastspeech 2でリリースされました。Yi Ren、Chenxu Hu、Xu Tan、Tao Qin、Sheng Zhao、Zhou Zhao、Tie-Yan Liuによる高速および高品質のエンドツーエンドのテキストからスピーチまで。
Paper Paralallagle Wavgan ：Yunwoo Song、Jae-Min Kimによるマルチ解像度スペクトログラムを備えた生成攻撃ネットワークに基づく高速波形生成モデル：Paper Paralallagle Wavgan：afc waveform生成モデル。
Hifi-Ganは、 Jungil Kong、Jaehyeon Kim、Jaekyoung Baeによる効率的かつ高忠実度の音声合成のためのHifi-Gan：生成的敵対的ネットワークをリリースしました。

また、次の論文から品質と収束速度を改善するためのいくつかの手法を実装しています。

タチバナ秀樹、上山katsuya、八頭島によって誘導された注意を払った深い畳み込みネットワークに基づいて、紙が効率的に訓練可能なテキストからスピーチへの発言システムでリリースされたガイド付き注意損失。

オーディオサンプル

ここでは、有効なセットのオーディオサンプルで。 Tacotron-2、FastSpeech、Melgan、Melgan.Stft、FastSpeech2、Multiband_Melgan

チュートリアルエンドツーエンド

データセットを準備します

次の形式でデータセットを準備します。

 |- [NAME_DATASET]/
|   |- metadata.csv
|   |- wavs/
|       |- file1.wav
|       |- ...

metadata.csvには次の形式がありますid|transcription 。これはljspeechのような形式です。他のフォーマットデータセットがある場合は、前処理手順を無視できます。

NAME_DATASET [ljspeech/kss/baker/libritts/synpaflex]である必要があることに注意してください。

前処理

前処理には2つのステップがあります。

プリプロースオーディオ機能
- 文字をIDに変換します
- MELスペクトログラムを計算します
- MELスペクトログラムを[-1、1]範囲に正規化します
- データセットを電車と検証に分割します
- トレーニング分割からの複数の機能の平均と標準偏差を計算する
計算された統計に基づいてMELスペクトログラムを標準化します

上記の手順を再現するには：

 tensorflow-tts-preprocess --rootdir ./[ljspeech/kss/baker/libritts/thorsten/synpaflex] --outdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --config preprocess/[ljspeech/kss/baker/thorsten/synpaflex]_preprocess.yaml --dataset [ljspeech/kss/baker/libritts/thorsten/synpaflex]
tensorflow-tts-normalize --rootdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --outdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --config preprocess/[ljspeech/kss/baker/libritts/thorsten/synpaflex]_preprocess.yaml --dataset [ljspeech/kss/baker/libritts/thorsten/synpaflex]

現在、データセット引数のために、 ljspeech 、 kss 、 baker 、 libritts 、 thorsten 、 synpaflexのみをサポートしています。将来的には、より多くのデータセットをサポートする予定です。

注： libritts Preprocessingを実行するには、まずexamples/fastspeech2_librittsの命令をお読みください。プリプロシングを実行する前に、最初にそれを再フォーマットする必要があります。

注： synpaflex Preprocessingを実行するには、最初にノートブックノートブック/prepare_synpaflex.ipynbを実行してください。プリプロシングを実行する前に、最初にそれを再フォーマットする必要があります。

前処理後、プロジェクトフォルダーの構造は次のようにする必要があります。

 |- [NAME_DATASET]/
|   |- metadata.csv
|   |- wav/
|       |- file1.wav
|       |- ...
|- dump_[ljspeech/kss/baker/libritts/thorsten]/
|   |- train/
|       |- ids/
|           |- LJ001-0001-ids.npy
|           |- ...
|       |- raw-feats/
|           |- LJ001-0001-raw-feats.npy
|           |- ...
|       |- raw-f0/
|           |- LJ001-0001-raw-f0.npy
|           |- ...
|       |- raw-energies/
|           |- LJ001-0001-raw-energy.npy
|           |- ...
|       |- norm-feats/
|           |- LJ001-0001-norm-feats.npy
|           |- ...
|       |- wavs/
|           |- LJ001-0001-wave.npy
|           |- ...
|   |- valid/
|       |- ids/
|           |- LJ001-0009-ids.npy
|           |- ...
|       |- raw-feats/
|           |- LJ001-0009-raw-feats.npy
|           |- ...
|       |- raw-f0/
|           |- LJ001-0001-raw-f0.npy
|           |- ...
|       |- raw-energies/
|           |- LJ001-0001-raw-energy.npy
|           |- ...
|       |- norm-feats/
|           |- LJ001-0009-norm-feats.npy
|           |- ...
|       |- wavs/
|           |- LJ001-0009-wave.npy
|           |- ...
|   |- stats.npy
|   |- stats_f0.npy
|   |- stats_energy.npy
|   |- train_utt_ids.npy
|   |- valid_utt_ids.npy
|- examples/
|   |- melgan/
|   |- fastspeech/
|   |- tacotron2/
|   ...

stats.npyは、トレーニングスプリットメルスペクトログラムからの平均とstdが含まれています
stats_energy.npyには、トレーニング分割からのエネルギー値の平均とSTDが含まれています
stats_f0.npyは、トレーニング分割にf0値の平均とstdが含まれています
train_utt_ids.npy / valid_utt_ids.npyには、それぞれトレーニングと検証の発言IDが含まれています

各入力タイプには、サフィックス（ ids 、 raw-feats 、 raw-energy 、 raw-f0 、 norm-feats 、およびwave ）を使用します。

重要なメモ：

この前処理ステップはESPNETに基づいているため、ここのすべてのモデルをESPNETリポジトリの他のモデルと組み合わせることができます。
データセットのフォーマット方法に関係なく、 dumpフォルダーの最終構造は上記の構造に従ってトレーニングスクリプトを使用できるようにする必要がありますか、それとも自分で変更できますか？

トレーニングモデル

ゼロからモデルをトレーニングする方法を知るため、または他のデータセット/言語で微調整する方法については、詳細をディレクトリの例をご覧ください。

Tacotron-2チュートリアルについては、plsを参照してください
fastspeechチュートリアルについては、plsは例/fastspeechを参照してください
fastspeech2チュートリアルについては、plsを参照してください。例/fastspeech2を参照してください
fastspeech2 + MFAチュートリアルについては、plsを参照してください
Melganチュートリアルについては、plsを参照してください/Melganを参照してください
Melgan + Stft Lossチュートリアルについては、plsを参照してください
Multiband-Melganチュートリアルについては、plsを参照してください
Parallel Waveganチュートリアルについては、plsを参照してください。例/parallel_waveganを参照してください
Multiband-Melgan Generator + Hifi-Ganチュートリアルについては、plsを参照してください
Hifi-Ganチュートリアルについては、plsを参照してください

抽象クラスの説明

抽象的なデータローダーTensorflowベースのデータセット

tensorflow_tts/dataset/abstract_datasetからの抽象データセットクラスの詳細実装。オーバーサイドと理解する必要がある機能がいくつかあります。

get_args ：この関数は、ジェネレータークラスの引数を返します。通常はutt_idsです。
ジェネレーター：この関数には、 get_args関数からの入力があり、モデルの入力を返します。 base_trainerがモデル（** batch）を使用してフォワードステップを実行するため、モデルのパラメーターと正確に一致するキーを使用して、すべてのジェネレーター関数の辞書を返すことに注意してください。
get_output_dtypes ：この関数は、ジェネレーター関数から各要素のdtypeを返す必要があります。
get_len_dataset ：データセットのレンを返し、normalyはlen（utt_ids）です。

重要なメモ：

データセットを作成するパイプラインは次のとおりです。キャッシュ - > shuffle-> map_fn-> get_batch-> prefetch。
キャッシュの前にシャッフルする場合、データセットがデータセットを繰り返してもシャッフルしません。
MAP_FNを適用して、バッチを取得してモデルに送る前に、ジェネレーター関数から各要素を返すようにする必要があります。

このabstract_datasetを使用する例は、tacotron_dataset.py、fastspeech_dataset.py、melgan_dataset.py、fastspeech2_dataset.pyです。

抽象的なトレーナークラス

tensorflow_tts/trainer/base_trainer.pyからのbase_trainerの詳細実装。 Seq2SeqBasedTrainerとGanBasedTrainerがBasedTrainerから継承されます。すべてのトレーナーは、シングル/マルチGPUの両方をサポートしています。 new_trainerを実装するときにオーバーする必要がある関数があります。

コンパイル：この関数は、モデルと損失を定義することを目的としています。
Generate_and_save_intermediate_result ：この関数は、次のような中間結果を保存します。
compute_per_example_losses ：この関数はモデルのper_example_lossを計算します。損失のすべての要素には形状[batch_size]が必要であることに注意してください。

このリポジトリのすべてのモデルは、 ganbasedtrainerに基づいてトレーニングされています（train_melgan.py、train_melgan_stft.py、train_multiband_melgan.pyを参照）およびseq2seqbasedtrainer （train_tacotron2.py、train_fastspeech.py.pyを参照）。

エンドツーエンドの例

ノートブックに各モデルを推論する方法を知るか、コラブ（英語用）、colab（韓国語）、colab（中国語）、colab（フランス語用）、colab（ドイツ語）を見る方法を知ることができます。 FastSpeech2およびマルチバンドメルガンを使用したEnd2End推論の例の例を示します。私たちは、すべての前提条件をHuggingface Hubにアップロードしました。

 import numpy as np
import soundfile as sf
import yaml

import tensorflow as tf

from tensorflow_tts . inference import TFAutoModel
from tensorflow_tts . inference import AutoProcessor

# initialize fastspeech2 model.
fastspeech2 = TFAutoModel . from_pretrained ( "tensorspeech/tts-fastspeech2-ljspeech-en" )


# initialize mb_melgan model
mb_melgan = TFAutoModel . from_pretrained ( "tensorspeech/tts-mb_melgan-ljspeech-en" )


# inference
processor = AutoProcessor . from_pretrained ( "tensorspeech/tts-fastspeech2-ljspeech-en" )

input_ids = processor . text_to_sequence ( "Recent research at Harvard has shown meditating for as little as 8 weeks, can actually increase the grey matter in the parts of the brain responsible for emotional regulation, and learning." )
# fastspeech inference

mel_before , mel_after , duration_outputs , _ , _ = fastspeech2 . inference (
    input_ids = tf . expand_dims ( tf . convert_to_tensor ( input_ids , dtype = tf . int32 ), 0 ),
    speaker_ids = tf . convert_to_tensor ([ 0 ], dtype = tf . int32 ),
    speed_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
    f0_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
    energy_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
)

# melgan inference
audio_before = mb_melgan . inference ( mel_before )[ 0 , :, 0 ]
audio_after = mb_melgan . inference ( mel_after )[ 0 , :, 0 ]

# save to file
sf . write ( './audio_before.wav' , audio_before , 22050 , "PCM_16" )
sf . write ( './audio_after.wav' , audio_after , 22050 , "PCM_16" )