TensorFlowTTS скачать - TensorFlowTTS исходный код скачать

TensorFlowTTS

AI Исходный код

v1.8

Скачать

? TensorFlowtts

Современный синтез речи в реальном времени для Tensorflow 2

? TensorFlowTTS provides real-time state-of-the-art speech synthesis architectures such as Tacotron-2, Melgan, Multiband-Melgan, FastSpeech, FastSpeech2 based-on TensorFlow 2. With Tensorflow 2, we can speed-up training/inference progress, optimizer further by using fake-quantize aware and pruning, make TTS models can be run faster than real-time and be able to deploy on mobile devices or embedded система

Что нового

2021/08/18 ( новый! ) Интегрирован в пространства для повышения с Gradio. См. Демо -демо.
2021/08/12 ( новый! ) Поддержите французские TTS (Tacotron2, Multiband Melgan). Пожалуйста, посмотрите колаб. Большое спасибо Сэмюэль Делалесу
2021/06/01 Интегрирован с узлом Huggingface. Смотрите PR. Спасибо Patrickvonplaten и Osanseviero
2021/03/18 Поддержка iOS для Fastspeech2 и MB Melgan. Спасибо, Кьюлбер. Смотрите здесь
2021/01/18 Поддержка вывода TFLITE C ++. Спасибо Luan78zaoha. Смотрите здесь
2020/12/02 Поддержка немецких TTS с набором данных Thorsten. Смотрите колаб. Спасибо Торстенмюллер и Монатис
2020/11/24 Добавить hifi-gan Vocoder. Смотрите здесь
2020/11/19 Добавить градиент-аккумулятор мульти-GPU. Смотрите здесь
2020/08/23 Добавить параллельную реализацию Walegan Tensorflow. Смотрите здесь
2020/08/20 Добавить код вывода C ++. Спасибо @zdisket. Смотрите здесь
2020/08/18 Обновите новый базовый процессор. Добавить автопроцессор и предварительный процессор JSON File
2020/08/14 Поддержка китайских TTS. Пожалуйста, посмотрите колаб. Спасибо @azraelkuan
2020/08/05 Поддержка корейских TTS. Пожалуйста, посмотрите колаб. Спасибо @CRUX153
2020/07/17 Поддержка MultiGPU для всех тренеров
2020/07/05 Поддержка преобразования такотрона-2, Fastspeech to tflite. Пожалуйста, посмотрите колаб. Спасибо @jaeyoo из команды Tflite за его поддержку
2020/06/20 Реализация Fastspeech2 с TensorFlow поддерживается.
2020/06/07 Многополосная мельганская реализация (MB Melgan) с TensorFlow поддерживается

Функции

Высокая производительность при синтезе речи.
Иметь возможность точно настраивать на других языках.
Быстрый, масштабируемый и надежный.
Подходит для развертывания.
Легко реализовать новую модель, основанную на абстрактном классе.
Смешанная точность с ускорением тренировки, если это возможно.
Поддержка накапливается одно/много -графический график.
Поддержите как одиночный/мульти -графический процессор в классе базового тренера.
Преобразование TFLITE для всех поддерживаемых моделей.
Пример Android.
Поддерживать многие языки (в настоящее время мы поддерживаем китайский, корейский, английский, французский и немецкий))
Поддержка вывода C ++.
Поддержка преобразования веса для некоторых моделей от Pytorch в Tensorflow, чтобы ускорить скорость.

Требования

Этот репозиторий проверяется на Ubuntu 18.04 с:

Python 3.7+
CUDA 10.1
Cudnn 7.6.5
Tensorflow 2.2/2,3/2,4/2,5/2,6
Addons tensorflow> = 0,10,0

Различная версия TensorFlow должна работать, но еще не протестирована. Этот репо старается работать с последней стабильной версией Tensorflow. Мы рекомендуем вам установить TensorFlow 2.6.0 для обучения на случай, если вы хотите использовать мультигпью.

Установка

С Pip

$ pip install TensorFlowTTS

Из источника

Примеры включены в репозиторий, но не поставляются с рамками. Поэтому, чтобы запустить последнюю версию примеров, вам необходимо установить источник ниже.

$ git clone https://github.com/TensorSpeech/TensorFlowTTS.git
$ cd TensorFlowTTS
$ pip install .

Если вы хотите обновить репозиторий и его зависимости:

$ git pull
$ pip install --upgrade .

Поддерживаемые модельные архитектуры

TensorFlowtts в настоящее время предоставляет следующие архитектуры:

Мелган выпустил с бумагой Мелган: Генеративные состязательные сети для условного синтеза формы волны Кундана Кумара, Ритеша Кумара, Тибо -де -Боассира, Лукаса Гестина, Вэй Чжэна Тео, Хосе Сотело, Александре де Бребиссона, Йошуа Бенгено, Аарона Курвилля.
Такотрон-2, выпущенный с бумажным натуральным синтезом TTS, кондиционируя Wavenet на предсказаниях Spectrogram MEL Джонатаном Шеном, Румингом Панг, Рон Дж. Вайс, Майк Шустер, Навдип Джейтли, Зонгенг Ян, Чифенг Чен, Ю-Жанг, Юкс, Р.Дж. Yonghui wu.
Fastspeech выпущен с бумагой Fastspeech: быстрый, крепкий и контролируемый текст в речи Yi Ren, Yangjun Ruan, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu.
Многополосный Мелган выпущен с помощью бумаги многополосной Melgan: более быстрое генерация формы волны для высококачественного текста в речь от Geng Yang, Shan Yang, Kai Liu, Peng Fang, Wei Chen, Lei Xie.
Fastspeech2 выпущен с бумагой Fastspeech 2: Быстрый и высококачественный сквозной текст к речи Yi Ren, Chenxu Hu, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu.
Parallel Wavegan, выпущенный с бумажной параллельной Waledgan: модель формирования быстрого сигнала, основанная на генеративных состязательных сетях со спектрограммой с несколькими разрешениями Ryuichi Yamamoto, Eunwoo Song, Jae-Min Kim.
Hifi-Gan, выпущенный с бумагой Hifi-Gan: Генеративные состязательные сети для эффективного и высокого синтеза речи Jungil Kong, Jaehyeon Kim, Jaekyoung Bae.

Мы также реализуем некоторые методы для улучшения качества и скорости сходимости из следующих документов:

Потеря внимания с управляемой, выпущенная с помощью бумаги, эффективно обучаемой системы текста в речь, основанная на глубоких сверточных сетях, с учетом внимания со стороны Хидеюки Тачибана, Кацуя Уэенояма, Шунсуке Айхара.

Аудио Образцы

Здесь, в образцах аудио на действительном наборе. Tacotron-2, Fastspeech, Melgan, Melgan.stft, Fastspeech2, Multiband_melgan

Учебное пособие

Подготовьте набор данных

Подготовьте набор данных в следующем формате:

 |- [NAME_DATASET]/
|   |- metadata.csv
|   |- wavs/
|       |- file1.wav
|       |- ...

Где metadata.csv имеет следующий формат: id|transcription . Это формат, похожий на LJSPEECH; Вы можете игнорировать шаги предварительной обработки, если у вас есть другие наборы данных формата.

Обратите внимание, что NAME_DATASET должно быть [ljspeech/kss/baker/libritts/synpaflex] .

Предварительная обработка

Предварительная обработка имеет два шага:

Предварительные аудиофункциональные функции
- Преобразовать символы в идентификаторы
- Вычислить спектрограммы MEL
- Нормализовать спектрограммы MEL в диапазон [-1, 1]
- Разделите набор данных на поезд и проверку
- Вычислить среднее и стандартное отклонение множества функций от тренировочного разделения
Стандартизировать спектрограмму MEL на основе вычисленной статистики

Чтобы воспроизвести шаги выше:

 tensorflow-tts-preprocess --rootdir ./[ljspeech/kss/baker/libritts/thorsten/synpaflex] --outdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --config preprocess/[ljspeech/kss/baker/thorsten/synpaflex]_preprocess.yaml --dataset [ljspeech/kss/baker/libritts/thorsten/synpaflex]
tensorflow-tts-normalize --rootdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --outdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --config preprocess/[ljspeech/kss/baker/libritts/thorsten/synpaflex]_preprocess.yaml --dataset [ljspeech/kss/baker/libritts/thorsten/synpaflex]

Прямо сейчас мы поддерживаем только ljspeech , kss , baker , libritts , thorsten и synpaflex для аргумента набора данных. В будущем мы намерены поддерживать больше наборов данных.

ПРИМЕЧАНИЕ libritts Нам нужно переформатировать его сначала перед предварительной обработкой.

ПРИМЕЧАНИЕ synpaflex Нам нужно переформатировать его сначала перед предварительной обработкой.

После предварительной обработки структура папки проекта должна быть:

 |- [NAME_DATASET]/
|   |- metadata.csv
|   |- wav/
|       |- file1.wav
|       |- ...
|- dump_[ljspeech/kss/baker/libritts/thorsten]/
|   |- train/
|       |- ids/
|           |- LJ001-0001-ids.npy
|           |- ...
|       |- raw-feats/
|           |- LJ001-0001-raw-feats.npy
|           |- ...
|       |- raw-f0/
|           |- LJ001-0001-raw-f0.npy
|           |- ...
|       |- raw-energies/
|           |- LJ001-0001-raw-energy.npy
|           |- ...
|       |- norm-feats/
|           |- LJ001-0001-norm-feats.npy
|           |- ...
|       |- wavs/
|           |- LJ001-0001-wave.npy
|           |- ...
|   |- valid/
|       |- ids/
|           |- LJ001-0009-ids.npy
|           |- ...
|       |- raw-feats/
|           |- LJ001-0009-raw-feats.npy
|           |- ...
|       |- raw-f0/
|           |- LJ001-0001-raw-f0.npy
|           |- ...
|       |- raw-energies/
|           |- LJ001-0001-raw-energy.npy
|           |- ...
|       |- norm-feats/
|           |- LJ001-0009-norm-feats.npy
|           |- ...
|       |- wavs/
|           |- LJ001-0009-wave.npy
|           |- ...
|   |- stats.npy
|   |- stats_f0.npy
|   |- stats_energy.npy
|   |- train_utt_ids.npy
|   |- valid_utt_ids.npy
|- examples/
|   |- melgan/
|   |- fastspeech/
|   |- tacotron2/
|   ...

stats.npy содержит среднее значение и STD из тренировочных спектрограмм MEL
stats_energy.npy содержит среднее значение и STD значений энергии от разделения обучения
stats_f0.npy содержит среднее значение и STD значений F0 в тренировочном разделении
train_utt_ids.npy / valid_utt_ids.npy содержит идентификаторы высказываний и проверки обучения и проверки соответственно

Мы используем суффикс ( ids , raw-feats , raw-energy , raw-f0 , norm-feats и wave ) для каждого входного типа.

Важные примечания :

Этот этап предварительной обработки основан на ESPNET, поэтому вы можете объединить все модели здесь с другими моделями из репозитория ESPNET.
Независимо от того, как отформатирован ваш набор данных, окончательная структура папки dump должна следовать приведенной выше структуре, чтобы иметь возможность использовать тренировочный скрипт, или вы можете изменить его самостоятельно?

Тренировочные модели

Чтобы узнать, как тренировать модель с нуля или настройку с другими наборами данных/языками, см. Подробную информацию в Directory Directory.

Для учебника Tacotron-2, пожалуйста, см. Примеры/Tacotron2
Для учебника Fastspeech, пожалуйста, см. Примеры/Fastspeech
Для обучения Fastspeech2, пожалуйста, см. Примеры/Fastspeech2
Для обучения Fastspeech2 + MFA, пожалуйста, см. Примеры/Fastspeech2_libritts
Для учебника Мелгана, пожалуйста, см. Примеры/Мелган
Для Melgan + Louperial потери STFT, пожалуйста, см. Примеры/Melgan.Stft
Для учебного пособия с несколькими мельганами см. Примеры/Multiband_melgan
Для параллельного учебника Wavegan, пожалуйста, см. Примеры/Parallel_wavegan
Для Multiband-Melgan Generator + Hifi-Gan Tutorial, пожалуйста, см. Примеры/Multiband_melgan_hf
Для обучения Hifi-Gan, пожалуйста, см. Примеры/Hifigan

Аннотация Класс Объяснение

Аннотация набор данных на основе DataLoader TensorFlow

Подробная реализация класса абстрактного набора данных из TensorFlow_tts/DataSet/Abstract_Dataset. Есть некоторые функции, которые вам нужны переоценить и понять:

get_args : эта функция возвращает аргументацию для класса генератора , обычно является UTT_IDS.
Генератор : эта функция имеет входные данные от функции get_args и возвращает входы для моделей. Обратите внимание, что мы возвращаем словарь для всех функций генератора с ключами, которые точно соответствуют параметрам модели, поскольку Base_trainer будет использовать модель (** партия) для продвижения вперед.
GET_OUTPUT_DTYPES : эта функция требует возврата DTYPE для каждого элемента из функции генератора .
get_len_dataset : вернуть Len наборов данных, Normaly IS LEN (UTT_IDS).

Важные примечания :

Трубопровод создания набора данных должен быть: cache -> shuffle -> map_fn -> get_batch -> prefetch.
Если вы делаете перетасовку перед кешем, набор данных не будет перетасоваться, когда он повторно использует наборы данных.
Вы должны применить MAP_FN, чтобы каждый элемент возвращался из функции генератора иметь одинаковую длину, прежде чем получить пакет и подавать его в модель.

Некоторые примеры для использования этого Abstract_dataset являются tacotron_dataset.py, fastspeech_dataset.py, melgan_dataset.py, fastspeech2_dataset.py

Аннотация класс тренера

Подробная реализация base_trainer от tensorflow_tts/trainer/base_trainer.py. Он включает в себя SEQ2SeqBasedTrainer и GanbasedTrainer, наследуя от Basedtrainer. Все тренер поддерживают как одиночный/многолетний графический процессор. Есть некоторые функции, которые вы должны переоценить при реализации new_trainer:

Компиляция : эта функция направлена на определение моделей и потерь.
GENERATE_AND_SAVE_INTERMEDIATE_RESULT : эта функция сохранит промежуточный результат, такой как: Выравнивание сюжета, сохранение сгенерированного звука, график мель-спектрограммы ...
COMPUTE_PER_EXAMPLE_LOSSES : эта функция будет вычислять per_example_loss для модели, обратите внимание, что весь элемент потери должен иметь форму [batch_size].

Все модели на этом репо обучаются на основе ganbasedtrainer (см. Train_melgan.py, Train_melgan_stft.py, Train_multiband_melgan.py) и seq2seqbasedtrainer (см. Train_tacotron2.py, train_fastspeech.py).

Сквозные примеры

Вы можете знать, как сделать вывод каждой модели в ноутбуках или увидеть колаб (для английского языка), колаба (для корейского), колаба (для китайского), колаба (для французского языка), колаба (для немецкого языка). Вот пример кода для вывода End2end с Fastspeech2 и многополосным Melgan. Мы загрузили все наши предварительные в центр Huggingface.

 import numpy as np
import soundfile as sf
import yaml

import tensorflow as tf

from tensorflow_tts . inference import TFAutoModel
from tensorflow_tts . inference import AutoProcessor

# initialize fastspeech2 model.
fastspeech2 = TFAutoModel . from_pretrained ( "tensorspeech/tts-fastspeech2-ljspeech-en" )


# initialize mb_melgan model
mb_melgan = TFAutoModel . from_pretrained ( "tensorspeech/tts-mb_melgan-ljspeech-en" )


# inference
processor = AutoProcessor . from_pretrained ( "tensorspeech/tts-fastspeech2-ljspeech-en" )

input_ids = processor . text_to_sequence ( "Recent research at Harvard has shown meditating for as little as 8 weeks, can actually increase the grey matter in the parts of the brain responsible for emotional regulation, and learning." )
# fastspeech inference

mel_before , mel_after , duration_outputs , _ , _ = fastspeech2 . inference (
    input_ids = tf . expand_dims ( tf . convert_to_tensor ( input_ids , dtype = tf . int32 ), 0 ),
    speaker_ids = tf . convert_to_tensor ([ 0 ], dtype = tf . int32 ),
    speed_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
    f0_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
    energy_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
)

# melgan inference
audio_before = mb_melgan . inference ( mel_before )[ 0 , :, 0 ]
audio_after = mb_melgan . inference ( mel_after )[ 0 , :, 0 ]

# save to file
sf . write ( './audio_before.wav' , audio_before , 22050 , "PCM_16" )
sf . write ( './audio_after.wav' , audio_after , 22050 , "PCM_16" )

Контакт

Minh nguyen Quan Anh: [email protected]
Эрогол: [email protected]
Куан Чен: [email protected]
Dawid Kobus: [email protected]
Takuya ebata: [email protected]
Trinh Le Quang: [email protected]
Yunchao He: [email protected]
Alejandro Miguel Velasquez: [email protected]

Лицензия

Все модели здесь лицензированы в соответствии с Apache 2.0

Подтверждение

Мы хотим поблагодарить Томоки Хаяси, который много обсуждал с нами о Мелгане, многополосном Мелгане, Fastspeech и Tacotron. Эта структура основана на его великом проекте с открытым исходным кодом.

Расширять

Дополнительная информация