Скачать ttts - скачать исходный код ttts

ttts

AI Исходный код

1.0.0

Скачать

Detailtts: Информация о остаточных деталях обучения для нулевого выстрела текста в речь

Вдохновение

Насколько мне известно, метод в этом проекте является первым в своем роде, который я предложил. Основная идея проистекает из моделирования «детализации», так как я был обеспокоен тем фактом, что методы, основанные на VQ (векторный квантизация), не могут очень хорошо реконструировать аудио, а также нет способа смоделировать этот остаток. Тем не менее, для традиционных VIT есть способы создать некоторые надзорные сигналы, такие как линейные спектры, или с использованием обучаемых встраиваний для изучения продолжительности. Эти наблюдения в конечном итоге привели к тому, что этот метод достиг очень хороших результатов.

Демо

Посетите демо -страницу

Установить

Посетите предварительно обученные модели

 pip install -e .

Обучение

1. Обучение токенизаторам

Используйте ttts/prepare/bpe_all_text_to_one_file.py чтобы объединить весь текст, который вы собрали. Чтобы тренировать токенизатор, проверьте ttts/gpt/voice_tokenizer для получения дополнительной информации.

2. Обучение VQVAE

Используйте 1_vad_asr_save_to_jsonl.py и 2_romanize_text.py для набора данных PREP -FROCESS. Используйте следующую инструкцию для обучения модели.

 accelerate launch ttts/vqvae/train_v3.py

Мульти язык

Теперь поддерживайте китайский, английский, японский, корейский.

Вы можете использовать любой язык с этой моделью с двумя шагами.

Во -первых, собрать много текста этого языка.
Во -вторых, тренируйте ttts/gpt/voice_tokenizer чтобы получить словарь.

Для английского вы можете напрямую использовать текст. Тем не менее, для китайцев вам нужно использовать Pinyin, а для японского необходимо использовать ромаджи, чтобы включить информацию об произношении в тексте.

Вывод

Пожалуйста, проверьте api.py для получения подробностей.

Тонкая настройка

Измените путь нагрузки в Train_v3.py с предварительной моделью, затем тренируйте его. О наборе данных вы должны предварительно обрабатывать текст и аудио -путь и латинский. Вы можете обратиться к ttts/prepare/2_romanize_text.py для некоторой информации.