Инструменты голосового клонирования
1. Документация голоса TTS.
Описание
Этот скрипт выполняет синтез текста в речь с использованием библиотеки TTS (текст к речи) с двумя различными моделями: XTTS v2.0.2 и черепаха. Сценарий также включает в себя функцию утилиты для преобразования файлов MP3 в сегментированные файлы WAV.
Предварительные условия
Перед запуском сценария убедитесь, что библиотека TTS установлена с использованием следующей команды:
pip install TTS==0.22.0 transformers==4.37.2 torch torchaudio soundfile librosa
Исполнение
python tortoise_TTS_local_best.py
Задачи
XTTS v2.0.2 Синтез:
- Использует модель XTTS v2.0.2 из библиотеки Coqui.
- Выполняет синтез текста в речь с указанным входным текстом.
- Сохраняет синтезированный звук в файлы WAV, как с расщеплением предложений, так и без него.
MP3 в WAV Conversion
- Преобразует входной файл mp3 в сегментированные файлы WAV без использования библиотеки Pydub.
- Сегменты аудио на 10-секундные интервалы и сохраняют его в качестве отдельных файлов WAV (необходимых для черепахи).
Описание синтеза модели черепахи:
- Использует модель черепахи из библиотеки Coqui TTS для высококачественного синтеза.
- Загружает предварительно обученную модель черепахи и синтезирует речь на основе входного текста.
- Сохраняет синтезированный звук в виде файла WAV.
Дополнительная информация
XTTS v2.0.2 предлагается для его скорости и разумного качества. Черепаха обеспечивает лучшее качество, но имеет более длительное время вывода.
Примечания
- Убедитесь, что зависимости установлены и пути файлов скорректированы соответствующим образом.
- URL -адреса в комментариях предоставляют больше информации о моделях и конфигурациях.
- Не стесняйтесь изменять скрипт на основе конкретных требований и убедиться, что необходимые корректировки будут внесены для подачи путей и зависимостей для успешного выполнения.
2. Документация анализатора модели TTS
Описание
В этом скрипте анализируется модели текста в речь (TTS), доступные в библиотеке TTS, в частности, фокусируясь на их языковой поддержке и возможностях Vocoder. Он классифицирует модели на основе:
- Многоязычный против английского языка : поддерживает ли модель несколько языков или только английский.
- Custom против по умолчанию английский Vocoder : есть ли у модели пользовательский английский Vocoder, который допускает голосовой клонирование или вокадер по умолчанию, который нет.
Сценарий также отслеживает количество моделей с ошибками и тех, которые игнорируются по конкретным причинам (например, известные модели, вызывающие ошибки).
Поломка кода
Предварительные условия
Перед запуском сценария убедитесь, что библиотека TTS установлена с использованием следующей команды:
Исполнение
python TTS_download_and_test_all_models.py
Выход
Сценарий генерирует информацию о многоязычных моделях с английским Vocoder, английскими моделями с пользовательскими вокадурами, многоязычными моделями с английскими воротами по умолчанию и английскими моделями по умолчанию. Кроме того, он идентифицирует модели, которые поддерживают неанглийские языки, модели с ошибками и модели, которые следует игнорировать.
Объяснение сценария
Сценарий выполняет следующие задачи:
Импорт необходимых библиотек (TTS, время, ОС).
Устанавливает таймер для измерения времени выполнения скрипта.
Определяет образец текста для синтеза речи.
Инициализируют счетчики и списки для различных категорий моделей.
Итерации через все доступные модели TTS.
Загружает и загружает каждую модель для выполнения различных задач текста в речь, классифицируя их на основе языковой поддержки и типов Vocoder.
Отпечатает результаты, включая количество и названия моделей в каждой категории, а также любые ошибки, возникающие в ходе процесса.
Отображает общее количество проверенных моделей и время выполнения скрипта.
Выполняет проверку утверждения, чтобы убедиться, что правильный подсчет моделей.
Предоставляет пример использования TTS для текста в речь с помощью многопрофильной и многоязычной модели.
Примечания
Некоторые модели могут быть проигнорированы из -за ошибок или других причин (указанные в коде). Сценарий также включает в себя пример для греческого текста в речь в Колабе с использованием конкретной модели.
Дополнительная информация
- Библиотека TTS: https://github.com/mozilla/tts
- Документация TTS: https://tts.readthedocs.io/
Не стесняйтесь изменять скрипт по мере необходимости для вашего конкретного варианта использования или интегрируйте его в свои проекты для анализа модели TTS.
3. Голосовой клон с использованием официального хранилища черепахи
Обзор
Этот скрипт демонстрирует использование системы Tortoise TTS (текстовое) для генерации речи из входного текста. Сценарий использует библиотеку Tortiase TTS и предоставляет инструкции для установки. Сгенерированная речь сохраняется как файл WAV.
Установка
git clone https://github.com/neonbjb/tortoise-tts.git
cd tortoise-tts
pip install -r requirements.txt
pip install librosa einops rotary_embedding_torch omegaconf pydub inflect
python setup.py install
Использование
- Замените путь на голосовую переменную на образцы голоса желаемого динамика.
- При желании измените текстовую переменную, чтобы указать нужный входной текст.
- Запустите скрипт с помощью
python tortoise_API.py чтобы выполнить Tortoise TTS и сохранить сгенерированную речь в качестве файла WAV.
Описание задачи
Импортировать необходимые библиотеки:
- Импорт требовал библиотеков, включая Torchaudio, Tortoise.api, Tortoise.utils и OS.
Инициализировать Tortoise TTS:
- Инициализирует Tortoise TTS с использованием tortoise.api.texttospeech.
- Необязательно, обеспечивает DeepSpeed для более высокой производительности (прокомментировано, как это может быть медленнее на практике).
Укажите текст ввода:
- Устанавливает входной текст, который будет преобразован в речь.
Выберите предустановку и голос:
- Выбирает заданный режим для определения качества вывода ("ultra_fast", "Fast", "Standard" или "High_quality").
- Выбирает конкретный голос, предоставляя путь к образцам голоса динамика.
Справочные клипы загрузки:
- Загружает эталонные аудио -клипы из выбранного голосового пути.
Выполните TT с черепахой:
- Использует TTS Tortoise TTS для генерации речи из входного текста.
- Сохраняет сгенерированную речь в формате WAV.
Дополнительная информация
- Загрузки сценария требуют моделей модели обнимающего лица (HF).
- Регулируйте такие параметры, как предустановка и голос в соответствии с вашими предпочтениями.
- Сгенерированное звук сохраняется как «генерируемое_HQ_FACESWAP.WAV» в указанном каталоге.
4. Opus в MP3 преобразование (для клонирования из записей WhatsApp)
Обзор
Этот скрипт облегчает преобразование аудиофайлов Opus в формат MP3. Он включает в себя функции для чтения файлов Opus, преобразования их в MP3 и объединить несколько файлов MP3 в один файл. Сценарий обеспечивает гибкость, позволяя пользователям указать папки ввода и вывода.
Параметры
opus_folder: Путь к папке, содержащей файлы OPUS.
mp3_output_folder: Path to Save Incially Mp3 -файлы.
combined_output_folder: PATH to Save комбинированный файл MP3.
Сценарий создает выходные папки, если они не существуют.
Предварительные условия
Задачи
- Читать файл Opus:
- Читает файлы Opus с использованием библиотеки SoundFile.
- Возвращает массив Numpy и скорость дискретизации.
- Преобразовать Opus в mp3
- Использует функцию read_opus для чтения файлов Opus.
- Преобразует Opus в MP3, используя ту же скорость дискретизации.
- Сохраняет файл MP3 в указанную выводную папку.
- Конвертировать файлы Opus
- Итераты через файлы Opus в папке и преобразуют каждый в mp3.
- Возвращает список сохраненных имен файлов mp3.
- Объединить файлы mp3
- Объединяет отдельные mp3 -файлы в один.
- Сохраняет комбинированный файл MP3 в указанную выводную папку.
5. Balk Google Colab (не очень хорошо)
Обзор
Этот ноутбук Jupyter демонстрирует процесс клонирования голоса с использованием системы голоса Bark. Он включает в себя монтаж Google Drive для доступа к образцам аудио для клонирования, установки необходимых библиотек, загрузки моделей, генерации семантических токенов и, наконец, используя эти токены для голосового клонирования.
Задачи
Mount Google Drive:
- Mounts Google Drive, чтобы получить доступ к папке, содержащей голосовые образцы для клона.
Установить параметры:
- Определяет такие параметры, как путь к аудиофайлу, имя голоса и выходной путь для сохранения клонированных голосовых подсказок.
Установить и импортировать библиотеки:
- Установки и импорт требовали библиотек, питорх, Numpy и других.
Установите кору с голосовым клоном:
- Устанавливает кору с помощью библиотеки голосовых клонов из предоставленного репозитория GitHub.
Загружать модели и инициализируйте Hubert:
- Загружает необходимые модели и инициализирует менеджер Hubert для извлечения семантического токена.
Загружать и обрабатывать аудио:
- Загружает аудиофайл и преобразует его для дальнейшей обработки.
- Извлекает семантические векторы и токены, используя модель Hubert.
Кодировать и сохранить подсказки:
- Кодирует аудио кадры с использованием ENCODEC.
- Сохраняет прекрасные, грубые и семантические подсказки как массивы Numpy.
Генерировать аудио с помощью коры:
- Предварительные модели коры для текста, грубого, тонкого поколения и кодека.
- Генерирует аудио с использованием текстовых подсказок, семантических подсказок и истории истории.
Воспроизвести и сохранить сгенерированное аудио:
- Играет сгенерированное звук, используя аудио ipython.
- Необязательно, сохраняет сгенерированное аудио в качестве файла wav.
Общее время выполнения:
- Отображает общее время, необходимое для выполнения сценария.
Использование сценариев
- Убедитесь, что Google Drive установлен с доступом к желаемой папке голоса.
- Измените такие параметры, как
audio_filepath , voice_name и output_path в соответствии с вашей настройкой. - Запустите скрипт, чтобы клонировать голос, генерировать аудио и, опционе, сохраните вывод.
Дополнительная информация
- Сценарий устанавливает и использует кору с голосовой библиотекой клонов из предоставленного репозитория GitHub.
- Регулируйте пути, параметры и подсказки по мере необходимости для вашего проекта голосового клонирования.
- Сгенерированный звук может быть воспроизведен напрямую или сохранен в виде файла WAV.
- Убедитесь, что необходимые зависимости установлены и правильно настроены.
6. Coqui TTS Calling API (больше не существует - нельзя использовать)
Обзор
Этот скрипт демонстрирует процесс клонирования голоса, используя API Coqui TTS. Он включает в себя импорт необходимых библиотек, создание вызовов API для клонирования голоса из аудиофайла и генерирование текста в речь с использованием клонированного голоса.
Задачи
Импорт библиотеки:
- Импорт требуется библиотеки, включая
requests на выполнение вызовов API.
Установить параметры:
- Устанавливает такие параметры, как путь к входному аудиофайлу, путь для сохранения нового аудиофайла и текст, который будет прочитан.
Позвоните Coqui TTS API для клонирования голоса:
- Вызывает API Coqui TTS, чтобы клонировать голос из предоставленного аудиофайла.
- Извлекает идентификатор голоса клонированного голоса для последующего текста в речь.
Позвоните в Coqui TTS API для текста в речь:
- Вызывает API Coqui TTS, чтобы преобразовать указанный текст в речь, используя клонированный голос.
- Извлекает аудио URL сгенерированной речи.
Скачать и сохранить аудио:
- Загружает сгенерированный аудиофайл с предоставленного URL.
- Сохраняет аудиофайл в указанный путь.
Использование сценариев
- Предоставьте путь к входному аудиофайлу (
path_audio ), пути для сохранения нового аудиофайла ( save_path ) и текста, который будет прочитать ( text_to_read ). - Получите необходимый ключ API с веб -сайта Coqui TTS и замените заполнителя в
headers фактическим ключом. - Запустите скрипт, чтобы клонировать голос и генерировать текст в речь.
Дополнительная информация
- Сценарий использует API Coqui TTS для голосового клонирования и текста в речь.
- Регулируйте параметры и замените ключ API в соответствии с вашим конкретным вариантом использования.
- Убедитесь, что вы соблюдаете политику использования Coqui TTS.
- Загруженные аудиофайлы сохраняются локально, как указано в
save_path .