Скачать voice_cloning_tools - voice_cloning_tools Исходной код скачать

voice_cloning_tools

AI Исходный код

1.0.0

Скачать

Инструменты голосового клонирования

1. Документация голоса TTS.

Описание

Этот скрипт выполняет синтез текста в речь с использованием библиотеки TTS (текст к речи) с двумя различными моделями: XTTS v2.0.2 и черепаха. Сценарий также включает в себя функцию утилиты для преобразования файлов MP3 в сегментированные файлы WAV.

Предварительные условия

Перед запуском сценария убедитесь, что библиотека TTS установлена с использованием следующей команды:

 pip install TTS==0.22.0 transformers==4.37.2 torch torchaudio soundfile librosa

Исполнение

 python tortoise_TTS_local_best.py

Задачи

XTTS v2.0.2 Синтез:
- Использует модель XTTS v2.0.2 из библиотеки Coqui.
- Выполняет синтез текста в речь с указанным входным текстом.
- Сохраняет синтезированный звук в файлы WAV, как с расщеплением предложений, так и без него.
MP3 в WAV Conversion
- Преобразует входной файл mp3 в сегментированные файлы WAV без использования библиотеки Pydub.
- Сегменты аудио на 10-секундные интервалы и сохраняют его в качестве отдельных файлов WAV (необходимых для черепахи).
Описание синтеза модели черепахи:
- Использует модель черепахи из библиотеки Coqui TTS для высококачественного синтеза.
- Загружает предварительно обученную модель черепахи и синтезирует речь на основе входного текста.
- Сохраняет синтезированный звук в виде файла WAV.

Дополнительная информация

XTTS v2.0.2 предлагается для его скорости и разумного качества. Черепаха обеспечивает лучшее качество, но имеет более длительное время вывода.

Примечания

Убедитесь, что зависимости установлены и пути файлов скорректированы соответствующим образом.
URL -адреса в комментариях предоставляют больше информации о моделях и конфигурациях.
Не стесняйтесь изменять скрипт на основе конкретных требований и убедиться, что необходимые корректировки будут внесены для подачи путей и зависимостей для успешного выполнения.

2. Документация анализатора модели TTS

Описание

В этом скрипте анализируется модели текста в речь (TTS), доступные в библиотеке TTS, в частности, фокусируясь на их языковой поддержке и возможностях Vocoder. Он классифицирует модели на основе:

Многоязычный против английского языка : поддерживает ли модель несколько языков или только английский.
Custom против по умолчанию английский Vocoder : есть ли у модели пользовательский английский Vocoder, который допускает голосовой клонирование или вокадер по умолчанию, который нет.

Сценарий также отслеживает количество моделей с ошибками и тех, которые игнорируются по конкретным причинам (например, известные модели, вызывающие ошибки).

Поломка кода

Предварительные условия

Перед запуском сценария убедитесь, что библиотека TTS установлена с использованием следующей команды:

 pip install TTS==0.13.3

Исполнение

 python TTS_download_and_test_all_models.py

Выход

Сценарий генерирует информацию о многоязычных моделях с английским Vocoder, английскими моделями с пользовательскими вокадурами, многоязычными моделями с английскими воротами по умолчанию и английскими моделями по умолчанию. Кроме того, он идентифицирует модели, которые поддерживают неанглийские языки, модели с ошибками и модели, которые следует игнорировать.

Объяснение сценария

Сценарий выполняет следующие задачи:

Импорт необходимых библиотек (TTS, время, ОС).
Устанавливает таймер для измерения времени выполнения скрипта.
Определяет образец текста для синтеза речи.
Инициализируют счетчики и списки для различных категорий моделей.
Итерации через все доступные модели TTS.
Загружает и загружает каждую модель для выполнения различных задач текста в речь, классифицируя их на основе языковой поддержки и типов Vocoder.
Отпечатает результаты, включая количество и названия моделей в каждой категории, а также любые ошибки, возникающие в ходе процесса.
Отображает общее количество проверенных моделей и время выполнения скрипта.
Выполняет проверку утверждения, чтобы убедиться, что правильный подсчет моделей.
Предоставляет пример использования TTS для текста в речь с помощью многопрофильной и многоязычной модели.

Примечания

Некоторые модели могут быть проигнорированы из -за ошибок или других причин (указанные в коде). Сценарий также включает в себя пример для греческого текста в речь в Колабе с использованием конкретной модели.

Дополнительная информация

Библиотека TTS: https://github.com/mozilla/tts
Документация TTS: https://tts.readthedocs.io/

Не стесняйтесь изменять скрипт по мере необходимости для вашего конкретного варианта использования или интегрируйте его в свои проекты для анализа модели TTS.

3. Голосовой клон с использованием официального хранилища черепахи

Обзор

Этот скрипт демонстрирует использование системы Tortoise TTS (текстовое) для генерации речи из входного текста. Сценарий использует библиотеку Tortiase TTS и предоставляет инструкции для установки. Сгенерированная речь сохраняется как файл WAV.

Установка

git clone https://github.com/neonbjb/tortoise-tts.git
cd tortoise-tts
pip install -r requirements.txt
pip install librosa einops rotary_embedding_torch omegaconf pydub inflect
python setup.py install

Использование

Замените путь на голосовую переменную на образцы голоса желаемого динамика.
При желании измените текстовую переменную, чтобы указать нужный входной текст.
Запустите скрипт с помощью python tortoise_API.py чтобы выполнить Tortoise TTS и сохранить сгенерированную речь в качестве файла WAV.

Описание задачи

Импортировать необходимые библиотеки:
- Импорт требовал библиотеков, включая Torchaudio, Tortoise.api, Tortoise.utils и OS.
Инициализировать Tortoise TTS:
- Инициализирует Tortoise TTS с использованием tortoise.api.texttospeech.
- Необязательно, обеспечивает DeepSpeed для более высокой производительности (прокомментировано, как это может быть медленнее на практике).
Укажите текст ввода:
- Устанавливает входной текст, который будет преобразован в речь.
Выберите предустановку и голос:
- Выбирает заданный режим для определения качества вывода ("ultra_fast", "Fast", "Standard" или "High_quality").
- Выбирает конкретный голос, предоставляя путь к образцам голоса динамика.
Справочные клипы загрузки:
- Загружает эталонные аудио -клипы из выбранного голосового пути.
Выполните TT с черепахой:
- Использует TTS Tortoise TTS для генерации речи из входного текста.
- Сохраняет сгенерированную речь в формате WAV.

Дополнительная информация

Загрузки сценария требуют моделей модели обнимающего лица (HF).
Регулируйте такие параметры, как предустановка и голос в соответствии с вашими предпочтениями.
Сгенерированное звук сохраняется как «генерируемое_HQ_FACESWAP.WAV» в указанном каталоге.

4. Opus в MP3 преобразование (для клонирования из записей WhatsApp)

Обзор

Этот скрипт облегчает преобразование аудиофайлов Opus в формат MP3. Он включает в себя функции для чтения файлов Opus, преобразования их в MP3 и объединить несколько файлов MP3 в один файл. Сценарий обеспечивает гибкость, позволяя пользователям указать папки ввода и вывода.

Параметры

opus_folder: Путь к папке, содержащей файлы OPUS.

mp3_output_folder: Path to Save Incially Mp3 -файлы.

combined_output_folder: PATH to Save комбинированный файл MP3.

Сценарий создает выходные папки, если они не существуют.

Предварительные условия

Зависимости:
- os
- soundfile
- numpy

Задачи

Читать файл Opus:
- Читает файлы Opus с использованием библиотеки SoundFile.
- Возвращает массив Numpy и скорость дискретизации.
Преобразовать Opus в mp3
- Использует функцию read_opus для чтения файлов Opus.
- Преобразует Opus в MP3, используя ту же скорость дискретизации.
- Сохраняет файл MP3 в указанную выводную папку.
Конвертировать файлы Opus
- Итераты через файлы Opus в папке и преобразуют каждый в mp3.
- Возвращает список сохраненных имен файлов mp3.
Объединить файлы mp3
- Объединяет отдельные mp3 -файлы в один.
- Сохраняет комбинированный файл MP3 в указанную выводную папку.

5. Balk Google Colab (не очень хорошо)

Обзор

Этот ноутбук Jupyter демонстрирует процесс клонирования голоса с использованием системы голоса Bark. Он включает в себя монтаж Google Drive для доступа к образцам аудио для клонирования, установки необходимых библиотек, загрузки моделей, генерации семантических токенов и, наконец, используя эти токены для голосового клонирования.

Задачи

Mount Google Drive:
- Mounts Google Drive, чтобы получить доступ к папке, содержащей голосовые образцы для клона.
Установить параметры:
- Определяет такие параметры, как путь к аудиофайлу, имя голоса и выходной путь для сохранения клонированных голосовых подсказок.
Установить и импортировать библиотеки:
- Установки и импорт требовали библиотек, питорх, Numpy и других.
Установите кору с голосовым клоном:
- Устанавливает кору с помощью библиотеки голосовых клонов из предоставленного репозитория GitHub.
Загружать модели и инициализируйте Hubert:
- Загружает необходимые модели и инициализирует менеджер Hubert для извлечения семантического токена.
Загружать и обрабатывать аудио:
- Загружает аудиофайл и преобразует его для дальнейшей обработки.
- Извлекает семантические векторы и токены, используя модель Hubert.
Кодировать и сохранить подсказки:
- Кодирует аудио кадры с использованием ENCODEC.
- Сохраняет прекрасные, грубые и семантические подсказки как массивы Numpy.
Генерировать аудио с помощью коры:
- Предварительные модели коры для текста, грубого, тонкого поколения и кодека.
- Генерирует аудио с использованием текстовых подсказок, семантических подсказок и истории истории.
Воспроизвести и сохранить сгенерированное аудио:
- Играет сгенерированное звук, используя аудио ipython.
- Необязательно, сохраняет сгенерированное аудио в качестве файла wav.
Общее время выполнения:
- Отображает общее время, необходимое для выполнения сценария.

Использование сценариев

Убедитесь, что Google Drive установлен с доступом к желаемой папке голоса.
Измените такие параметры, как audio_filepath , voice_name и output_path в соответствии с вашей настройкой.
Запустите скрипт, чтобы клонировать голос, генерировать аудио и, опционе, сохраните вывод.

Дополнительная информация

Сценарий устанавливает и использует кору с голосовой библиотекой клонов из предоставленного репозитория GitHub.
Регулируйте пути, параметры и подсказки по мере необходимости для вашего проекта голосового клонирования.
Сгенерированный звук может быть воспроизведен напрямую или сохранен в виде файла WAV.
Убедитесь, что необходимые зависимости установлены и правильно настроены.

6. Coqui TTS Calling API (больше не существует - нельзя использовать)

Обзор

Этот скрипт демонстрирует процесс клонирования голоса, используя API Coqui TTS. Он включает в себя импорт необходимых библиотек, создание вызовов API для клонирования голоса из аудиофайла и генерирование текста в речь с использованием клонированного голоса.

Задачи

Импорт библиотеки:
- Импорт требуется библиотеки, включая requests на выполнение вызовов API.
Установить параметры:
- Устанавливает такие параметры, как путь к входному аудиофайлу, путь для сохранения нового аудиофайла и текст, который будет прочитан.
Позвоните Coqui TTS API для клонирования голоса:
- Вызывает API Coqui TTS, чтобы клонировать голос из предоставленного аудиофайла.
- Извлекает идентификатор голоса клонированного голоса для последующего текста в речь.
Позвоните в Coqui TTS API для текста в речь:
- Вызывает API Coqui TTS, чтобы преобразовать указанный текст в речь, используя клонированный голос.
- Извлекает аудио URL сгенерированной речи.
Скачать и сохранить аудио:
- Загружает сгенерированный аудиофайл с предоставленного URL.
- Сохраняет аудиофайл в указанный путь.

Использование сценариев

Предоставьте путь к входному аудиофайлу ( path_audio ), пути для сохранения нового аудиофайла ( save_path ) и текста, который будет прочитать ( text_to_read ).
Получите необходимый ключ API с веб -сайта Coqui TTS и замените заполнителя в headers фактическим ключом.
Запустите скрипт, чтобы клонировать голос и генерировать текст в речь.

Дополнительная информация

Сценарий использует API Coqui TTS для голосового клонирования и текста в речь.
Регулируйте параметры и замените ключ API в соответствии с вашим конкретным вариантом использования.
Убедитесь, что вы соблюдаете политику использования Coqui TTS.
Загруженные аудиофайлы сохраняются локально, как указано в save_path .

Расширять

Дополнительная информация

Версия 1.0.0
Тип AI Исходный код
Время обновления 2025-08-24
размер 574.86KB
От Github

Связанные приложения

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
flutter_voice_friend

2024-11-01
Бесплатная версия механизма анализа данных Lihua 3.0_search_navigation_collection_public Opinion_ranking_api

2022-06-28