voice_cloning_tools下载voice_cloning

voice_cloning_tools

Ai源码

1.0.0

下载

语音克隆工具

1。TTS语音克隆文档

描述

该脚本使用TTS（文本到语音）库具有两个不同的模型：XTTS v2.0.2和Tortoise。该脚本还包括一个用于将MP3文件转换为分段WAV文件的实用程序功能。

先决条件

在运行脚本之前，请确保使用以下命令安装TTS库：

 pip install TTS==0.22.0 transformers==4.37.2 torch torchaudio soundfile librosa

执行

 python tortoise_TTS_local_best.py

任务

XTTS v2.0.2合成：
- 利用coqui tts库中的XTTS v2.0.2模型。
- 用指定的输入文本执行文本到语音综合。
- 将合成的音频保存到WAV文件中，无论是在句子拆分的情况下。
mp3转换
- 在不使用PYDUB库的情况下将输入MP3文件转换为分段的WAV文件。
- 将音频分为10秒的间隔，并将其保存为单个WAV文件（乌龟需要）。
乌龟模型综合描述：
- 利用Coqui TTS库中的乌龟模型进行高质量合成。
- 加载预先训练的乌龟模型，并根据输入文本合成语音。
- 将合成的音频保存为WAV文件。

附加信息

XTTS v2.0.2的速度和合理质量建议。乌龟提供了最佳质量，但推理时间更长。

笔记

确保安装依赖关系并相应地调整文件路径。
评论中的URL提供了有关模型和配置的更多信息。
请根据特定要求随意修改脚本，并确保对成功执行的档案路径和依赖项进行必要的调整。

2。TTS模型分析仪文档

描述

该脚本分析了TTS库中可用的文本到语音（TTS）模型，特别关注其语言支持和Vocoder功能。它基于以下方式对模型进行分类：

多语言与仅英文：模型是支持多种语言还是仅支持英语。
自定义与默认的英语vocoder ：该模型是具有自定义的英语Vocoder，它允许语音克隆还是不允许的默认Vocoder。

该脚本还会跟踪具有错误的模型数量以及由于特定原因（例如，已知引起错误的模型）而忽略的脚本数量。

代码分解

先决条件

在运行脚本之前，请确保使用以下命令安装TTS库：

 pip install TTS==0.13.3

执行

 python TTS_download_and_test_all_models.py

输出

该脚本通过英语Vocoder生成有关多语言模型的信息，具有自定义声音的英语模型，带有默认英语Vocoders的多语言模型以及带有默认英语Vocoders的英语模型。此外，它标识了支持非英语语言的模型，具有错误的模型以及应忽略的模型。

脚本说明

该脚本执行以下任务：

导入必要的库（TTS，Time，OS）。
设置一个计时器来测量脚本执行时间。
定义用于语音合成的示例文本。
初始化各种模型类别的计数器和列表。
通过所有可用的TTS型号迭代。
下载并加载每个模型以执行不同的文本到语音任务，并根据语言支持和Vocoder类型对其进行分类。
打印结果，包括每个类别中模型的计数和名称，以及过程中遇到的任何错误。
显示已检查的模型总数和脚本执行时间。
执行断言检查以确保正确计数模型。
提供了一个使用TTS与多演讲者和多语言模型进行文本到语音的示例。

笔记

由于错误或其他原因（在代码中指定）可能会忽略某些模型。该脚本还包括使用特定模型在Colab中希腊文本到语音的示例。

附加信息

TTS库：https：//github.com/mozilla/tts
TTS文档：https：//tts.readthedocs.io/

请随意根据需要修改特定用例的脚本或将其集成到项目中以进行TTS模型分析。

3.语音克隆使用官方的乌龟存储库

概述

该脚本演示了乌龟TTS（文本到语音）系统的用法来生成输入文本的语音。脚本使用乌龟TTS库，并提供安装说明。生成的语音被保存为WAV文件。

安装

git clone https://github.com/neonbjb/tortoise-tts.git
cd tortoise-tts
pip install -r requirements.txt
pip install librosa einops rotary_embedding_torch omegaconf pydub inflect
python setup.py install

用法

用所需的扬声器的语音样本替换语音变量中的路径。
可选，修改文本变量以指定所需的输入文本。
使用python tortoise_API.py运行脚本以执行乌龟TTS，并将生成的语音保存为WAV文件。

任务描述

导入必要的库：
- 进口需要图书馆，包括Torchaudio，Tortoise.api，Tortoise.utils和OS。
初始化乌龟TT：
- 使用Tortoise.api.textTospeech初始化乌龟TT。
- 可选地，启用DeepSpeed以进行更快的性能（在实践中可能会慢得多）。
指定输入文本：
- 设置要转换为语音的输入文本。
选择预设和声音：
- 选择用于确定输出质量的预设模式（“ ultra_fast”，“ fast”，“ standard”或“ high_quality”）。
- 通过提供扬声器声音样本的路径来选择特定的声音。
负载参考夹：
- 从所选的语音路径加载参考音频剪辑。
用乌龟进行TT：
- 利用乌龟TTs从输入文本中产生语音。
- 以WAV格式保存生成的语音。

附加信息

脚本下载需要来自拥抱面（HF）模型中心的模型。
根据您的喜好调整参数，例如预设和语音。
在指定目录中将生成的音频保存为“生成的_hq_faceswap.wav”。

4。opusto MP3转换（用于从WhatsApp录音中克隆）

概述

该脚本促进了Opus Audio Files到MP3格式的转换。它包括读取opus文件，将其转换为mp3，然后将多个MP3文件组合到单个文件中的功能。该脚本通过允许用户指定输入和输出文件夹来提供灵活性。

参数

opus_folder:包含Opus文件的文件夹的路径。

mp3_output_folder:保存单个mp3文件的路径。

combined_output_folder:保存组合MP3文件的路径。

如果不存在，则脚本会创建输出文件夹。

先决条件

依赖性：
- os
- soundfile
- numpy

任务

阅读opus文件：
- 使用声音库读取Opus文件。
- 返回一个数阵列和采样率。
将Opus转换为MP3
- 利用read_opus函数读取opus文件。
- 使用相同的采样率将Opus转换为MP3。
- 将MP3文件保存到指定的输出文件夹。
转换opus文件
- 通过文件夹中的opus文件迭代，然后将每个文件转换为mp3。
- 返回保存的mp3文件名列表。
结合MP3文件
- 将单个MP3文件组合到一个文件中。
- 将组合的MP3文件保存到指定的输出文件夹。

5。树皮Google Colab（不是很好）

概述

这本jupyter笔记本展示了使用树皮语音克隆系统克隆语音的过程。它涉及安装Google驱动器以访问音频样本以进行克隆，安装必要的库，加载模型，生成语义令牌，最后使用这些令牌进行语音克隆。

任务

安装Google Drive：
- 安装Google驱动器以访问包含语音样本的文件夹以克隆。
设置参数：
- 定义参数，例如音频文件的路径，语音名称以及保存克隆语音提示的输出路径。
安装和导入库：
- 安装和导入所需的库，Pytorch，Numpy等。
用语音克隆安装树皮：
- 从提供的GitHub存储库中使用语音克隆库安装树皮。
负载模型并初始化休伯特：
- 加载必要的模型，并初始化Hubert Manager的语义令牌提取。
负载和过程音频：
- 加载音频文件并将其转换为进一步处理。
- 使用Hubert模型提取语义向量和令牌。
编码并保存提示：
- 使用Encodec编码音频帧。
- 将细，粗糙和语义提示保存为numpy阵列。
使用树皮生成音频：
- 预付文本，粗糙，精细生成和编解码器的树皮模型。
- 使用文本提示，语义提示和历史提示来生成音频。
播放并保存生成的音频：
- 使用Ipython的音频播放生成的音频。
- 可选地，将生成的音频保存为WAV文件。
总运行时间：
- 显示执行脚本所花费的总时间。

脚本用法

确保安装Google驱动器，并访问所需的语音样本文件夹。
根据您的设置，修改参数，例如audio_filepath ， voice_name和output_path 。
运行脚本以克隆语音，生成音频并选择保存输出。

附加信息

该脚本从提供的GitHub存储库中安装并使用带有语音克隆库的树皮。
根据需要调整语音克隆项目的路径，参数和提示。
生成的音频可以直接播放或作为WAV文件保存。
确保安装必要的依赖项并正确配置。

6。coqui tts调用API（不再存在 - 无法使用）

概述

该脚本展示了使用Coqui TTS API克隆语音的过程。它涉及导入必要的库，进行API调用，从音频文件中克隆语音，并使用克隆语音生成文本到语音。

任务

导入库：
- 导入所需的库，包括拨打API调用的requests 。
设置参数：
- 设置参数，例如输入音频文件的路径，保存新音频文件的路径以及要读取的文本。
致电Coqui TTS API进行语音克隆：
- 调用Coqui TTS API从提供的音频文件中克隆语音。
- 提取克隆语音的语音ID，以进行随后的文本到语音。
致电Coqui TTS API进行文本到语音：
- 使用克隆的语音调用Coqui TTS API将指定的文本转换为语音。
- 检索产生的演讲的音频URL。
下载并保存音频：
- 从提供的URL下载生成的音频文件。
- 将音频文件保存到指定的路径。

脚本用法

提供输入音频文件（ path_audio ）的路径，保存新音频文件（ save_path ）的路径以及要读取的文本（ text_to_read ）。
从Coqui TTS网站获取必要的API密钥，并用实际键在headers中替换占位符。
运行脚本以克隆语音并生成文本到语音。

附加信息

该脚本使用Coqui TTS API进行语音克隆和文本到语音。
调整参数并更换API键以适合您的特定用例。
确保您遵守Coqui TTS API使用策略。
下载的音频文件按照save_path中指定的本地保存。

展开

附加信息

版本 1.0.0
类型 Ai源码
更新时间 2025-08-24
大小 574.86KB
来自于 Github