Pollyduble下载 - Pollyduble源代码下载

Pollyduble

Ai源码

1.0.0

下载

pollyduble

用语音克隆和语音识别的自动配音
得益于OpenVoice，Melotts，更快的耳语，VoiceFixer，Python-Audio-separator和ffmpeg，这使得成为可能。

波莉t

这是一个脚本的高度实验性原型，旨在自动将英语音频与最初记录在任何语言语言支持的视频文件上。从理论上讲，通过一些修改和不同的OpenVoice模型，它应该支持OpenVoice支持的任何语言，但是翻译必须由低语以外的其他语言来处理

特征

语音克隆和本地文本到语音综合
自动语音识别
音频分离
将配音线的自动同步到原始演讲
可选的语音修复以使语音克隆过程中的一些高频丢失
将配音的音频缩略并将器乐曲目提取回视频

欢迎PRS，这主要只是概念验证。一些改进的好主意包括：

扬声器诊断以将不同字符的语音分开，并自动为正确的字符分配正确的配音线
能够加载自定义字幕而不是依赖自动语音识别的能力
翻译神经网络（本地是高度首选）或API，不依赖Whisper的伪劣翻译

先决条件

Python 3.9
系统和路径上安装了FFMPEG，FFPROBE和FFPLAY
Windows（仅在Windows上测试）
可能需要具有CUDA支持的现代NVIDIA GPU
Miniconda或Anaconda（可选，但建议）

安装

在系统上安装FFMPEG，FFPROBE和FFPLAY，并确保它们处于路径状态。您可以从这里下载它们。
制作一个新的目录并克隆此存储库：

git clone https://github.com/igerman00/Pollyduble
cd Pollyduble

创建一个新的Conda环境：

conda create -n dubbing python=3.9

激活Conda环境：

conda activate dubbing

克隆OpenVoice存储库

git clone https://github.com/myshell-ai/OpenVoice

确保OpenVoice存储库与此存储库相同的目录，应命名为“ OpenVoice”。

安装OpenVoice：

 cd OpenVoice
pip install -e .
pip install git+https://github.com/myshell-ai/MeloTTS.git
python -m unidic download

安装带有GPU支持的torch （索引-URL参数应是可选的，不需要GPU支持）：

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

安装其他依赖项：

 cd .. # Go back to the root directory of the repo
pip install -r requirements-win-cu118.txt

用法

获取视频文件并将其放在计算机上的任何位置，在此示例中，我们将假设它与demo.py脚本相同，并且被命名为video.mp4 。
运行脚本：

python demo.py -i video.mp4 -s -m

默认情况下，输出将存储在Pollyduble/output目录中。它将包含各种文件，包括配音视频，分离的音频，配音音频和语音示例。通常，它应该是一键。

选项包括：
-i或--input以指定输入视频文件
-o或--output指定输出目录（默认为Pollyduble/output ）
-v或--voice为语音克隆指定自定义样本。如果未指定，将从视频的前15秒起创建一个
-s或--separate启用音频分离，即分别提取背景音乐和演讲
-m或--mux可以用配音的语音使分开的音频恢复到视频中
-f或--fix启用语音固定，即提高配音语音的质量。
^实验性，实际上在大多数情况下听起来不好。
--help显示帮助消息