Pollyduble下載 - Pollyduble源代碼下載

Pollyduble

Ai源碼

1.0.0

下載

pollyduble

用語音克隆和語音識別的自動配音
得益於OpenVoice，Melotts，更快的耳語，VoiceFixer，Python-Audio-separator和ffmpeg，這使得成為可能。

波莉t

這是一個腳本的高度實驗性原型，旨在自動將英語音頻與最初記錄在任何語言語言支持的視頻文件上。從理論上講，通過一些修改和不同的OpenVoice模型，它應該支持OpenVoice支持的任何語言，但是翻譯必須由低語以外的其他語言來處理

特徵

語音克隆和本地文本到語音綜合
自動語音識別
音頻分離
將配音線的自動同步到原始演講
可選的語音修復以使語音克隆過程中的一些高頻丟失
將配音的音頻縮略並將器樂曲目提取回視頻

歡迎PRS，這主要只是概念驗證。一些改進的好主意包括：

揚聲器診斷以將不同字符的語音分開，並自動為正確的字符分配正確的配音線
能夠加載自定義字幕而不是依賴自動語音識別的能力
翻譯神經網絡（本地是高度首選）或API，不依賴Whisper的偽劣翻譯

先決條件

Python 3.9
系統和路徑上安裝了FFMPEG，FFPROBE和FFPLAY
Windows（僅在Windows上測試）
可能需要具有CUDA支持的現代NVIDIA GPU
Miniconda或Anaconda（可選，但建議）

安裝

在系統上安裝FFMPEG，FFPROBE和FFPLAY，並確保它們處於路徑狀態。您可以從這裡下載它們。
製作一個新的目錄並克隆此存儲庫：

git clone https://github.com/igerman00/Pollyduble
cd Pollyduble

創建一個新的Conda環境：

conda create -n dubbing python=3.9

激活Conda環境：

conda activate dubbing

克隆OpenVoice存儲庫

git clone https://github.com/myshell-ai/OpenVoice

確保OpenVoice存儲庫與此存儲庫相同的目錄，應命名為“ OpenVoice”。

安裝OpenVoice：

 cd OpenVoice
pip install -e .
pip install git+https://github.com/myshell-ai/MeloTTS.git
python -m unidic download

安裝帶有GPU支持的torch （索引-URL參數應是可選的，不需要GPU支持）：

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

安裝其他依賴項：

 cd .. # Go back to the root directory of the repo
pip install -r requirements-win-cu118.txt

用法

獲取視頻文件並將其放在計算機上的任何位置，在此示例中，我們將假設它與demo.py腳本相同，並且被命名為video.mp4 。
運行腳本：

python demo.py -i video.mp4 -s -m

默認情況下，輸出將存儲在Pollyduble/output目錄中。它將包含各種文件，包括配音視頻，分離的音頻，配音音頻和語音示例。通常，它應該是一鍵。

選項包括：
-i或--input以指定輸入視頻文件
-o或--output指定輸出目錄（默認為Pollyduble/output ）
-v或--voice為語音克隆指定自定義樣本。如果未指定，將從視頻的前15秒起創建一個
-s或--separate啟用音頻分離，即分別提取背景音樂和演講
-m或--mux可以用配音的語音使分開的音頻恢復到視頻中
-f或--fix啟用語音固定，即提高配音語音的質量。
^實驗性，實際上在大多數情況下聽起來不好。
--help顯示幫助消息