使用現代AI語音綜合,診斷,語言識別和語音克隆來配音多語言媒體和動漫的程序。

您可以嘗試第一個二進製版本,該版本可以使用Windows和Linux的非基於非AI的庫訪問基本的配音功能。這是嘗試程序的好方法,您仍然可以使用系統聲音進行基本配音。如果您想使用高級功能,則必須嘗試使用設置教程中所述的高級功能。
我製作了此視頻,以展示如何使用SoftWware目前可以做的所有功能以及所有功能

許多節目,電影,新聞片段,訪談和視頻永遠不會收到其他語言的配音,從頭開始配音可能是一項巨大的事業。這為失明,閱讀障礙,學習障礙的人或不喜歡閱讀字幕的人提供了一個共同的可訪問障礙。該計劃旨在為面臨這些鬥爭的人們創造一種令人愉快的替代方法。
該軟件是戰爭的產物。我姐姐把我變成了我現在最喜歡的喜劇動漫“賽基K的災難性生活”。但是Netflix從未在第二季訂購配音。我盲目,不能也將永遠無法閱讀字幕,但是我必須知道故事的發展! Netflix強迫我的手,我將把AI吹入動漫的動漫帶到盲人!
該項目依靠某些最先進的技術的基本拍打。它使用許多音頻處理庫和技術來分析和綜合試圖與源視頻文件保持一致的語音。它主要依靠FFMPEG和PYDUB進行音頻和視頻編輯,語音綜合的Coqui TT,語言識別的語音腦以及Pyannote.Audio用於說話者診斷。
您可以選擇將視頻中的每個字幕配音,設置S TART和END時間,僅配音外語內容,或以說話率和音量匹配的成熟多演講者配音。
該項目目前是某些人在Alpha中所說的。主要的核心功能已經到位,並且可以通過克隆回購來使用,但是它才開始準備好首次發行。在我稱之為完成之前,需要進行許多優化,UX和重構。請繼續關注定期更新,並隨意伸出手,以貢獻,測試或建議,如果您感興趣的話。
我想將Weeablind的軟件稱為Weeaboo的Portmanteaux(有人對動漫有點痴迷),而盲目。我可能會將其更改為將來的其他東西,例如Blindtaku,Dubhub或類似和吸引人的東西,因為該軟件不僅可以用於動漫。
目前沒有預訂的二元組可以下載,這是我正在研究的東西,但是其中許多依賴項並不容易與pyinstaller這樣的東西捆綁
該程序在Linux上最有效,但也將在Windows上運行。
您將需要在系統上安裝FFMPEG,並確保它可以從終端或系統路徑中調用
對於使用coqui tts,您還需要從Linux上或Windows上從包裝管理器中獲得的尤其
在Windows上,PIP需要MSVC構建工具來構建Coqui。您可以在這里安裝:https://visualstudio.microsoft.com/visual-cpp-build-tools/
如果您在系統上設置了CUDA來使用GPU,則Coqui TTS和Pyannote診斷也將表現更好。這應該可以在Linux上開箱即用,但是在Windows上進行設置需要一些操作。這篇博客文章應該引導您完成整個過程。如果您無法正常工作,請不要擔心,您仍然可以在CPU上使用它們。
Python的最新版本在Linux上工作,但Spleeter僅適用於3.10,而Pyannote也可以對此很挑剔。 3.10似乎在Windows上發揮最佳作用。您可以從Microsoft商店獲得它。
要使用該項目,您需要克隆存儲庫並將依賴項安裝在虛擬EnviorMonet中。
git clone https://github.com/FlorianEagox/weeablind.git
cd weeablind
python3.10 -m venv venv
# Windows
.venvScriptsactivate
# Linux
source ./venv/bin/activate
該項目有很多依賴關係,PIP可能會在衝突中掙扎,因此最好從鎖定文件中安裝:
pip install -r requirements-win-310.txt --no-deps
您可以嘗試常規需求文件,但這可能需要很長時間,有時需要重新啟動。
安裝依賴項可能需要一分鐘的時間並使用很多空間(〜8 GB)。
如果您不需要某些功能,例如語言過濾,則可以省略讀書文件中的語音腦。
完成此操作後,您可以使用
python weeablind.py
首先從計算機中選擇視頻,或粘貼到YT視頻的鏈接並按Enter。它應該下載視頻,並將其錄音。
一旦加載了視頻,您就可以預覽將被稱為稱為的字幕。如果已加載錯誤的語言或錯誤的音頻流,請切換到“流”選項卡,然後選擇正確的語言選項卡。
如果您只需要配音視頻的一部分,例如跳過節目的開頭主題和學分,則可以指定一個開始和結束時間。使用時間碼語法,例如2:17,然後按Enter。
默認情況下,應初始化“示例”語音。您可以使用不同的配置進行播放,並在“配置語音”選項卡中使用“示例語音”按鈕配音之前測試聲音。當您擁有您滿意的參數時,單擊“更新聲音”將重新簽名到該插槽。如果您選擇系統TTS引擎,則該程序將使用Windows的SAPI5窄符或Linux Espeak聲音默認情況下。這非常快,但聽起來很機器人。選擇Coqui可以為您提供大量的選擇,但是會提示您通常下載非常重的TTS型號。 VCTK/VIT是我最喜歡的模型,因為它很快,即使在CPU上也很快,還有數百個揚聲器可供選擇。默認情況下它是加載的。如果您進行了診斷,則可以從列錶框中選擇不同的聲音,並更改其屬性。
在“字幕”選項卡中,您要過濾字幕以排除所選語言說使用的行,因此只有外語被稱為配音。這對於多種語言視頻很有用,但不用一種語言進行視頻。
運行診斷將嘗試將正確的揚聲器分配給所有字幕,並為檢測到的揚聲器總數生成隨機聲音。在FUTRE中,如果您提前知道,您可以指定診斷管道和揚聲器數量。診斷僅對具有多個揚聲器的視頻有用,準確性可以非常大。
在“流”選項卡中,您可以運行聲音隔離,該隔離將嘗試從源視頻軌道中刪除人聲,但保留背景。如果您還使用多語言視頻和運行語言過濾,則需要首先運行以保持英語(或任何源語言的人聲)。
一旦配置了自己喜歡的東西,就可以按下大的多汁的配音按鈕。這可能需要一段時間才能運行。完成後,您應該在output目錄中使用“ myVideo-dubed.mkv”之類的東西。這是您完成的視頻!