使用现代AI语音综合,诊断,语言识别和语音克隆来配音多语言媒体和动漫的程序。

您可以尝试第一个二进制版本,该版本可以使用Windows和Linux的非基于非AI的库访问基本的配音功能。这是尝试程序的好方法,您仍然可以使用系统声音进行基本配音。如果您想使用高级功能,则必须尝试使用设置教程中所述的高级功能。
我制作了此视频,以展示如何使用SoftWware目前可以做的所有功能以及所有功能

许多节目,电影,新闻片段,访谈和视频永远不会收到其他语言的配音,从头开始配音可能是一项巨大的事业。这为失明,阅读障碍,学习障碍的人或不喜欢阅读字幕的人提供了一个共同的可访问障碍。该计划旨在为面临这些斗争的人们创造一种令人愉快的替代方法。
该软件是战争的产物。我姐姐把我变成了我现在最喜欢的喜剧动漫“赛基K的灾难性生活”。但是Netflix从未在第二季订购配音。我盲目,不能也将永远无法阅读字幕,但是我必须知道故事的发展! Netflix强迫我的手,我将把AI吹入动漫的动漫带到盲人!
该项目依靠某些最先进的技术的基本拍打。它使用许多音频处理库和技术来分析和综合试图与源视频文件保持一致的语音。它主要依靠FFMPEG和PYDUB进行音频和视频编辑,语音综合的Coqui TT,语言识别的语音脑以及Pyannote.Audio用于说话者诊断。
您可以选择将视频中的每个字幕配音,设置S TART和END时间,仅配音外语内容,或以说话率和音量匹配的成熟多演讲者配音。
该项目目前是某些人在Alpha中所说的。主要的核心功能已经到位,并且可以通过克隆回购来使用,但是它才开始准备好首次发行。在我称之为完成之前,需要进行许多优化,UX和重构。请继续关注定期更新,并随意伸出手,以贡献,测试或建议,如果您感兴趣的话。
我想将Weeablind的软件称为Weeaboo的Portmanteaux(有人对动漫有点痴迷),而盲目。我可能会将其更改为将来的其他东西,例如Blindtaku,Dubhub或类似和吸引人的东西,因为该软件不仅可以用于动漫。
目前没有预订的二元组可以下载,这是我正在研究的东西,但是其中许多依赖项并不容易与pyinstaller这样的东西捆绑
该程序在Linux上最有效,但也将在Windows上运行。
您将需要在系统上安装FFMPEG,并确保它可以从终端或系统路径中调用
对于使用coqui tts,您还需要从Linux上或Windows上从包装管理器中获得的尤其
在Windows上,PIP需要MSVC构建工具来构建Coqui。您可以在这里安装:https://visualstudio.microsoft.com/visual-cpp-build-tools/
如果您在系统上设置了CUDA来使用GPU,则Coqui TTS和Pyannote诊断也将表现更好。这应该可以在Linux上开箱即用,但是在Windows上进行设置需要一些操作。这篇博客文章应该引导您完成整个过程。如果您无法正常工作,请不要担心,您仍然可以在CPU上使用它们。
Python的最新版本在Linux上工作,但Spleeter仅适用于3.10,而Pyannote也可以对此很挑剔。 3.10似乎在Windows上发挥最佳作用。您可以从Microsoft商店获得它。
要使用该项目,您需要克隆存储库并将依赖项安装在虚拟EnviorMonet中。
git clone https://github.com/FlorianEagox/weeablind.git
cd weeablind
python3.10 -m venv venv
# Windows
.venvScriptsactivate
# Linux
source ./venv/bin/activate
该项目有很多依赖关系,PIP可能会在冲突中挣扎,因此最好从锁定文件中安装:
pip install -r requirements-win-310.txt --no-deps
您可以尝试常规需求文件,但这可能需要很长时间,有时需要重新启动。
安装依赖项可能需要一分钟的时间并使用很多空间(〜8 GB)。
如果您不需要某些功能,例如语言过滤,则可以省略读书文件中的语音脑。
完成此操作后,您可以使用
python weeablind.py
首先从计算机中选择视频,或粘贴到YT视频的链接并按Enter。它应该下载视频,并将其录音。
一旦加载了视频,您就可以预览将被称为称为的字幕。如果已加载错误的语言或错误的音频流,请切换到“流”选项卡,然后选择正确的语言选项卡。
如果您只需要配音视频的一部分,例如跳过节目的开头主题和学分,则可以指定一个开始和结束时间。使用时间码语法,例如2:17,然后按Enter。
默认情况下,应初始化“示例”语音。您可以使用不同的配置进行播放,并在“配置语音”选项卡中使用“示例语音”按钮配音之前测试声音。当您拥有您满意的参数时,单击“更新声音”将重新签名到该插槽。如果您选择系统TTS引擎,则该程序将使用Windows的SAPI5窄符或Linux Espeak声音默认情况下。这非常快,但听起来很机器人。选择Coqui可以为您提供大量的选择,但是会提示您通常下载非常重的TTS型号。 VCTK/VIT是我最喜欢的模型,因为它很快,即使在CPU上也很快,还有数百个扬声器可供选择。默认情况下它是加载的。如果您进行了诊断,则可以从列表框中选择不同的声音,并更改其属性。
在“字幕”选项卡中,您要过滤字幕以排除所选语言说使用的行,因此只有外语被称为配音。这对于多种语言视频很有用,但不用一种语言进行视频。
运行诊断将尝试将正确的扬声器分配给所有字幕,并为检测到的扬声器总数生成随机声音。在FUTRE中,如果您提前知道,您可以指定诊断管道和扬声器数量。诊断仅对具有多个扬声器的视频有用,准确性可以非常大。
在“流”选项卡中,您可以运行声音隔离,该隔离将尝试从源视频轨道中删除人声,但保留背景。如果您还使用多语言视频和运行语言过滤,则需要首先运行以保持英语(或任何源语言的人声)。
一旦配置了自己喜欢的东西,就可以按下大的多汁的配音按钮。这可能需要一段时间才能运行。完成后,您应该在output目录中使用“ myVideo-dubed.mkv”之类的东西。这是您完成的视频!