WeeaBlind下载 - WeeaBlind源代码下载

WeeaBlind

Ai源码

WeeaBlind 1.0 -

下载

Weeablind

使用现代AI语音综合，诊断，语言识别和语音克隆来配音多语言媒体和动漫的程序。

一个盲人动漫女孩，有音频波形的眼睛。她有绿色和紫色的头发，舒适的绿色毛衣和紫色的伯雷特人。这是Weea盲的一词。图像是由dall-e ai生成的

下载版本1.0

您可以尝试第一个二进制版本，该版本可以使用Windows和Linux的非基于非AI的库访问基本的配音功能。这是尝试程序的好方法，您仍然可以使用系统声音进行基本配音。如果您想使用高级功能，则必须尝试使用设置教程中所述的高级功能。

现场演示和教程

我制作了此视频，以展示如何使用SoftWware目前可以做的所有功能以及所有功能

YouTube链接到有关该软件的视频

为什么

许多节目，电影，新闻片段，访谈和视频永远不会收到其他语言的配音，从头开始配音可能是一项巨大的事业。这为失明，阅读障碍，学习障碍的人或不喜欢阅读字幕的人提供了一个共同的可访问障碍。该计划旨在为面临这些斗争的人们创造一种令人愉快的替代方法。

该软件是战争的产物。我姐姐把我变成了我现在最喜欢的喜剧动漫“赛基K的灾难性生活”。但是Netflix从未在第二季订购配音。我盲目，不能也将永远无法阅读字幕，但是我必须知道故事的发展！ Netflix强迫我的手，我将把AI吹入动漫的动漫带到盲人！

如何

该项目依靠某些最先进的技术的基本拍打。它使用许多音频处理库和技术来分析和综合试图与源视频文件保持一致的语音。它主要依靠FFMPEG和PYDUB进行音频和视频编辑，语音综合的Coqui TT，语言识别的语音脑以及Pyannote.Audio用于说话者诊断。

您可以选择将视频中的每个字幕配音，设置S TART和END时间，仅配音外语内容，或以说话率和音量匹配的成熟多演讲者配音。

什么时候？

该项目目前是某些人在Alpha中所说的。主要的核心功能已经到位，并且可以通过克隆回购来使用，但是它才开始准备好首次发行。在我称之为完成之前，需要进行许多优化，UX和重构。请继续关注定期更新，并随意伸出手，以贡献，测试或建议，如果您感兴趣的话。

名字

我想将Weeablind的软件称为Weeaboo的Portmanteaux（有人对动漫有点痴迷），而盲目。我可能会将其更改为将来的其他东西，例如Blindtaku，Dubhub或类似和吸引人的东西，因为该软件不仅可以用于动漫。

设置

目前没有预订的二元组可以下载，这是我正在研究的东西，但是其中许多依赖项并不容易与pyinstaller这样的东西捆绑

该程序在Linux上最有效，但也将在Windows上运行。

系统先决条件

您将需要在系统上安装FFMPEG，并确保它可以从终端或系统路径中调用

对于使用coqui tts，您还需要从Linux上或Windows上从包装管理器中获得的尤其

在Windows上，PIP需要MSVC构建工具来构建Coqui。您可以在这里安装：https：//visualstudio.microsoft.com/visual-cpp-build-tools/

如果您在系统上设置了CUDA来使用GPU，则Coqui TTS和Pyannote诊断也将表现更好。这应该可以在Linux上开箱即用，但是在Windows上进行设置需要一些操作。这篇博客文章应该引导您完成整个过程。如果您无法正常工作，请不要担心，您仍然可以在CPU上使用它们。

Python的最新版本在Linux上工作，但Spleeter仅适用于3.10，而Pyannote也可以对此很挑剔。 3.10似乎在Windows上发挥最佳作用。您可以从Microsoft商店获得它。

来自源的设置

要使用该项目，您需要克隆存储库并将依赖项安装在虚拟EnviorMonet中。

 git clone https://github.com/FlorianEagox/weeablind.git
cd weeablind
python3.10 -m venv venv
# Windows
.venvScriptsactivate
# Linux
source ./venv/bin/activate

该项目有很多依赖关系，PIP可能会在冲突中挣扎，因此最好从锁定文件中安装：

 pip install -r requirements-win-310.txt --no-deps

您可以尝试常规需求文件，但这可能需要很长时间，有时需要重新启动。

安装依赖项可能需要一分钟的时间并使用很多空间（〜8 GB）。

如果您不需要某些功能，例如语言过滤，则可以省略读书文件中的语音脑。

完成此操作后，您可以使用

 python weeablind.py

用法

首先从计算机中选择视频，或粘贴到YT视频的链接并按Enter。它应该下载视频，并将其录音。

加载视频

一旦加载了视频，您就可以预览将被称为称为的字幕。如果已加载错误的语言或错误的音频流，请切换到“流”选项卡，然后选择正确的语言选项卡。

种植

如果您只需要配音视频的一部分，例如跳过节目的开头主题和学分，则可以指定一个开始和结束时间。使用时间码语法，例如2:17，然后按Enter。

配置声音

默认情况下，应初始化“示例”语音。您可以使用不同的配置进行播放，并在“配置语音”选项卡中使用“示例语音”按钮配音之前测试声音。当您拥有您满意的参数时，单击“更新声音”将重新签名到该插槽。如果您选择系统TTS引擎，则该程序将使用Windows的SAPI5窄符或Linux Espeak声音默认情况下。这非常快，但听起来很机器人。选择Coqui可以为您提供大量的选择，但是会提示您通常下载非常重的TTS型号。 VCTK/VIT是我最喜欢的模型，因为它很快，即使在CPU上也很快，还有数百个扬声器可供选择。默认情况下它是加载的。如果您进行了诊断，则可以从列表框中选择不同的声音，并更改其属性。

语言过滤

在“字幕”选项卡中，您要过滤字幕以排除所选语言说使用的行，因此只有外语被称为配音。这对于多种语言视频很有用，但不用一种语言进行视频。

诊断

运行诊断将尝试将正确的扬声器分配给所有字幕，并为检测到的扬声器总数生成随机声音。在FUTRE中，如果您提前知道，您可以指定诊断管道和扬声器数量。诊断仅对具有多个扬声器的视频有用，准确性可以非常大。

背景隔离

在“流”选项卡中，您可以运行声音隔离，该隔离将尝试从源视频轨道中删除人声，但保留背景。如果您还使用多语言视频和运行语言过滤，则需要首先运行以保持英语（或任何源语言的人声）。

配音

一旦配置了自己喜欢的东西，就可以按下大的多汁的配音按钮。这可能需要一段时间才能运行。完成后，您应该在output目录中使用“ myVideo-dubed.mkv”之类的东西。这是您完成的视频！

要做的事情

~~一个更好的语言检测过滤系统。也许包容性，独家或信心阈值~~
~~脱离它们，以便用户可以选择其目标语言，而不仅仅是英语~~
修复Pydub的愚蠢阵列失真，因此我们不必每个配音执行5个IO操作！！！
~~在源音频上运行声带隔离 /去除剂以删除 /减轻原始扬声器？~~
~~所有平台的适当设置指南~~
~~删除或修复破碎的ESPEAK实现为跨平台~~
~~初创企业时的非初始化的，用于重型模型的单例（例如，在需要时仅Intialial intialize Pyannote/Speakbrain Pipelines）~~
使用相同模型的Coqui声音的单身人士的抽象来减少记忆足迹
~~列表的GUI选项卡并选择w / ffmpeg的音频 /字幕流~~
~~将标签移入自己的课程~~
~~将标签和屏幕阅读器地标添加到所有控件~~
~~单扬声器或多扬声器控制开关~~
~~下载带有封闭字幕的YouTube视频~~
~~GUI选择配音的开始和结束时间~~
在我的网站上抛出烧瓶服务器，以便您可以使用最少的功能尝试。
~~使用OCR为没有子流的视频生成字幕~~
~~将OCR用于基于非文本的字幕~~
~~制作一个很酷的徽标？~~
~~了解如何将Python程序打包为二进制文件以制作版本~~
~~从此仓库中删除受版权保护的内容（对不起，TV Tokyo）~~
~~支持所有字幕格式~~
也许在ASR库中拍打无字幕的视频？
也许支持磁铁URL或ARRLIB到海盗媒体（谁知道？）