Программа по дубам многоязычных средств массовой информации и аниме с использованием современного синтеза речи ИИ, дневника, идентификации языка и клонирования голоса.

Вы можете попробовать первую двоичную версию, которая имеет доступ к базовым функциям дублирования с библиотеками без AAI для Windows и Linux. Это хороший способ попробовать программу, и вы все еще можете сделать базовый дублирование с помощью системных голосов. Если вы хотите использовать расширенные функции », вам придется попробовать расширенные функции, как описано в учебном пособии.
Я сделал это видео, чтобы показать, как использовать все функции и все, что в настоящее время может сделать Softwwware

Многие шоу, фильмы, сегменты новостей, интервью и видео никогда не получат надлежащие дублии на другие языки, а на царапине что -то может быть огромным. Это представляет общее препятствие для людей со слепотой, дислексией, нарушениями обучения или просто людям, которым не нравится читать субтитры. Эта программа направлена на создание приятной альтернативы для людей, сталкивающихся с этой борьбой.
Это программное обеспечение является продуктом войны. Моя сестра повернула меня в мое теперь благоприятное комедийное аниме "Дистанционная жизнь Саики К." Но Netflix никогда не заказывал Dub на 2 -й сезон. Я слеп и не могу и никогда не смогу читать субтитры, но я должен знать, как развивается история! Netflix заставил мою руку, и я приведу аниме-аниме с AI в слепых!
Этот проект опирается на некоторое рудиментарное удары вместе с некоторыми современными технологиями. Он использует многочисленные библиотеки и методы обработки аудио для анализа и синтеза речи, которая пытается оставаться в строке с исходным видеофайлом. В первую очередь он зависит от FFMPEG и Pydub для редактирования аудио и видео, коки для синтеза речи, речи для идентификации языка и Pyannote.Audio для диализа спикера.
У вас есть возможность дублировать каждый подзаголовок в видео, установить пласовое время и время окончания, дублирование только на иностранном языке или полномасштабного многопрофильного дублирования с частотой выступлений и сопоставлением объема.
Этот проект в настоящее время является тем, что некоторые могут позвонить в Альфе. Основная, основная функциональность существует, и ее можно использовать, клонируя репо, но она только начинает быть готовым к первому выпуску. Есть многочисленные оптимизации, UX и рефакторинг, которые необходимо сделать, прежде чем я назову это законченным. Следите за обновлениями и не стесняйтесь продлить руку с вкладами, тестированием или предложениями, если это то, что вас интересует.
У меня была идея назвать программное обеспечение WeeBlind как портманто -weeabo (кто -то слишком одержимый аниме) и слепой. Я мог бы изменить его на что -то другое в будущем, например, Blindtaku, Dubhub или что -то подобное и более запоминающее, потому что программное обеспечение можно использовать для гораздо большего, чем просто аниме.
В настоящее время не существует предварительно построенных по сравнению с загрузкой, это то, что я изучаю, но многие из этих зависимостей нелегко объединить с чем-то вроде Pyinstaller
Программа лучше всего работает на Linux, но также будет работать в Windows.
Вам нужно будет установить FFMPEG в вашу систему и убедиться, что он вызывает из терминала или в вашем системном пути
Для использования Coqui TTS вам также понадобится ESPEAK-NG, который вы можете получить от своего диспетчера пакетов на Linux или здесь в Windows
В Windows PIP требуют инструментов сборки MSVC для создания Coqui. Вы можете установить его здесь: https://visualstudio.microsoft.com/visual-cpp-build-tools/
Диаризация Coqui TTS и Pyannote также будут работать лучше, если у вас есть CUDA, настроенная в вашей системе для использования GPU. Это должно работать из коробки на Linux, но настройка его на Windows занимает некоторые дела. Этот пост должен пройти через процесс. Если вы не можете заставить его работать, не волнуйтесь, вы все равно можете использовать их на процессоре.
Последняя версия Python работает на Linux, но Sleeter работает только на 3.10, и Pyannote также может быть привередлен с этим. 3.10, кажется, лучше всего работает на Windows. Вы можете получить его в магазине Microsoft.
Чтобы использовать проект, вам нужно будет клонировать репозиторий и установить зависимости в виртуальной Enviormonet.
git clone https://github.com/FlorianEagox/weeablind.git
cd weeablind
python3.10 -m venv venv
# Windows
.venvScriptsactivate
# Linux
source ./venv/bin/activate
Этот проект имеет много зависимостей, и PIP может бороться с конфликтами, поэтому лучше установить из файла блокировки, как это:
pip install -r requirements-win-310.txt --no-deps
Вы можете попробовать из обычного файла требований, но это может занять много времени и иногда требует некоторого переосмысления.
Установка зависимостей может занять горячую минуту и использует много места (~ 8 ГБ).
Если вам не нужны определенные функции, например, языковая фильтрация, вы можете опустить SpeechBrain из ReadMe.
Как только это будет завершено, вы можете запустить программу с помощью
python weeablind.py
Начните с выбора видео с вашего компьютера или вставьте ссылку на видео YT и нажав Enter. Он должен загрузить видео и лот подводных лодок и аудио.
После загрузки видео вы можете просмотреть субтитры, которые будут дублироваться. Если неправильный язык загружен или неправильный аудио -поток, переключитесь на вкладку Streams и выберите правильные.
Вы можете указать время начала и окончания, если вам нужно только пробить раздел видео, например, чтобы пропустить начальную тему и кредиты шоу. Используйте синтаксис Timecode, например, 2:17 и нажмите Enter.
По умолчанию голос «выборки» должен быть инициализирован. Вы можете поиграть с различными конфигурациями и проверить голос, прежде чем дублировать кнопкой «Пример голоса» на вкладке «Настроить голоса». Когда у вас есть параметры, с которыми вы довольны, нажатие «Обновление голосов» повторно согласится с этим слотом. Если вы выберете двигатель System TTS, в программе по умолчанию будет использоваться Windows SAPI5 или Linux Espeak Voices. Это очень быстро, но звучит очень роботизированно. Выбор Coqui дает вам массу вариантов для поиска, но вам будет предложено загружать часто очень тяжелые модели TTS. VCTK/VITS - моя любимая модель для дуба, так как она очень быстро, даже на процессоре, и есть сотни динамиков на выбор. Он загружен по умолчанию. Если у вас запустили дневник, вы можете выбрать разные голоса из ListBox, а также изменить их свойства.
На вкладке Subtitles вы отфильтровали субтитры, чтобы исключить строки, произнесенные на выбранном вами языке, чтобы получить дублирование только иностранного языка. Это полезно для многоязычных видео, но не видео на одном языке.
Запуск дневника попытается назначить правильный динамик всем субтитрам и генерировать случайные голоса для общего количества обнаруженных динамиков. В Futre вы сможете указать дневник и количество динамиков, если вы знаете заранее. Диаризация полезна только для видео с несколькими динамиками, и точность может очень масштабно.
На вкладке «Streams» вы можете запустить вокальную изоляцию, которая попытается удалить вокал с вашего исходного видео -трека, но сохранить фон. Если вы также используете многоязычное видео и запускаю языковую фильтрацию, вам нужно сначала запустить это, чтобы сохранить английский (или вокал любого источника).
После того, как вы настроили вещи, как вам нравится, вы можете нажать большую, сочную кнопку Dubbing. Это может занять некоторое время, чтобы бежать. После завершения у вас должно быть что-то вроде "myvideo-dubbed.mkv" в output каталоге. Это ваше готовое видео!