Загрузка WeeaBlind - Загрузка исходного кода WeeaBlind

WeeaBlind

AI Исходный код

WeeaBlind 1.0 -

Скачать

Weeablind

Программа по дубам многоязычных средств массовой информации и аниме с использованием современного синтеза речи ИИ, дневника, идентификации языка и клонирования голоса.

Слепая аниме -девушка с звуковой формой для глаз. У нее зеленые и фиолетовые волосы, уютный зеленый свитер и фиолетовые бурреты. Это выше слов Weea Blind. Изображение было сгенерировано Dall-E AI

Скачать релиз 1.0

Вы можете попробовать первую двоичную версию, которая имеет доступ к базовым функциям дублирования с библиотеками без AAI для Windows и Linux. Это хороший способ попробовать программу, и вы все еще можете сделать базовый дублирование с помощью системных голосов. Если вы хотите использовать расширенные функции », вам придется попробовать расширенные функции, как описано в учебном пособии.

Живая демонстрация и учебник

Я сделал это видео, чтобы показать, как использовать все функции и все, что в настоящее время может сделать Softwwware

Ссылка на YouTube на видео о программном обеспечении

Почему

Многие шоу, фильмы, сегменты новостей, интервью и видео никогда не получат надлежащие дублии на другие языки, а на царапине что -то может быть огромным. Это представляет общее препятствие для людей со слепотой, дислексией, нарушениями обучения или просто людям, которым не нравится читать субтитры. Эта программа направлена на создание приятной альтернативы для людей, сталкивающихся с этой борьбой.

Это программное обеспечение является продуктом войны. Моя сестра повернула меня в мое теперь благоприятное комедийное аниме "Дистанционная жизнь Саики К." Но Netflix никогда не заказывал Dub на 2 -й сезон. Я слеп и не могу и никогда не смогу читать субтитры, но я должен знать, как развивается история! Netflix заставил мою руку, и я приведу аниме-аниме с AI в слепых!

Как

Этот проект опирается на некоторое рудиментарное удары вместе с некоторыми современными технологиями. Он использует многочисленные библиотеки и методы обработки аудио для анализа и синтеза речи, которая пытается оставаться в строке с исходным видеофайлом. В первую очередь он зависит от FFMPEG и Pydub для редактирования аудио и видео, коки для синтеза речи, речи для идентификации языка и Pyannote.Audio для диализа спикера.

У вас есть возможность дублировать каждый подзаголовок в видео, установить пласовое время и время окончания, дублирование только на иностранном языке или полномасштабного многопрофильного дублирования с частотой выступлений и сопоставлением объема.

Когда?

Этот проект в настоящее время является тем, что некоторые могут позвонить в Альфе. Основная, основная функциональность существует, и ее можно использовать, клонируя репо, но она только начинает быть готовым к первому выпуску. Есть многочисленные оптимизации, UX и рефакторинг, которые необходимо сделать, прежде чем я назову это законченным. Следите за обновлениями и не стесняйтесь продлить руку с вкладами, тестированием или предложениями, если это то, что вас интересует.

Имя

У меня была идея назвать программное обеспечение WeeBlind как портманто -weeabo (кто -то слишком одержимый аниме) и слепой. Я мог бы изменить его на что -то другое в будущем, например, Blindtaku, Dubhub или что -то подобное и более запоминающее, потому что программное обеспечение можно использовать для гораздо большего, чем просто аниме.

Настраивать

В настоящее время не существует предварительно построенных по сравнению с загрузкой, это то, что я изучаю, но многие из этих зависимостей нелегко объединить с чем-то вроде Pyinstaller

Программа лучше всего работает на Linux, но также будет работать в Windows.

Системная предпосылка

Вам нужно будет установить FFMPEG в вашу систему и убедиться, что он вызывает из терминала или в вашем системном пути

Для использования Coqui TTS вам также понадобится ESPEAK-NG, который вы можете получить от своего диспетчера пакетов на Linux или здесь в Windows

В Windows PIP требуют инструментов сборки MSVC для создания Coqui. Вы можете установить его здесь: https://visualstudio.microsoft.com/visual-cpp-build-tools/

Диаризация Coqui TTS и Pyannote также будут работать лучше, если у вас есть CUDA, настроенная в вашей системе для использования GPU. Это должно работать из коробки на Linux, но настройка его на Windows занимает некоторые дела. Этот пост должен пройти через процесс. Если вы не можете заставить его работать, не волнуйтесь, вы все равно можете использовать их на процессоре.

Последняя версия Python работает на Linux, но Sleeter работает только на 3.10, и Pyannote также может быть привередлен с этим. 3.10, кажется, лучше всего работает на Windows. Вы можете получить его в магазине Microsoft.

Настройка из источника

Чтобы использовать проект, вам нужно будет клонировать репозиторий и установить зависимости в виртуальной Enviormonet.

 git clone https://github.com/FlorianEagox/weeablind.git
cd weeablind
python3.10 -m venv venv
# Windows
.venvScriptsactivate
# Linux
source ./venv/bin/activate

Этот проект имеет много зависимостей, и PIP может бороться с конфликтами, поэтому лучше установить из файла блокировки, как это:

 pip install -r requirements-win-310.txt --no-deps

Вы можете попробовать из обычного файла требований, но это может занять много времени и иногда требует некоторого переосмысления.

Установка зависимостей может занять горячую минуту и использует много места (~ 8 ГБ).

Если вам не нужны определенные функции, например, языковая фильтрация, вы можете опустить SpeechBrain из ReadMe.

Как только это будет завершено, вы можете запустить программу с помощью

 python weeablind.py

Использование

Начните с выбора видео с вашего компьютера или вставьте ссылку на видео YT и нажав Enter. Он должен загрузить видео и лот подводных лодок и аудио.

Загрузка видео

После загрузки видео вы можете просмотреть субтитры, которые будут дублироваться. Если неправильный язык загружен или неправильный аудио -поток, переключитесь на вкладку Streams и выберите правильные.

Обрезка

Вы можете указать время начала и окончания, если вам нужно только пробить раздел видео, например, чтобы пропустить начальную тему и кредиты шоу. Используйте синтаксис Timecode, например, 2:17 и нажмите Enter.

Настройка голосов

По умолчанию голос «выборки» должен быть инициализирован. Вы можете поиграть с различными конфигурациями и проверить голос, прежде чем дублировать кнопкой «Пример голоса» на вкладке «Настроить голоса». Когда у вас есть параметры, с которыми вы довольны, нажатие «Обновление голосов» повторно согласится с этим слотом. Если вы выберете двигатель System TTS, в программе по умолчанию будет использоваться Windows SAPI5 или Linux Espeak Voices. Это очень быстро, но звучит очень роботизированно. Выбор Coqui дает вам массу вариантов для поиска, но вам будет предложено загружать часто очень тяжелые модели TTS. VCTK/VITS - моя любимая модель для дуба, так как она очень быстро, даже на процессоре, и есть сотни динамиков на выбор. Он загружен по умолчанию. Если у вас запустили дневник, вы можете выбрать разные голоса из ListBox, а также изменить их свойства.

Языковая фильтрация

На вкладке Subtitles вы отфильтровали субтитры, чтобы исключить строки, произнесенные на выбранном вами языке, чтобы получить дублирование только иностранного языка. Это полезно для многоязычных видео, но не видео на одном языке.

Дневник

Запуск дневника попытается назначить правильный динамик всем субтитрам и генерировать случайные голоса для общего количества обнаруженных динамиков. В Futre вы сможете указать дневник и количество динамиков, если вы знаете заранее. Диаризация полезна только для видео с несколькими динамиками, и точность может очень масштабно.

Фоновая изоляция

На вкладке «Streams» вы можете запустить вокальную изоляцию, которая попытается удалить вокал с вашего исходного видео -трека, но сохранить фон. Если вы также используете многоязычное видео и запускаю языковую фильтрацию, вам нужно сначала запустить это, чтобы сохранить английский (или вокал любого источника).

Дублируя

После того, как вы настроили вещи, как вам нравится, вы можете нажать большую, сочную кнопку Dubbing. Это может занять некоторое время, чтобы бежать. После завершения у вас должно быть что-то вроде "myvideo-dubbed.mkv" в output каталоге. Это ваше готовое видео!

Что делать

~~Лучшая система фильтрации для обнаружения языка. Может быть, инклюзивный и эксклюзивный или уверенный порог~~
Найдите немного менее авторским правом многоязычного / неанглийского контента, чтобы публично отображать демонстрации
~~де-ангилизация, чтобы пользователь мог выбрать свой целевой язык, а не просто английский~~
Исправьте глупое искажение массива Pydub, чтобы нам не приходилось выполнять 5 операций ввода -то, в Dub !!!
~~Запустите вокальную изоляцию / удаление на исходном аудио, чтобы удалить / смягчить оригинальные динамики?~~
~~Правильное руководство по настройке для всех платформ~~
~~Удалить или исправить разбитую реализацию ESPEAK, чтобы быть кроссплатформенным~~
Неинитированные, синглтоны для тяжелых моделей при запуске (например, только при необходимости интиализуйте трубопроводы Pyannote/Speechbrain)
Абстракция для сингллетов голосов Coqui, используя ту же модель, чтобы уменьшить следов памяти
~~Вкладка GUI для перечисления и выбора аудио / подзаголочных потоков w / ffmpeg~~
~~Переместить вкладки в свои классы~~
~~Добавьте достопримечательности считывателя и экрана ко всем элементам управления~~
~~Одиночный динамик или многочисленное управление динамиками~~
~~Скачать видео Youtube с закрытыми подписями~~
~~GUI, чтобы выбрать время начала и окончания дублирования~~
Выбросьте на мой сайт сервер Flask, чтобы вы могли попробовать его с минимальными функциями.
~~Используйте OCR, чтобы генерировать субтитры для видео, у которых нет подпотоков~~
~~Используйте OCR для не текстовых субтитров~~
~~Сделать крутой логотип?~~
~~Узнайте, как упаковывать программы Python как двоичные файлы, чтобы выпустить~~
~~Удалить защищенный авторским правом контент из этого репо (извините, не извините за телевидение Токио)~~
~~Поддержка всех форматов субтитров~~
Может быть, пощечины в библиотеке ASR для видео без субтитрах?
Может быть, поддержка магнитных URL или Arrlib для пиратских средств массовой информации (кто знает ???)

Дневник

Фильтруя субтитры с помощью выбранного голоса из Listbox
Выберите из нескольких дневных моделей / трубопроводов
Оптимизировать аудио trakcs для diarizaiton, изолируя речь линии на основе времени подзаголовок
Исследовать диарт?

ТТС

~~Передайте работу контроля скорости, чтобы использовать Pydub, чтобы ускорить аудио.~~
~~Сопоставьте объем динамика с TTS~~
Флажок для удаления последовательных записей и записей подзаголовок, которые крошечные, например, "Nom" "Nom" "Nom" "nom" ~~
~~исследовать преобразование голоса?~~
Создайте асинхронную очередь операций для выполнения
~~Асинхронное графическое интерфейс для загрузки модели Coqui~~
Добавьте поддержку MyCroft Mimic 3
Добавьте поддержку для пипертов

Клонирование

~~Создайте режим клонирования для выбора субтитров и экспорта их в набор данных или компиляцию WAV для Coqui XTTS~~
Используйте дневники и субтитры для изоляции и создания обучающих наборов данных
Создайте инструмент для оптимизации ручного создания наборов данных