Скачать TTS dataset tools - TTS dataset tools Скачать исходный код

TTS dataset tools

AI Исходный код

1.0.0

Скачать

TTS-Dataset-Tools

Транскрибируйте звук через Google речи в текстовый API с разделением динамиков (дневник). Автоматически генерируйте наборы данных TTS с использованием аудио и связанного текста. Использует Google API для транскрибирования сокращений, которые были разделены на максимальный разрыв молчания (рекомендуется). Или используйте Aeneas, чтобы вывести текст в аудио. Быстро корректировать и редактировать сокращения.

Для Google Speech to Text API вам понадобится учетная запись Google Cloud Platform. Ваша переменная $ Google_Application_credentials Env должна указывать на ваш путь файла файла JSON. Google предлагает услуги на сумму 300 долларов США и 3 месяца бесплатно на новых учетных записях.

Запустить инструменты.

Текущие ограничения заключаются в том, что вам нужно будет настроить ширину столбца в разделе корректуры, а при навигации записей вы должны снять фокус из текущих и следующих текстовых поксов ввода, иначе текстовое поле не будут обновляться. Следующая версия Dearpy Gui решит эти проблемы.

Использование VPN будет мешать долгим речи Google на текстовые запросы API.

GUI набора данных

Используя более старую версию Dearpygui в Momement, я в конце концов буду мигрировать.

Настройка Windows

PIP установить Numpy -пользователь

PIP установить pydub -пользователь

PIP установить dearpygui == 0,6,415 -пользователь

PIP установить Google-Cloud-Speech-пользователь

PIP установить Google-Cloud-Storage-USER

PIP установить SimpleAudio -USER

*Если вы не можете построить Simpleaudio, убедитесь, что у вас установлен GCC: Sudo Apt-Get Update, Sudo Apt-Get Install-Essentials

PIP установка Sox -USER

Настройка Linux

Среда Linux рекомендуется для опции AENEAS, в Windows Aeneas не сможет сделать более длинные сокращения из -за проблем с памятью.

wget https://raw.githubusercontent.com/readbeyond/aeneas/master/install_dependencies.sh

bash install_dependencies.sh

PIP установить Numpy -пользователь

PIP установка AENEAS -USER

Тестовая установка: python -m aeneas.diagnostics

PIP установить pydub -пользователь

PIP установить dearpygui == 0,6,415 -пользователь

PIP установить Google-Cloud-Speech-пользователь

PIP установить Google-Cloud-Storage-USER

PIP установить SimpleAudio -USER

PIP установка Sox -USER

Если вы получите ошибку Libpython:

Sudo Apt установить libasound2-dev

Отредактируйте свой файл bashrc, набрав: sudo nano ~/.bashrc

Затем добавьте строку в конце с вашей информацией в зависимости от того, где был установлен ваш пакет:

Export ld_library_path = "/[yourhomepath]/anaconda3/envs/[yourenv]/lib/"

ИЛИ

Export ld_library_path = "/[yourhomepath]/. conda/envs/[yourenv]/lib/"

Или если базовая среда

Экспорт ld_library_path = "/[yourhomepath]/anaconda3/lib/"

Нажмите Ctrl+O, чтобы экспортировать обновленный файл. Затем Ctrl+X к выходу.

Введите источник ~/.bashrc, чтобы включить новый путь.

Использование

Видеоролик: https://www.youtube.com/watch?v=te7pui2xeje

Рекомендации

Несколько вещей улучшат качество ваших сокращений, хотя вы всегда должны вычитать их перед тренировкой. Для языков, отличных от английского, вы можете легко отредактировать командные строки AENEAS и замену символов на ваши потребности, и заменить коды языков Google EN-US US вашим языковым кодом (https://cloud.google.com/speech-to-text/docs/languages). Изучите, включены ли такие вещи, как заголовки глаз. Спикеры с медленной и даже растущей речью сделают самые чистые разрезы, в то время как быстро развивающиеся динамики, как правило, запускают слова вместе и могут вызвать некоторые слова, кусочки слов, которые будут перемещаться в следующий разрез, где его нужно будет отредактировать. Удалите всю музыку, если в состоянии.

Расширять

Дополнительная информация