Voxnovel

? Обзор
Voxnovel - это инновационная программа, которая использует возможности BookNLP для анализа литературы, приписывать цитаты с конкретными персонажами и генерировать индивидуальную аудиокнигу, где каждый персонаж имеет отчетливый голос через коки. Это не только обеспечивает захватывающий опыт аудиокниги, но и оживляет каждого персонажа с уникальным голосом, что делает опыт прослушивания гораздо более привлекательным.
Включены модели TTS
Все модели Coqui TTS- (Tacotron, Tacotron2, Glow-TTS, Speedy-Speech, Align-TTS, Fastpitch, Fastspeech, Fastspeech2, SC-Glowtts, конденсатрон, переполнение, нервные HMM TTS, восхитительные TTS, ⓧtts, Vits,? Yourtts,? Tortoise,? Bark) и Styletts2.
️ Акценты вы можете дать каждому персонажу с моделью клонирования по умолчанию (XTTS)
- Они также позволяют им говорить на этих языках, но атрибуция цитаты не будет правильно идентифицировать ничем от английского. English (en), Spanish (es), French (fr), German (de), Italian (it), Portuguese (pt), Polish (pl), Turkish (tr), Russian (ru), Dutch (nl), Czech (cs), Arabic (ar), Chinese (zh-cn), Japanese (ja), Hungarian (hu), Korean (ko) Выходы в качестве M4B со всеми метаданными и главами книги, пример вывода в приложении для аудиокнига Player

(а также папка отдельных файлов чата MP4 с электронными изображениями, встроенным в них, если вы этого хотите)
? Демо
Высококачественные демоверсии XTTS V2
Guardians_of_ga.hoole_10._lasky._kathryn _-_ gonge_of_hoole_chapter_4.mp4
?? Больше демонстрационных аудиофайлов :)
Высококачественные демонстрации черепахи
272463996-C4F8DFDF-C5BD-4771-AB1A-6131C22A67B2.MP4
Супер быстрое звук балакун демонстрирует
271878548-53B694A9-5DDD-4174-82BC-07AFF22D2330.MP4
271876316-530E8781-C77C-4424-89CD-A02DF363B0BF.MP4
** Супер высококачественное тестирование с тонкими настроенными моделями **
Audio_5811.mp4
Вы можете точно настроить свои собственные модели XTTS с 6+ минутами аудио бесплатно с этой колабами https://colab.research.google.com/drive/1gii4_x724m8q2w-zz-jxo7cwtv7rfah-
РЕДАКТИРОВАТЬ: Колаб больше не работает: Используйте мою версию, которая предоставляет исправление: https://colab.research.google.com/drive/1sqqqzzupo2pdjgggkrbm60su6sbfyo3su?usp=sharing
? Безлова Voxnovel Google Colab
Исследуйте и запустите интерактивную версию безголового проекта Voxnovel непосредственно в Google Colab! Начните здесь.
Графический интерфейс

GUI Part 1 (Booknlp процессор) Информация/функции
-Кнопка «Файл процесса»: нажмите, и она попросит вас выбрать файл электронной книги. 
Инструмент коррекции назначения ручного докладчика (GUI 1.5)
Этот графический интерфейс предназначен для ручной коррекции назначений спикеров, если цитаты неправильно назначены BookNLP. Он читает файл book.csv, содержащий извлеченные книги, цитаты и информацию о динамике, и позволяет визуально проверять и изменять задания оратора по мере необходимости, прежде чем переходить на следующий шаг TTS.
Ключевые функции:
- Отображение текста прокручиваемого текста: позволяет пользователям просматривать текст книги с помощью заданий динамиков с цветовой кодировкой.
- Выбор динамика: Пользователи могут выбрать новый динамик из раскрывающегося меню, чтобы переназначить определенные строки.
- Проверка кавычки: Линии из книги отображаются с флажками, что позволяет выбрать несколько строк для переназначения динамиков.
- Цветовое кодирование динамика: каждому динамику присваивается уникальный цвет для легкой идентификации.
- Кнопки для действия:
- Обновите выбранные динамики: примените выбранную динамик ко всем зарегистрированным линиям.
- Отмените все: сфотографируйте все выбранные строки.
- Продолжить: Сохраните изменения и выйдите из инструмента.
Как использовать:
- Выберите строки: Установите флажки рядом с линиями, которые вы хотите изменить.
- Выберите «Спикер»: выберите желаемый динамик из выпадающего меню.
- Применить изменения: нажмите «Обновить выбранные динамики», чтобы применить изменения.
- Обзор: текст будет обновляться, чтобы отразить изменения.
- Deselect: Нажмите «Deselect All», чтобы очистить свой выбор.
- Закончите: после удовлетворения исправлений нажмите «Продолжить», чтобы сохранить и выйти.

GUI Part 2 (Coqui TTS GUI) Информация/функции
- Выберите «Модель TTS».
- Включите флажок Fast Voice Models: (быстро генерируйте по цене качества звука) Нажмите на это, чтобы увидеть все остальные модели и единственные голоса, поддерживаемые Coqui TTS.
- Он обновит раскрывающую очередь «Select TTS Model» для моделей голосового клонирования, которые также включают (список добавленных значений).
- Он обновит раскрывающийся список для выбора для каждого символа, чтобы включить также (список добавленных значений).
- Сделайте все звуки генерировать флажок «Голосовой флажок Рассказчика»: это сделает сгенерирование звука каждого персонажа с помощью голоса, который вы выбрали для рассказчика, когда вы нажимаете кнопку «Создать аудио».
- Клоуна Новая голосовая кнопка: нажмите это, чтобы добавить новый голос, который вы можете клонировать (убедитесь, что у вас есть справочный аудиофайл под рукой).
- Добавьте кнопку с тонкой настройкой XTTS в кнопку Voice Actor: Если у вас есть папка, содержащая все параметры тонкой настройки модели XTTS определенного голоса, то вы можете нажать на это, чтобы сделать этот голосовой клон с помощью этой тонкой модели XTTS, чтобы обеспечить гораздо лучшие результаты голосового клонирования.
- Выпадающие голоса символов: это выпадающие частицы для выбора голосового актера (и акцент каждого символа при использовании XTTS).
- (1): Голосовые актеры, доступные для выбора для этого персонажа. (Значение по умолчанию выбирается на аудио на основе предполагаемого пола символа: «F, M, другие»).
- Когда вы выберете голос, он будет воспроизводить аудио -образец этого голоса, если это быстрый голос голоса, а звук Refrence не существует, тогда он будет генерировать один для игры.
- (2): акценты, доступные для выбора для этого символа. (Необязательно, по умолчанию английский).
- Глава поля разделителя: изменит разделитель главы по умолчанию (строка, которая используется для идентификации глав).
- Продолжительность молчания в поле миллисекунды (MS): это изменит количество миллисекунд между каждым комбинированным куском аудио.
- Выберите выпадающий язык TTS.
- Загрузочная полоса: даст приблизительное количество времени осталось. (Оцените, вы, вероятно, не увидите точных прогнозов, пока они не будут работать в течение 5 минут).
- Аннотированный блок предварительного просмотра книги: он покажет всю книгу с цветовой кодировкой каждого персонажа.
- Вы можете нажать на линию, пока создается аудиокнига, чтобы услышать, как звучит эта сгенерированная линия. Но только если линия уже сгенерировала для нее звук; Если нет, это ничего не будет играть.
- Кнопка «Загрузить книгу»: Нажатие на это будет перезагрузить аннотированный вид книги с цветовой кодировкой, она просто рандомизирует выбранные цвета для линий каждого персонажа.
- Сгенерировать аудио кнопку: начнет генерировать полную аудиокнигу.
- Выберите кнопку «Случайные голоса» (будет виден только в том случае, если проверен флажок «Включить быстрые голосовые модели»): выберет голос быстрого модели с автоматическим информированием для каждого персонажа, за исключением голоса рассказчика.

GUI Part 3 (Book Viewer) Информация/функции
-Трудно объяснить, что это больше игровая площадка, если вы связываетесь с ней, тогда вы должны получить, как она работает. Но его можно использовать для точной настройки аудиокниги -из окна, когда вы закончите с ним. ? Установка установки
? Безлова Voxnovel Google Colab
Исследуйте и запустите интерактивную версию безголового проекта Voxnovel непосредственно в Google Colab! Начните здесь.
? Docker (звук еще не работает в графическом интерфейсе)
? Безголовный докер
Docker без головы M1? Mac
cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:headless_m1_v2
Безголовный докер? Linux/Intel? Mac
Для безголового докера только на процессоре
cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest_headless
Для безголового докера с ускорением графического процессора, если у вас есть графический процессор NVIDA
cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run --gpus all -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest_headless
Окна без головы
Установка и настройка в Windows (PowerShell)
Следуйте этим шагам, чтобы настроить проект Voxnovel на системе Windows, используя PowerShell:
Перейдите к своему каталогу профиля пользователя:
Клонировать репозиторий Voxnovel от GitHub:
git clone https: // github.com / DrewThomasson / VoxNovel.git
Запуск Voxnovel в Docker
Для безголовной работы на процессоре
Чтобы запустить приложение Voxnovel в контейнере Docker на вашем процессоре:
docker run - v " ${ env: USERPROFILE} /VoxNovel/:/VoxNovel/ " - it athomasson2 / voxnovel:latest_headlessДля безголов
Если у вас есть GPU NVIDIA и вы хотите ускорить обработку, используйте следующую команду:
docker run -- gpus all - v " ${ env: USERPROFILE} /VoxNovel/:/VoxNovel/ " - it athomasson2 / voxnovel:latest_headless ? Gui Docker (звук еще не работает в графическом интерфейсе)
? Linux Docker
1. `CD ~`-
git clone https://github.com/DrewThomasson/VoxNovel.git -
sudo docker run --gpus all -e DISPLAY=$DISPLAY -v /tmp/.X11-unix:/tmp/.X11-unix -v /dev/snd:/dev/snd --device /dev/snd -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest
? Mac Docker
Настройка приложений с графическим интерфейсом с Docker на macOS
В этом руководстве представлены инструкции о том, как запустить контейнер Docker с графическим пользовательским интерфейсом на MacOS, используя Xquartz для пересылки X11 и монтажа тома.
Установите Xquartz
- Загрузите и установите Xquartz с сайта Xquartz.
- Открыть Xquartz.
- Перейдите в
XQuartz -> Preferences . - На вкладке
Security включите разрешение подключений от сетевых клиентов . - Перезапустите Xquartz, чтобы применить эти настройки.
Настроить и запустить контейнер Docker
Позвольте Docker подключиться к Xquartz
Откройте терминал и запустите следующую команду, чтобы разрешить подключения от вашей локальной машины с Xquartz:
xhost + $(ifconfig en0 | grep inet | awk '$1=="inet" {print $2}')
Запустите контейнер Docker
Запустите следующую команду, чтобы запустить контейнер Docker. Эта команда настраивает графический интерфейс для отображения на вашем хосте и устанавливает необходимые каталоги:
cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
docker run -e DISPLAY=$(ifconfig en0 | grep inet | awk '$1=="inet" {print $2}'):0
-v /tmp/.X11-unix:/tmp/.X11-unix
-v "/Users/$(whoami)/VoxNovel:/VoxNovel"
athomasson2/voxnovel:latest
Примечания
- Конфигурация Xquartz : убедитесь, что Xquartz настроен для разрешения сетевых клиентов, прежде чем пытаться подключиться.
- Существование каталога : убедитесь, что каталог
/Users/$(whoami)/VoxNovel существует на вашем Mac. Если нет, создайте его или отрегулируйте путь монтирования громкости в команде Docker по мере необходимости. - Брандмауэр и безопасность : если вы столкнетесь с проблемами подключения, проверьте любые настройки брандмауэра и предпочтения безопасности, которые могут заблокировать соединения.
? Windows Docker
Установите VCXSRV:
- Сначала установите VCXSRV и настройте его, чтобы разрешить подключения.
Как настроить vcxsrv
После установки VCXSRV он обычно запускается автоматически. Вы можете подтвердить, что он работает, проверяя свой значок в системном подносе, обычно расположенном рядом с часами на панели задач. Он также может запуститься автоматически при входе в свою систему.
Чтобы убедиться, что он настроен, чтобы разрешить подключения из контейнеров Docker, выполните следующие действия:
- Щелкните правой кнопкой мыши на значок VCXSRV в системном подносе.
- Выберите «xlaunch», чтобы открыть мастер конфигурации.
- В мастере конфигурации выберите «Несколько окон» и перейдите к следующему шагу.
- Выберите предпочтительные настройки для номера отображения и экрана.
- В окне «Дополнительные настройки» обязательно установите флажок «Отключить управление доступа», чтобы разрешить подключения из контейнеров Docker.
- Заполните конфигурацию, нажав «Закончить», а затем «Сохранить конфигурацию», когда будет предложено.
С помощью этих настроек VCXSRV должен работать и настроить, чтобы позволить подключения из контейнеров Docker. Теперь вы можете продолжить выполнение своих команд Docker, требующих поддержки GUI.
Переодеться в свой домашний каталог:
Клонировать репозиторий:
git clone https://github.com/DrewThomasson/VoxNovel.git
Запустите контейнер Docker:
docker run -e DISPLAY=host.docker.internal:0 -v " /Users/ $( whoami ) /VoxNovel:/VoxNovel/ " -it athomasson2/voxnovel:latest
? Linux
Единая команда Ubuntu Install
(Не используйте, если у вас уже установлена Miniconda.)
Чтобы установить Voxnovel на Ubuntu, вы можете использовать следующую единственную команду:
yes | wget -O - https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Ubuntu-install.sh | bash
Настольный ярлык
-Та -сценарий установки выше должен также создать ярлык для приложения.
Опция запуска ручного запуска
Или вы можете вручную запустить приложение в терминале со следующей командой:
cd ~ /VoxNovel && conda activate VoxNovel && python gui_run.py
или ручная установка:
-
sudo apt-get install calibre -
sudo apt-get install ffmpeg -
conda create --name VoxNovel python=3.10 -
conda activate VoxNovel -
git clone https://github.com/DrewThomasson/VoxNovel.git -
cd VoxNovel -
pip install bs4 -
pip install styletts2 -
pip install tts==0.21.3 -
pip install booknlp==1.0.7.1 -
pip install -r Ubuntu_requirements.txt -
python -m spacy download en_core_web_sm
? Для не латинских языков поддержка TTS (необязательно)
Установите Mecab для (не латинские языки поддержки TTS) (необязательно):
- Ubuntu:
sudo apt-get install -y mecab libmecab-dev mecab-ipadic-utf8
(Для не латинских языков поддержка TTS) (необязательно)
python -m unidic download
pip install mecab mecab-python3 unidic
? Steam Deck) (x86_64 Arch Linux)
Чтобы установить Voxnovel на паровую палубу, откройте терминал и запустите следующую единственную команду:
bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Steam-Deck_VoxNovel-Install.sh )
- Теперь у вас должен быть сочетание рабочего стола для Voxnovel в конце этого сценария!
? Intel Mac
Установите на Intel Mac:
Скачать установщик Intel Voxnovel
Или запустите следующую команду в вашем терминале:
bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Intel_Mac_Install_VoxNovel.sh )
Как только он будет завершен, у вас должен быть сочетание рабочего стола для Voxnovel.
? Удалить Intel Mac:
Чтобы удалить, запустите следующую команду в вашем терминале:
bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/uninstall_VoxNovel_Mac.sh )
(Депрессирован не используйте) Intel Mac Ручной установки
Беги в этом порядке:-
brew install calibre -
brew install ffmpeg -
conda create --name VoxNovel python=3.10 -
conda activate VoxNovel -
git clone https://github.com/DrewThomasson/VoxNovel.git -
cd VoxNovel -
pip install styletts2 -
pip install tts==0.21.3 -
pip install booknlp==1.0.7.1 9. pip install -r MAC-requirements.txt -
pip install spacy 11. python -m spacy download en_core_web_sm
? Для не латинских языков поддержка TTS (необязательно)
Установите Mecab для (не латинские языки поддержки TTS) (необязательно):
- MacOS:
brew install mecab , brew install mecab-ipadic
(Для не латинских языков поддержка TTS) (необязательно)
python -m unidic download
pip install mecab mecab-python3 unidic
? Apple Silicon Mac (протестирован на 2020 M1 Pro 8 ГБ ОЗУ)
Установите на Apple Silicon Mac:
Скачать установщик Apple Silicon Voxnovel.
Или запустите следующую команду в вашем терминале:
bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Apple_silicone_VoxNovel_install.sh )
Как только он будет завершен, у вас должен быть сочетание рабочего стола для Voxnovel.
? Удалить яблочный кремний Mac:
Чтобы удалить, запустите следующую команду в вашем терминале:
bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/uninstall_VoxNovel_Mac.sh )
(Депрессировано не использовать) Apple Silicon Manual-Unertall
Беги в этом порядке:
-
brew install calibre (вам, возможно, придется также установить его вручную с их сайта, если это не сработает) -
brew install ffmpeg -
conda create --name VoxNovel python=3.10 -
conda activate VoxNovel -
git clone https://github.com/DrewThomasson/VoxNovel.git -
cd VoxNovel -
pip install tensorflow-macos (также необязательный pip install tensorflow-metal , но пока я еще не получил ускорение графического процессора -
pip install styletts2 -
pip install tts==0.21.3 -
pip install --no-dependencies booknlp==1.0.7.1 -
pip install transformers==4.30.0 -
pip install tensorflow -
pip install -r MAC-requirements.txt -
pip install ebooklib bs4 epub2txt pygame moviepy spacy -
python -m spacy download en_core_web_sm
? Для не латинских языков поддержка TTS (необязательно)
Установите Mecab для (не латинские языки поддержки TTS) (необязательно):
- MacOS:
brew install mecab , brew install mecab-ipadic (для не латинских языков поддержка TTS) (необязательно)
python -m unidic download
pip install mecab mecab-python3 unidic
? Windows 11
Из -за проблем с Windows BookNLP все это будет запущено в WSL (не волнуйтесь, это все еще легко).
? Посмотрите видео по установке здесь
В вашем PowerShell, вставка:
Чтобы установить WSL. (Вас может быть предложено вашей системой, чтобы включить виртуализацию в вашем BIOS, если она доступна, так как это необходимо для запуска WSL в Windows.)
После установки имени пользователя и пароля откройте WSL и вставьте эту команду для установки одной команды:
yes | wget -O - https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Ubuntu-install.sh | bash
(Необязательно только для графических карт NVIDA не запускают эту команду, если у вас нет графической карты NVIDIA) Установите инструментарий NVIDIA CUDA (требуется для ускорения GPU NVIDIA):
sudo apt install nvidia-cuda-toolkit
Убедитесь, что вы находитесь в среде Voxnovel Conda: (если «conda: команда не найдена», то есть не рассматривается как команда, а затем попробуйте закрыть из текущего окна PowerShell и повторно запустить WSL Env с [WSL -D Ubuntu]
Перейдите в папку Voxnovel (если еще не там):
Теперь просто запустите одну из двух программ, показанных ниже
Запустить программу
Или запустить без головы
python headless_voxnovel.py
Доступ к файлам WSL Ubuntu из Windows
Вы можете получить доступ к вашим файлам WSL Ubuntu непосредственно в Windows File Explorer, введя следующий путь в адресную строку:
Файлы вывода аудиокнига будут расположены под VoxNoveloutput_audiobooks в WSL Env
Для создания сочетания рабочего стола Voxnovel Windows
Запустите эту команду в PowerShell
Invoke-Expression (Invoke-WebRequest -Uri " https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Windows-install-scripts/create_desktop_shortcut.ps1 " ).Content
? ️ удаление:
Чтобы удалить все, запустите следующую команду в PowerShell:
Это полностью удалит среду Ubuntu, где хранится приложение. ?
Устранение неполадок WSL
Если у вас проблемы с средой WSL:
Перечислите все среды WSL:
Удалите определенную среду WSL (например, Ubuntu):
wsl --unregister < distro_name >
Переустановить WSL:
Чтобы запустить WSL в любое время, вам нужно запустить эту программу, вы можете использовать строку поиска в Windows, чтобы найти и запустить «WSL» или запустить:
? Для не латинских языков поддержка TTS (необязательно)
Установите Mecab для (не латинские языки поддержки TTS) (необязательно):
-
sudo apt-get install -y mecab libmecab-dev mecab-ipadic-utf8
(Для не латинских языков поддержка TTS) (необязательно)
python -m unidic download
pip install mecab mecab-python3 unidic
Запустить программу
Или запустить без головы
python headless_voxnovel.py
Бег с низким VRAM (4 ГБ)
Модификации
- Оказывается, как только вы установите устройство, оно остается таким для полной программы.
- Итак, я разделил программу на две программы Python: один процессор и один графический процессор. Я проверил это на своем (4 ГБ VRAM GPU), и это решение работает. По крайней мере, с моей стороны, я действительно надеюсь, что это сработает с вашей стороны.
Чтобы запустить исправление, которое я сделал адаптированным для ситуации с низким графическим процессором VRAM:
Чтобы запустить предоставленные сценарии в вашей системе, выполните эти шаги в порядке:
Обработка книги (только процессор):
- Скрипт: 1cpu_book_processing.py
- Этот скрипт обрабатывает задачу только обработки книги с помощью BookNLP, в частности, заставляя ее работать на процессоре.
- Запустить с
python 1CPU_Book_processing.py
Генерация звука (только графический процессор):
- Скрипт: 2GPU_AUDIO_GENERTION.PY
- Этот скрипт посвящен только генерированию звука с помощью графического процессора и должен быть запущен после завершения обработки книги с помощью
1CPU_Book_processing.py . - Запустить с
python 2GPU_Audio_generation.py
Результаты производительности
После запуска мини -теста с файлом EPUB с использованием вышеуказанной настройки наблюдались следующие показатели производительности:
Результаты производительности
Тестирование на выполненном с помощью файла Mini EPUB, расположенного в exater_working_files.zip
| Задача | Конфигурация | Время (секунды) |
|---|
| Обработка книги | Только GPU (GeForce GTX 980), 4 ГБ VRAM, 32 ГБ ОЗУ, Intel I7-8700K | 2.922 |
| Аудио генерация | Только GPU (GeForce GTX 980), 4 ГБ VRAM, 32 ГБ ОЗУ, Intel I7-8700K | 128.48 |
| Обработка книги | Только процессор, 32 ГБ ОЗУ, Intel I7-8700K | 4.964 |
| Аудио генерация | Только процессор, 32 ГБ ОЗУ, Intel I7-8700K | 391.4227 |
Запустить автоматическую программу
Это означает, что все, что вы делаете, это выбираете книгу, и все голоса будут назначены и сгенерированы для вас. python auto_noGui_run.py
Доступ сгенерированных файлов аудиокниги
Вы можете получить доступ к своим сгенерированным файлам аудиокниги в папке Voxnovel в месте
VoxNovel/output_audiobooks
Поддерживаемые типы файлов электронных книг:
.epub, .pdf, .mobi, .txt, .html, .rtf, .chm, .lit, .pdb, .fb2, .odt, .cbr, .cbz, .prc, .lrf, .pml, .snb, .cbc, .rb и .tcr,.
- (Наилучшие результаты - использование EPUB или MOBI для обнаружения автозатраты)
Папки
Папки, используемые программой
/Final_combined_output_audio: Вот где все ваши аудиофайлы главы будут помещены в порядке главы num
/output_audiobooks: вот где будут храниться все ваши файлы аудиокниги M4B
/Working_files: хранит все рабочие файлы, используемые программой при активальном запуске.
- /Working_files/temp_ebook: хранят все отдельные извлеченные файлы главы TXT из электронной книги.
/черепаха: хранит все образцы голосовых файлов
Функции графического интерфейса
GUI, часть 1 (процессор BookNLP)
-Кнопка «Файл процесса»: нажмите, и она попросит вас выбрать файл электронной книги. GUI, часть 2 (Gui Coqui)
- Выберите «Модель TTS».
- Включите флажок Fast Voice Models: (быстро генерируйте по цене качества звука) Нажмите на это, чтобы увидеть все остальные модели и единственные голоса, поддерживаемые Coqui TTS.
- Он обновит раскрывающую очередь «Select TTS Model» для моделей голосового клонирования, которые также включают (список добавленных значений).
- Он обновит раскрывающийся список для выбора для каждого символа, чтобы включить также (список добавленных значений).
- Сделайте все звуки генерировать флажок «Голосовой флажок Рассказчика»: это сделает сгенерирование звука каждого персонажа с помощью голоса, который вы выбрали для рассказчика, когда вы нажимаете кнопку «Создать аудио».
- Клоуна Новая голосовая кнопка: нажмите это, чтобы добавить новый голос, который вы можете клонировать (убедитесь, что у вас есть справочный аудиофайл под рукой).
- Добавьте кнопку с тонкой настройкой XTTS в кнопку Voice Actor: Если у вас есть папка, содержащая все параметры тонкой настройки модели XTTS определенного голоса, то вы можете нажать на это, чтобы сделать этот голосовой клон с помощью этой тонкой модели XTTS, чтобы обеспечить гораздо лучшие результаты голосового клонирования.
- Выпадающие голоса символов: это выпадающие частицы для выбора голосового актера (и акцент каждого символа при использовании XTTS).
- (1): Голосовые актеры, доступные для выбора для этого персонажа. (Значение по умолчанию выбирается на аудио на основе предполагаемого пола символа: «F, M, другие»).
- Когда вы выберете голос, он будет воспроизводить аудио -образец этого голоса, если это быстрый голос голоса, а звук Refrence не существует, тогда он будет генерировать один для игры.
- (2): акценты, доступные для выбора для этого символа. (Необязательно, по умолчанию английский).
- Глава поля разделителя: изменит разделитель главы по умолчанию (строка, которая используется для идентификации глав).
- Продолжительность молчания в поле миллисекунды (MS): это изменит количество миллисекунд между каждым комбинированным куском аудио.
- Выберите выпадающий язык TTS.
- Загрузочная полоса: даст приблизительное количество времени осталось. (Оцените, вы, вероятно, не увидите точных прогнозов, пока они не будут работать в течение 5 минут).
- Аннотированный блок предварительного просмотра книги: он покажет всю книгу с цветовой кодировкой каждого персонажа.
- Вы можете нажать на линию, пока создается аудиокнига, чтобы услышать, как звучит эта сгенерированная линия. Но только если линия уже сгенерировала для нее звук; Если нет, это ничего не будет играть.
- Кнопка «Загрузить книгу»: Нажатие на это будет перезагрузить аннотированный вид книги с цветовой кодировкой, она просто рандомизирует выбранные цвета для линий каждого персонажа.
- Сгенерировать аудио кнопку: начнет генерировать полную аудиокнигу.
- Выберите кнопку «Случайные голоса» (будет виден только в том случае, если проверен флажок «Включить быстрые голосовые модели»): выберет голос быстрого модели с автоматическим информированием для каждого персонажа, за исключением голоса рассказчика.
GUI, часть 3 (зритель книги)
-Трудно объяснить, что это больше игровая площадка, если вы связываетесь с ней, тогда вы должны получить, как она работает. Но его можно использовать для точной настройки аудиокниги -из окна, когда вы закончите с ним. ? Функции
Входящие запланированные функции
Особая благодарность:
-@Sidharthrajaram (для его установки Styletts2 Pip, которую он создал, я не мог добавить Styletts2 без него. :)) (https://github.com/sidharthrajaram/styletts2)