Скачать VoxNovel - Скачать исходный код VoxNovel

VoxNovel

Другой исходный код

vel: 1.5

Скачать

Voxnovel

Voxnovel_logo

? Обзор

Voxnovel - это инновационная программа, которая использует возможности BookNLP для анализа литературы, приписывать цитаты с конкретными персонажами и генерировать индивидуальную аудиокнигу, где каждый персонаж имеет отчетливый голос через коки. Это не только обеспечивает захватывающий опыт аудиокниги, но и оживляет каждого персонажа с уникальным голосом, что делает опыт прослушивания гораздо более привлекательным.

Включены модели TTS

Все модели Coqui TTS- (Tacotron, Tacotron2, Glow-TTS, Speedy-Speech, Align-TTS, Fastpitch, Fastspeech, Fastspeech2, SC-Glowtts, конденсатрон, переполнение, нервные HMM TTS, восхитительные TTS, ⓧtts, Vits,? Yourtts,? Tortoise,? Bark) и Styletts2.

️ Акценты вы можете дать каждому персонажу с моделью клонирования по умолчанию (XTTS)

- Они также позволяют им говорить на этих языках, но атрибуция цитаты не будет правильно идентифицировать ничем от английского. English (en), Spanish (es), French (fr), German (de), Italian (it), Portuguese (pt), Polish (pl), Turkish (tr), Russian (ru), Dutch (nl), Czech (cs), Arabic (ar), Chinese (zh-cn), Japanese (ja), Hungarian (hu), Korean (ko)

Выходы в качестве M4B со всеми метаданными и главами книги, пример вывода в приложении для аудиокнига Player

Example_of_output_in_audiobook_program

(а также папка отдельных файлов чата MP4 с электронными изображениями, встроенным в них, если вы этого хотите)

? Демо

Высококачественные демоверсии XTTS V2

Guardians_of_ga.hoole_10._lasky._kathryn _-_ gonge_of_hoole_chapter_4.mp4

?? Больше демонстрационных аудиофайлов :)

Высококачественные демонстрации черепахи

272463996-C4F8DFDF-C5BD-4771-AB1A-6131C22A67B2.MP4

Супер быстрое звук балакун демонстрирует

271878548-53B694A9-5DDD-4174-82BC-07AFF22D2330.MP4

271876316-530E8781-C77C-4424-89CD-A02DF363B0BF.MP4

** Супер высококачественное тестирование с тонкими настроенными моделями **

Audio_5811.mp4

Вы можете точно настроить свои собственные модели XTTS с 6+ минутами аудио бесплатно с этой колабами ~~https://colab.research.google.com/drive/1gii4_x724m8q2w-zz-jxo7cwtv7rfah-~~

РЕДАКТИРОВАТЬ: Колаб больше не работает: Используйте мою версию, которая предоставляет исправление: https://colab.research.google.com/drive/1sqqqzzupo2pdjgggkrbm60su6sbfyo3su?usp=sharing

? Безлова Voxnovel Google Colab

Исследуйте и запустите интерактивную версию безголового проекта Voxnovel непосредственно в Google Colab! Начните здесь.

Графический интерфейс

gui_1_select_file

GUI Part 1 (Booknlp процессор) Информация/функции

-Кнопка «Файл процесса»: нажмите, и она попросит вас выбрать файл электронной книги.

gui_2_finetune

Инструмент коррекции назначения ручного докладчика (GUI 1.5)

Этот графический интерфейс предназначен для ручной коррекции назначений спикеров, если цитаты неправильно назначены BookNLP. Он читает файл book.csv, содержащий извлеченные книги, цитаты и информацию о динамике, и позволяет визуально проверять и изменять задания оратора по мере необходимости, прежде чем переходить на следующий шаг TTS.

Ключевые функции:

Отображение текста прокручиваемого текста: позволяет пользователям просматривать текст книги с помощью заданий динамиков с цветовой кодировкой.
Выбор динамика: Пользователи могут выбрать новый динамик из раскрывающегося меню, чтобы переназначить определенные строки.
Проверка кавычки: Линии из книги отображаются с флажками, что позволяет выбрать несколько строк для переназначения динамиков.
Цветовое кодирование динамика: каждому динамику присваивается уникальный цвет для легкой идентификации.
Кнопки для действия:
- Обновите выбранные динамики: примените выбранную динамик ко всем зарегистрированным линиям.
- Отмените все: сфотографируйте все выбранные строки.
- Продолжить: Сохраните изменения и выйдите из инструмента.

Как использовать:

Выберите строки: Установите флажки рядом с линиями, которые вы хотите изменить.
Выберите «Спикер»: выберите желаемый динамик из выпадающего меню.
Применить изменения: нажмите «Обновить выбранные динамики», чтобы применить изменения.
Обзор: текст будет обновляться, чтобы отразить изменения.
Deselect: Нажмите «Deselect All», чтобы очистить свой выбор.
Закончите: после удовлетворения исправлений нажмите «Продолжить», чтобы сохранить и выйти.

gui_2_finetune

GUI Part 2 (Coqui TTS GUI) Информация/функции

Выберите «Модель TTS».
Включите флажок Fast Voice Models: (быстро генерируйте по цене качества звука) Нажмите на это, чтобы увидеть все остальные модели и единственные голоса, поддерживаемые Coqui TTS.
- Он обновит раскрывающую очередь «Select TTS Model» для моделей голосового клонирования, которые также включают (список добавленных значений).
- Он обновит раскрывающийся список для выбора для каждого символа, чтобы включить также (список добавленных значений).
Сделайте все звуки генерировать флажок «Голосовой флажок Рассказчика»: это сделает сгенерирование звука каждого персонажа с помощью голоса, который вы выбрали для рассказчика, когда вы нажимаете кнопку «Создать аудио».
Клоуна Новая голосовая кнопка: нажмите это, чтобы добавить новый голос, который вы можете клонировать (убедитесь, что у вас есть справочный аудиофайл под рукой).
Добавьте кнопку с тонкой настройкой XTTS в кнопку Voice Actor: Если у вас есть папка, содержащая все параметры тонкой настройки модели XTTS определенного голоса, то вы можете нажать на это, чтобы сделать этот голосовой клон с помощью этой тонкой модели XTTS, чтобы обеспечить гораздо лучшие результаты голосового клонирования.
Выпадающие голоса символов: это выпадающие частицы для выбора голосового актера (и акцент каждого символа при использовании XTTS).
- (1): Голосовые актеры, доступные для выбора для этого персонажа. (Значение по умолчанию выбирается на аудио на основе предполагаемого пола символа: «F, M, другие»).
  - Когда вы выберете голос, он будет воспроизводить аудио -образец этого голоса, если это быстрый голос голоса, а звук Refrence не существует, тогда он будет генерировать один для игры.
- (2): акценты, доступные для выбора для этого символа. (Необязательно, по умолчанию английский).
Глава поля разделителя: изменит разделитель главы по умолчанию (строка, которая используется для идентификации глав).
Продолжительность молчания в поле миллисекунды (MS): это изменит количество миллисекунд между каждым комбинированным куском аудио.
Выберите выпадающий язык TTS.
Загрузочная полоса: даст приблизительное количество времени осталось. (Оцените, вы, вероятно, не увидите точных прогнозов, пока они не будут работать в течение 5 минут).
Аннотированный блок предварительного просмотра книги: он покажет всю книгу с цветовой кодировкой каждого персонажа.
- Вы можете нажать на линию, пока создается аудиокнига, чтобы услышать, как звучит эта сгенерированная линия. Но только если линия уже сгенерировала для нее звук; Если нет, это ничего не будет играть.
Кнопка «Загрузить книгу»: Нажатие на это будет перезагрузить аннотированный вид книги с цветовой кодировкой, она просто рандомизирует выбранные цвета для линий каждого персонажа.
Сгенерировать аудио кнопку: начнет генерировать полную аудиокнигу.
Выберите кнопку «Случайные голоса» (будет виден только в том случае, если проверен флажок «Включить быстрые голосовые модели»): выберет голос быстрого модели с автоматическим информированием для каждого персонажа, за исключением голоса рассказчика.

gui_3_run

GUI Part 3 (Book Viewer) Информация/функции

-Трудно объяснить, что это больше игровая площадка, если вы связываетесь с ней, тогда вы должны получить, как она работает. Но его можно использовать для точной настройки аудиокниги -из окна, когда вы закончите с ним.

? Установка установки

? Безлова Voxnovel Google Colab

Исследуйте и запустите интерактивную версию безголового проекта Voxnovel непосредственно в Google Colab! Начните здесь.

? Docker (звук еще не работает в графическом интерфейсе)

? Безголовный докер

Docker без головы M1? Mac

cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:headless_m1_v2

Безголовный докер? Linux/Intel? Mac

Для безголового докера только на процессоре

cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest_headless

Для безголового докера с ускорением графического процессора, если у вас есть графический процессор NVIDA

cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run --gpus all -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest_headless

Окна без головы

Установка и настройка в Windows (PowerShell)

Следуйте этим шагам, чтобы настроить проект Voxnovel на системе Windows, используя PowerShell:

Перейдите к своему каталогу профиля пользователя:
```
cd $ env: USERPROFILE
```

Клонировать репозиторий Voxnovel от GitHub:

git clone https: // github.com / DrewThomasson / VoxNovel.git

Запуск Voxnovel в Docker

Для безголовной работы на процессоре

Чтобы запустить приложение Voxnovel в контейнере Docker на вашем процессоре:

docker run - v " ${ env: USERPROFILE} /VoxNovel/:/VoxNovel/ " - it athomasson2 / voxnovel:latest_headless

Для безголов

Если у вас есть GPU NVIDIA и вы хотите ускорить обработку, используйте следующую команду:

docker run -- gpus all - v " ${ env: USERPROFILE} /VoxNovel/:/VoxNovel/ " - it athomasson2 / voxnovel:latest_headless

? Gui Docker (звук еще не работает в графическом интерфейсе)

? Linux Docker

1. `CD ~`

git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run --gpus all -e DISPLAY=$DISPLAY -v /tmp/.X11-unix:/tmp/.X11-unix -v /dev/snd:/dev/snd --device /dev/snd -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest

? Mac Docker

Настройка приложений с графическим интерфейсом с Docker на macOS

В этом руководстве представлены инструкции о том, как запустить контейнер Docker с графическим пользовательским интерфейсом на MacOS, используя Xquartz для пересылки X11 и монтажа тома.

Установите Xquartz

Загрузите и установите Xquartz с сайта Xquartz.
Открыть Xquartz.
Перейдите в XQuartz -> Preferences .
На вкладке Security включите разрешение подключений от сетевых клиентов .
Перезапустите Xquartz, чтобы применить эти настройки.

Настроить и запустить контейнер Docker

Позвольте Docker подключиться к Xquartz

Откройте терминал и запустите следующую команду, чтобы разрешить подключения от вашей локальной машины с Xquartz:

 xhost + $(ifconfig en0 | grep inet | awk '$1=="inet" {print $2}')

Запустите контейнер Docker

Запустите следующую команду, чтобы запустить контейнер Docker. Эта команда настраивает графический интерфейс для отображения на вашем хосте и устанавливает необходимые каталоги:

 cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
docker run -e DISPLAY=$(ifconfig en0 | grep inet | awk '$1=="inet" {print $2}'):0 
           -v /tmp/.X11-unix:/tmp/.X11-unix 
           -v "/Users/$(whoami)/VoxNovel:/VoxNovel" 
           athomasson2/voxnovel:latest

Примечания

Конфигурация Xquartz : убедитесь, что Xquartz настроен для разрешения сетевых клиентов, прежде чем пытаться подключиться.
Существование каталога : убедитесь, что каталог /Users/$(whoami)/VoxNovel существует на вашем Mac. Если нет, создайте его или отрегулируйте путь монтирования громкости в команде Docker по мере необходимости.
Брандмауэр и безопасность : если вы столкнетесь с проблемами подключения, проверьте любые настройки брандмауэра и предпочтения безопасности, которые могут заблокировать соединения.

? Windows Docker

Установите VCXSRV:
```
choco install vcxsrv
```
- Сначала установите VCXSRV и настройте его, чтобы разрешить подключения.
Как настроить vcxsrv
После установки VCXSRV он обычно запускается автоматически. Вы можете подтвердить, что он работает, проверяя свой значок в системном подносе, обычно расположенном рядом с часами на панели задач. Он также может запуститься автоматически при входе в свою систему.
Чтобы убедиться, что он настроен, чтобы разрешить подключения из контейнеров Docker, выполните следующие действия:
1. Щелкните правой кнопкой мыши на значок VCXSRV в системном подносе.
2. Выберите «xlaunch», чтобы открыть мастер конфигурации.
3. В мастере конфигурации выберите «Несколько окон» и перейдите к следующему шагу.
4. Выберите предпочтительные настройки для номера отображения и экрана.
5. В окне «Дополнительные настройки» обязательно установите флажок «Отключить управление доступа», чтобы разрешить подключения из контейнеров Docker.
6. Заполните конфигурацию, нажав «Закончить», а затем «Сохранить конфигурацию», когда будет предложено.
С помощью этих настроек VCXSRV должен работать и настроить, чтобы позволить подключения из контейнеров Docker. Теперь вы можете продолжить выполнение своих команд Docker, требующих поддержки GUI.
Переодеться в свой домашний каталог:
```
 cd $HOME
```

Клонировать репозиторий:

git clone https://github.com/DrewThomasson/VoxNovel.git

Запустите контейнер Docker:

docker run -e DISPLAY=host.docker.internal:0 -v " /Users/ $( whoami ) /VoxNovel:/VoxNovel/ " -it athomasson2/voxnovel:latest

? Linux

Единая команда Ubuntu Install

(Не используйте, если у вас уже установлена Miniconda.)

Чтобы установить Voxnovel на Ubuntu, вы можете использовать следующую единственную команду:

yes | wget -O - https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Ubuntu-install.sh | bash

Настольный ярлык

-Та -сценарий установки выше должен также создать ярлык для приложения.

Опция запуска ручного запуска

Или вы можете вручную запустить приложение в терминале со следующей командой:

 cd ~ /VoxNovel && conda activate VoxNovel && python gui_run.py

или ручная установка:

sudo apt-get install calibre
sudo apt-get install ffmpeg
conda create --name VoxNovel python=3.10
conda activate VoxNovel
git clone https://github.com/DrewThomasson/VoxNovel.git
cd VoxNovel
pip install bs4
pip install styletts2
pip install tts==0.21.3
pip install booknlp==1.0.7.1
pip install -r Ubuntu_requirements.txt
python -m spacy download en_core_web_sm

? Для не латинских языков поддержка TTS (необязательно)

Установите Mecab для (не латинские языки поддержки TTS) (необязательно):

Ubuntu: sudo apt-get install -y mecab libmecab-dev mecab-ipadic-utf8

(Для не латинских языков поддержка TTS) (необязательно)
python -m unidic download

pip install mecab mecab-python3 unidic

? Steam Deck) (x86_64 Arch Linux)

Чтобы установить Voxnovel на паровую палубу, откройте терминал и запустите следующую единственную команду:

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Steam-Deck_VoxNovel-Install.sh )

Теперь у вас должен быть сочетание рабочего стола для Voxnovel в конце этого сценария!

? Intel Mac

Установите на Intel Mac:

Скачать установщик Intel Voxnovel

Или запустите следующую команду в вашем терминале:

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Intel_Mac_Install_VoxNovel.sh )

Как только он будет завершен, у вас должен быть сочетание рабочего стола для Voxnovel.

? Удалить Intel Mac:

Чтобы удалить, запустите следующую команду в вашем терминале:

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/uninstall_VoxNovel_Mac.sh )

(Депрессирован не используйте) Intel Mac Ручной установки

Беги в этом порядке:

brew install calibre
brew install ffmpeg
conda create --name VoxNovel python=3.10
conda activate VoxNovel
git clone https://github.com/DrewThomasson/VoxNovel.git
cd VoxNovel
pip install styletts2
pip install tts==0.21.3
pip install booknlp==1.0.7.1 9. pip install -r MAC-requirements.txt
pip install spacy 11. python -m spacy download en_core_web_sm

? Для не латинских языков поддержка TTS (необязательно)

Установите Mecab для (не латинские языки поддержки TTS) (необязательно):

MacOS: brew install mecab , brew install mecab-ipadic

(Для не латинских языков поддержка TTS) (необязательно)
python -m unidic download

pip install mecab mecab-python3 unidic

? Apple Silicon Mac (протестирован на 2020 M1 Pro 8 ГБ ОЗУ)

Установите на Apple Silicon Mac:

Скачать установщик Apple Silicon Voxnovel.

Или запустите следующую команду в вашем терминале:

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Apple_silicone_VoxNovel_install.sh )

Как только он будет завершен, у вас должен быть сочетание рабочего стола для Voxnovel.

? Удалить яблочный кремний Mac:

Чтобы удалить, запустите следующую команду в вашем терминале:

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/uninstall_VoxNovel_Mac.sh )

(Депрессировано не использовать) Apple Silicon Manual-Unertall

Беги в этом порядке:

brew install calibre (вам, возможно, придется также установить его вручную с их сайта, если это не сработает)
brew install ffmpeg
conda create --name VoxNovel python=3.10
conda activate VoxNovel
git clone https://github.com/DrewThomasson/VoxNovel.git
cd VoxNovel
pip install tensorflow-macos (также необязательный pip install tensorflow-metal , но пока я еще не получил ускорение графического процессора
pip install styletts2
pip install tts==0.21.3
pip install --no-dependencies booknlp==1.0.7.1
pip install transformers==4.30.0
pip install tensorflow
pip install -r MAC-requirements.txt
pip install ebooklib bs4 epub2txt pygame moviepy spacy
python -m spacy download en_core_web_sm

? Для не латинских языков поддержка TTS (необязательно)

Установите Mecab для (не латинские языки поддержки TTS) (необязательно):

MacOS: brew install mecab , brew install mecab-ipadic (для не латинских языков поддержка TTS) (необязательно)
python -m unidic download

pip install mecab mecab-python3 unidic

? Windows 11

Из -за проблем с Windows BookNLP все это будет запущено в WSL (не волнуйтесь, это все еще легко).

? Посмотрите видео по установке здесь

В вашем PowerShell, вставка:
```
wsl --install
```
Чтобы установить WSL. (Вас может быть предложено вашей системой, чтобы включить виртуализацию в вашем BIOS, если она доступна, так как это необходимо для запуска WSL в Windows.)
После установки имени пользователя и пароля откройте WSL и вставьте эту команду для установки одной команды:
```
yes | wget -O - https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Ubuntu-install.sh | bash
```
(Необязательно только для графических карт NVIDA не запускают эту команду, если у вас нет графической карты NVIDIA) Установите инструментарий NVIDIA CUDA (требуется для ускорения GPU NVIDIA):
```
sudo apt install nvidia-cuda-toolkit
```
Убедитесь, что вы находитесь в среде Voxnovel Conda: (если «conda: команда не найдена», то есть не рассматривается как команда, а затем попробуйте закрыть из текущего окна PowerShell и повторно запустить WSL Env с [WSL -D Ubuntu]
```
conda activate VoxNovel
```
Перейдите в папку Voxnovel (если еще не там):
```
 cd ~ && cd VoxNovel
```
Теперь просто запустите одну из двух программ, показанных ниже

Запустить программу

python gui_run.py

Или запустить без головы

python headless_voxnovel.py

Доступ к файлам WSL Ubuntu из Windows

Вы можете получить доступ к вашим файлам WSL Ubuntu непосредственно в Windows File Explorer, введя следующий путь в адресную строку:

 \wsl.localhostUbuntuhome

Файлы вывода аудиокнига будут расположены под VoxNoveloutput_audiobooks в WSL Env

Для создания сочетания рабочего стола Voxnovel Windows

Запустите эту команду в PowerShell

Invoke-Expression (Invoke-WebRequest -Uri " https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Windows-install-scripts/create_desktop_shortcut.ps1 " ).Content

? ️ удаление:

Чтобы удалить все, запустите следующую команду в PowerShell:

wsl --unregister Ubuntu

Это полностью удалит среду Ubuntu, где хранится приложение. ?

Устранение неполадок WSL

Если у вас проблемы с средой WSL:

Перечислите все среды WSL:
```
wsl --list --verbose
```
Удалите определенную среду WSL (например, Ubuntu):
```
wsl --unregister < distro_name >
```
Переустановить WSL:
```
wsl --install
```

Чтобы запустить WSL в любое время, вам нужно запустить эту программу, вы можете использовать строку поиска в Windows, чтобы найти и запустить «WSL» или запустить:

wsl

? Для не латинских языков поддержка TTS (необязательно)

Установите Mecab для (не латинские языки поддержки TTS) (необязательно):

sudo apt-get install -y mecab libmecab-dev mecab-ipadic-utf8

(Для не латинских языков поддержка TTS) (необязательно)
python -m unidic download

pip install mecab mecab-python3 unidic

Запустить программу

python gui_run.py

Или запустить без головы

python headless_voxnovel.py

Бег с низким VRAM (4 ГБ)

Модификации

Оказывается, как только вы установите устройство, оно остается таким для полной программы.
Итак, я разделил программу на две программы Python: один процессор и один графический процессор. Я проверил это на своем (4 ГБ VRAM GPU), и это решение работает. По крайней мере, с моей стороны, я действительно надеюсь, что это сработает с вашей стороны.

Чтобы запустить исправление, которое я сделал адаптированным для ситуации с низким графическим процессором VRAM:

Чтобы запустить предоставленные сценарии в вашей системе, выполните эти шаги в порядке:

Обработка книги (только процессор):
- Скрипт: 1cpu_book_processing.py
- Этот скрипт обрабатывает задачу только обработки книги с помощью BookNLP, в частности, заставляя ее работать на процессоре.
- Запустить с python 1CPU_Book_processing.py
Генерация звука (только графический процессор):
- Скрипт: 2GPU_AUDIO_GENERTION.PY
- Этот скрипт посвящен только генерированию звука с помощью графического процессора и должен быть запущен после завершения обработки книги с помощью 1CPU_Book_processing.py .
- Запустить с python 2GPU_Audio_generation.py

Результаты производительности

После запуска мини -теста с файлом EPUB с использованием вышеуказанной настройки наблюдались следующие показатели производительности:

Результаты производительности

Тестирование на выполненном с помощью файла Mini EPUB, расположенного в exater_working_files.zip

Задача	Конфигурация	Время (секунды)
Обработка книги	Только GPU (GeForce GTX 980), 4 ГБ VRAM, 32 ГБ ОЗУ, Intel I7-8700K	2.922
Аудио генерация	Только GPU (GeForce GTX 980), 4 ГБ VRAM, 32 ГБ ОЗУ, Intel I7-8700K	128.48
Обработка книги	Только процессор, 32 ГБ ОЗУ, Intel I7-8700K	4.964
Аудио генерация	Только процессор, 32 ГБ ОЗУ, Intel I7-8700K	391.4227

Запустить автоматическую программу

Это означает, что все, что вы делаете, это выбираете книгу, и все голоса будут назначены и сгенерированы для вас.

python auto_noGui_run.py

Доступ сгенерированных файлов аудиокниги

Вы можете получить доступ к своим сгенерированным файлам аудиокниги в папке Voxnovel в месте

 VoxNovel/output_audiobooks

Поддерживаемые типы файлов электронных книг:

.epub, .pdf, .mobi, .txt, .html, .rtf, .chm, .lit, .pdb, .fb2, .odt, .cbr, .cbz, .prc, .lrf, .pml, .snb, .cbc, .rb и .tcr,.

(Наилучшие результаты - использование EPUB или MOBI для обнаружения автозатраты)

Папки

Папки, используемые программой

/Final_combined_output_audio: Вот где все ваши аудиофайлы главы будут помещены в порядке главы num

/output_audiobooks: вот где будут храниться все ваши файлы аудиокниги M4B

/Working_files: хранит все рабочие файлы, используемые программой при активальном запуске.

/Working_files/temp_ebook: хранят все отдельные извлеченные файлы главы TXT из электронной книги.

/черепаха: хранит все образцы голосовых файлов

Функции графического интерфейса

GUI, часть 1 (процессор BookNLP)

-Кнопка «Файл процесса»: нажмите, и она попросит вас выбрать файл электронной книги.

GUI, часть 2 (Gui Coqui)

Выберите «Модель TTS».
Включите флажок Fast Voice Models: (быстро генерируйте по цене качества звука) Нажмите на это, чтобы увидеть все остальные модели и единственные голоса, поддерживаемые Coqui TTS.
- Он обновит раскрывающую очередь «Select TTS Model» для моделей голосового клонирования, которые также включают (список добавленных значений).
- Он обновит раскрывающийся список для выбора для каждого символа, чтобы включить также (список добавленных значений).
Сделайте все звуки генерировать флажок «Голосовой флажок Рассказчика»: это сделает сгенерирование звука каждого персонажа с помощью голоса, который вы выбрали для рассказчика, когда вы нажимаете кнопку «Создать аудио».
Клоуна Новая голосовая кнопка: нажмите это, чтобы добавить новый голос, который вы можете клонировать (убедитесь, что у вас есть справочный аудиофайл под рукой).
Добавьте кнопку с тонкой настройкой XTTS в кнопку Voice Actor: Если у вас есть папка, содержащая все параметры тонкой настройки модели XTTS определенного голоса, то вы можете нажать на это, чтобы сделать этот голосовой клон с помощью этой тонкой модели XTTS, чтобы обеспечить гораздо лучшие результаты голосового клонирования.
Выпадающие голоса символов: это выпадающие частицы для выбора голосового актера (и акцент каждого символа при использовании XTTS).
- (1): Голосовые актеры, доступные для выбора для этого персонажа. (Значение по умолчанию выбирается на аудио на основе предполагаемого пола символа: «F, M, другие»).
  - Когда вы выберете голос, он будет воспроизводить аудио -образец этого голоса, если это быстрый голос голоса, а звук Refrence не существует, тогда он будет генерировать один для игры.
- (2): акценты, доступные для выбора для этого символа. (Необязательно, по умолчанию английский).
Глава поля разделителя: изменит разделитель главы по умолчанию (строка, которая используется для идентификации глав).
Продолжительность молчания в поле миллисекунды (MS): это изменит количество миллисекунд между каждым комбинированным куском аудио.
Выберите выпадающий язык TTS.
Загрузочная полоса: даст приблизительное количество времени осталось. (Оцените, вы, вероятно, не увидите точных прогнозов, пока они не будут работать в течение 5 минут).
Аннотированный блок предварительного просмотра книги: он покажет всю книгу с цветовой кодировкой каждого персонажа.
- Вы можете нажать на линию, пока создается аудиокнига, чтобы услышать, как звучит эта сгенерированная линия. Но только если линия уже сгенерировала для нее звук; Если нет, это ничего не будет играть.
Кнопка «Загрузить книгу»: Нажатие на это будет перезагрузить аннотированный вид книги с цветовой кодировкой, она просто рандомизирует выбранные цвета для линий каждого персонажа.
Сгенерировать аудио кнопку: начнет генерировать полную аудиокнигу.
Выберите кнопку «Случайные голоса» (будет виден только в том случае, если проверен флажок «Включить быстрые голосовые модели»): выберет голос быстрого модели с автоматическим информированием для каждого персонажа, за исключением голоса рассказчика.

GUI, часть 3 (зритель книги)

-Трудно объяснить, что это больше игровая площадка, если вы связываетесь с ней, тогда вы должны получить, как она работает. Но его можно использовать для точной настройки аудиокниги -из окна, когда вы закончите с ним.

? Функции

Входящие запланированные функции

Сделайте так, чтобы все включенные голоса и модели уже имеют свои готовые демонстрационные голоса
Сделайте так, чтобы демо -аудио для клонированных голосов - это не их эталонный звук, а то, как звучат их голоса.
Использование транскрипций Whisper для вырезания галлюцинаций из генерируемого звука
Включение локальной модели для создания звуковых эффектов, когда книга отличает местоположение или звуковой эффект
Добавление функции сохранения файла

Особая благодарность:

-@Sidharthrajaram (для его установки Styletts2 Pip, которую он создал, я не мог добавить Styletts2 без него. :)) (https://github.com/sidharthrajaram/styletts2)

Расширять

Дополнительная информация

Версия vel: 1.5
Тип Другой исходный код
Время обновления 2025-03-08
размер 70.96MB
От Github

Связанные приложения

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22