Voxnovel

? Descripción general
Voxnovel es un programa innovador que aprovecha las capacidades de BookNlp para analizar la literatura, atribuir citas a personajes específicos y generar un audiolibro a medida donde cada personaje tiene una voz distinta a través de Coqui TTS. Esto no solo proporciona una experiencia de audiolibro inmersiva, sino que también da vida a cada personaje con una voz única, lo que hace que la experiencia auditiva sea mucho más atractiva.
Incluidos modelos TTS
Todos los modelos Coqui TTS- (Tacotron, Tacotron2, Glow-TTS, Speedy-discal, Align-TTS, FastPitch, FastSpeech, FastSpeech2, SC-Glowtts, Capacitron, Overflow, Neural HMM TTS, delicioso TTS, ⓧTTS, Vits, Vits,?
?? ️ Acentos, puede dar a cada personaje el modelo de clonación predeterminado (XTTS)
- También les permiten hablar estos idiomas, pero la atribución de cotización no se identificará correctamente para cualquier cosa que no sea inglés. Inglés (en), español (ES), francés (FR), alemán (DE), italiano (IT), portugués (PT), polaco (PL), turco (TR), ruso (Ru), holandés (NL), checo (CS), árabe (AR), chino (ZH-CN), japonés (japonés), húngaro (HU), coreano (ko) Salidas como un M4B con todos los metadatos y capítulos del libro, ejemplo de archivo de salida en una aplicación de reproductor de audiolibro

(así como una carpeta de archivos de chatper MP4 individuales con una imagen de libro electrónico integrado en ellos si lo desea)
? POBLACIÓN
Demostraciones XTTS V2 de alta calidad
Guardians_of_ga.hoole_10._lasky._kathryn _-_ Coming_of_hoole_chapter_4.mp4
? Más archivos de audio de demostración :)
Demostraciones de tortuga de alta calidad
2724639996-c4f8dfdf-c5bd-4771-AB1A-6131C22A67B2.MP4
Demos de Balacoon de audio super rápido
271878548-53B694A9-5DDD-4174-82BC-07AFF22D2330.MP4
271876316-530E8781-C77C-4424-89CD-A02DF363B0BF.MP4
** Prueba de súper alta calidad con modelos ajustados **
Audio_5811.mp4
Puede ajustar sus propios modelos XTTS con alrededor de más de 6 minutos de audio de forma gratuita con este colab. https://colab.research.google.com/drive/1gii4_x724m8q2w-zz-jxo7cwtv7rfah--
EDITAR: Ese Colab ya no funciona: use mi versión que proporcione una solución: https://colab.research.google.com/drive/1sqqqzupo2pdjgggkrbm60su6sbfyo3su?usp=sharing
? Voxnovel sin cabeza Google Colab
¡Explore y ejecute la versión interactiva del proyecto Voxnovel sin cabeza directamente en Google Colab! Empiece aquí.
Guía

GUI Parte 1 (procesador BookNlp) Información/características
-Botón "Archivo de proceso": haga clic y le pedirá que seleccione un archivo de libro electrónico. 
Herramienta de corrección de asignación de altavoces manuales (GUI 1.5)
Esta GUI es para la corrección manual de las asignaciones de oradores si BookNlp asigna incorrectamente las cotizaciones. Lee el archivo book.csv que contiene los libros extraídos de citas e información del altavoz, y le permite inspeccionar y modificar visualmente las asignaciones de altavoces según sea necesario antes de pasar al siguiente paso TTS.
Características clave:
- Pantalla de texto desplazable: permite a los usuarios ver el texto del libro con asignaciones de altavoces codificadas por colores.
- Selección de altavoces: los usuarios pueden seleccionar un nuevo altavoz desde un menú desplegable para reasignar líneas específicas.
- Citas de verificación: las líneas del libro se muestran con casillas de verificación, lo que permite la selección de múltiples líneas para la reasignación del altavoz.
- Codificación de color del altavoz: a cada altavoz se le asigna un color único para una fácil identificación.
- Botones para la acción:
- Actualizar altavoces seleccionados: aplique el altavoz seleccionado a todas las líneas verificadas.
- Deseleccionar todo: desmarque todas las líneas seleccionadas.
- Continuar: guarde los cambios y salga de la herramienta.
Cómo usar:
- Seleccione líneas: marque las casillas junto a las líneas que desea cambiar.
- Elija el altavoz: seleccione el altavoz deseado en el menú desplegable.
- Aplicar cambios: haga clic en "Actualizar los altavoces seleccionados" para aplicar los cambios.
- Revisión: El texto se actualizará para reflejar los cambios.
- Deselección: haga clic en "deseleccionar todo" para borrar sus selecciones.
- Finalizar: una vez satisfecho con las correcciones, haga clic en "Continuar" para guardar y salir.

GUI Parte 2 (Coqui TTS GUI) Información/Características
- Seleccione el desplegable del modelo TTS: esto selecciona el modelo TTS que se utilizará para la clonación de voz.
- Incluya la casilla de verificación de modelos de voz rápida: (Genere rápido al costo de la calidad de audio) Haga clic en esto para poder ver cualquier otro modelo y voces singulares compatibles con Coqui TTS.
- Actualizará el menú desplegable "Seleccionar modelo TTS" para que los modelos de clonación de voz también incluyan (lista de valores que se agregarán).
- Actualizará el menú desplegable para que las voces seleccionen para cada personaje para incluir también (lista de valores que se agregarán).
- Haga que todo el audio genere con la casilla de verificación de voz del narrador: esto hará que el audio de cada personaje se genere con la voz que ha seleccionado para el narrador cuando hace clic en el botón "Generar audio".
- Botón de voz nueva Clon: haga clic en esto para agregar una nueva voz que puede clon (asegúrese de tener un archivo de audio de referencia a mano).
- Agregue el modelo XTTS ajustado al botón del actor de voz: si tiene una carpeta que contiene todos los parámetros de un modelo XTTS ajustado de una voz específica, entonces puede hacer clic en esto para hacer que ese actor de voz clone con ese modelo XTTS ajustado, para proporcionar resultados de clonación de voz mucho mejores.
- Desenviamientos de voces de caracteres: estos son los menores para seleccionar el actor de voz (y el acento de cada personaje si usa XTTS).
- (1): Los actores de voz disponibles para seleccionar para este personaje. (El valor predeterminado es audio seleccionado en función del género inferido del carácter: "F, M, otro").
- Cuando selecciona una voz, reproducirá la muestra de audio de esa voz, si se trata de una voz de modelo de voz rápida y no existe un audio de refencia, entonces generará uno para reproducir.
- (2): Los acentos disponibles para seleccionar para este personaje. (Opcional, predeterminado es inglés).
- Campo delimitador del capítulo: cambiará el delimitador del capítulo predeterminado (la cadena que se usa para identificar capítulos).
- Duración de silencio en el campo de milisegundos (MS): esto cambiará la cantidad de milisegundos entre cada parte combinada de audio.
- Seleccione el desplegable del lenguaje TTS: esto le permitirá seleccionar el acento predeterminado utilizado para cada personaje que no ha tenido el acento seleccionado manualmente.
- Barra de carga: dará una cantidad aproximada de tiempo restante. (Estima, probablemente no verá predicciones precisas hasta que se haya ejecutado durante 5 minutos).
- Bloque de vista previa del libro anotado: esto mostrará la totalidad del libro con las líneas de cada personaje codificadas por colores.
- Puede hacer clic en una línea mientras se genera el audiolibro para escuchar cómo suena esa línea generada. Pero solo si la línea ya ha generado audio; Si no, no jugará nada.
- Botón de carga del libro: haciendo clic en esto recargará la vista del libro anotada codificada por colores, simplemente aleatorizará los colores seleccionados para las líneas de cada personaje.
- Genere el botón de audio: comenzará a generar el audiolibro completo.
- Seleccione el botón de voces aleatorias (solo será visible si se verifica la casilla de verificación "Incluir modelos de voz rápida"): seleccionará una voz de modelo rápida con influencia automática de género automático para cada personaje, excepto la voz del narrador.

GUI Parte 3 (Visor de libros) Información/Características
-Este es difícil explicar que es más un patio de recreo si te metes con él, entonces debes obtener cómo funciona. Pero se puede usar para ajustar el audiolibro, cerca de la ventana cuando haya terminado. ? Instalación de configuración
? Voxnovel sin cabeza Google Colab
¡Explore y ejecute la versión interactiva del proyecto Voxnovel sin cabeza directamente en Google Colab! Empiece aquí.
? Docker (el sonido aún no funciona en la GUI)
? Docker sin cabeza
Docker sin cabeza M1? Mac
cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:headless_m1_v2
¿Docker sin cabeza? Linux/Intel? Mac
Para Docker sin cabeza en solo CPU
cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest_headless
Para Docker sin cabeza con GPU Speedup si tiene una GPU NVIDA
cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run --gpus all -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest_headless
Windows sin cabeza
Instalación y configuración en Windows (PowerShell)
Siga estos pasos para configurar el proyecto Voxnovel en un sistema de Windows usando PowerShell:
Navegue a su directorio de perfil de usuario:
Clon El repositorio de Voxnovel de GitHub:
git clone https: // github.com / DrewThomasson / VoxNovel.git
Ejecutando voxnovel en Docker
Para la operación sin cabeza en la CPU
Para ejecutar la aplicación Voxnovel en un contenedor Docker en su CPU:
docker run - v " ${ env: USERPROFILE} /VoxNovel/:/VoxNovel/ " - it athomasson2 / voxnovel:latest_headlessPara operación sin cabeza con Speedup de GPU NVIDIA
Si tiene una GPU NVIDIA y desea acelerar el procesamiento, use el siguiente comando:
docker run -- gpus all - v " ${ env: USERPROFILE} /VoxNovel/:/VoxNovel/ " - it athomasson2 / voxnovel:latest_headless ? GUI Docker (el sonido aún no funciona en GUI)
? Docker de Linux
1. `CD ~`-
git clone https://github.com/DrewThomasson/VoxNovel.git -
sudo docker run --gpus all -e DISPLAY=$DISPLAY -v /tmp/.X11-unix:/tmp/.X11-unix -v /dev/snd:/dev/snd --device /dev/snd -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest
? Mac Docker
Configuración de aplicaciones GUI con Docker en MacOS
Esta guía proporciona instrucciones sobre cómo ejecutar un contenedor Docker con una interfaz gráfica de usuario en macOS que usa Xquartz para el reenvío X11 y el montaje de volumen.
Instalar xquartz
- Descargue e instale Xquartz desde el sitio web de Xquartz.
- Abra Xquartz.
- Vaya a
XQuartz -> Preferences . - En la pestaña
Security , habilite Permitir conexiones de clientes de red . - Reinicie Xquartz para aplicar estas configuraciones.
Configurar y ejecutar el contenedor Docker
Permitir que Docker se conecte a Xquartz
Abra un terminal y ejecute el siguiente comando para permitir las conexiones desde su máquina local a Xquartz:
xhost + $(ifconfig en0 | grep inet | awk '$1=="inet" {print $2}')
Inicie el contenedor Docker
Ejecute el siguiente comando para iniciar su contenedor Docker. Este comando configura la GUI para mostrar en su host y monta los directorios necesarios:
cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
docker run -e DISPLAY=$(ifconfig en0 | grep inet | awk '$1=="inet" {print $2}'):0
-v /tmp/.X11-unix:/tmp/.X11-unix
-v "/Users/$(whoami)/VoxNovel:/VoxNovel"
athomasson2/voxnovel:latest
Notas
- Configuración de Xquartz : asegúrese de que Xquartz esté configurado para permitir a los clientes de red antes de intentar conectarse.
- Existencia del directorio : Verifique que el Directorio
/Users/$(whoami)/VoxNovel exista en su Mac. De lo contrario, cree o ajuste la ruta de montaje de volumen en el comando Docker según sea necesario. - Firewall y seguridad : si enfrenta problemas de conectividad, verifique cualquier configuración de firewall y preferencias de seguridad que puedan bloquear las conexiones.
? Windows Docker
Instalar VCXSRV:
- Primero instale VCXSRV y configúrelo para permitir conexiones.
Cómo configurar VCXSRV
Después de instalar VCXSRV, generalmente se inicia automáticamente. Puede confirmar que se está ejecutando revisando su ícono en la bandeja del sistema, generalmente ubicado cerca del reloj en la barra de tareas. También puede comenzar automáticamente cuando inicia sesión en su sistema.
Para asegurarse de que esté configurado para permitir conexiones desde Docker Containers, siga estos pasos:
- Haga clic derecho en el icono VCXSRV en la bandeja del sistema.
- Seleccione "XLAUNCH" para abrir el asistente de configuración.
- En el asistente de configuración, seleccione "Múltiples Windows" y continúe con el siguiente paso.
- Elija su configuración preferida para el número de visualización y la pantalla.
- En la ventana "Configuración adicional", asegúrese de verificar la casilla etiquetada "Desactivar el control de acceso" para permitir las conexiones desde los contenedores Docker.
- Complete la configuración haciendo clic en "Finalizar" y luego "Guardar la configuración" cuando se le solicite.
Con estas configuraciones, VCXSRV debe ejecutarse y configurarse para permitir conexiones desde Docker Containers. Ahora puede continuar con la ejecución de sus comandos Docker que requieren soporte de GUI.
Cambie a su directorio de inicio:
Clon el repositorio:
git clone https://github.com/DrewThomasson/VoxNovel.git
Ejecute el contenedor Docker:
docker run -e DISPLAY=host.docker.internal:0 -v " /Users/ $( whoami ) /VoxNovel:/VoxNovel/ " -it athomasson2/voxnovel:latest
? Linux
Instalación de Ubuntu de comando único
(No lo use si ya tiene Miniconda instalada).
Para instalar Voxnovel en Ubuntu, puede usar el siguiente comando único:
yes | wget -O - https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Ubuntu-install.sh | bash
Atajo de escritorio
-Ese script de instalación simple anterior también debe crear un acceso directo para la aplicación.
Opción de lanzamiento manual
O puede iniciar manualmente la aplicación en el terminal con el siguiente comando:
cd ~ /VoxNovel && conda activate VoxNovel && python gui_run.py
o instalación manual:
-
sudo apt-get install calibre -
sudo apt-get install ffmpeg -
conda create --name VoxNovel python=3.10 -
conda activate VoxNovel -
git clone https://github.com/DrewThomasson/VoxNovel.git -
cd VoxNovel -
pip install bs4 -
pip install styletts2 -
pip install tts==0.21.3 -
pip install booknlp==1.0.7.1 -
pip install -r Ubuntu_requirements.txt -
python -m spacy download en_core_web_sm
? Para idiomas no basados en latín, soporte TTS (opcional)
Instale MECAB para (soporte TTS de idiomas no latinos) (opcional):
- Ubuntu:
sudo apt-get install -y mecab libmecab-dev mecab-ipadic-utf8
(Para idiomas no basados en latín soporte TTS) (opcional)
python -m unidic download
pip install mecab mecab-python3 unidic
? Cubierta de vapor) (x86_64 Arch Linux)
Para instalar Voxnovel en su cubierta de vapor, abra un terminal y ejecute el siguiente comando único:
bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Steam-Deck_VoxNovel-Install.sh )
- ¡Ahora debería tener un atajo de escritorio para Voxnovel al final de este guión!
? Intel Mac
Instalar en Intel Mac:
Descargar Intel Voxnovel Installer
O ejecute el siguiente comando en su terminal:
bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Intel_Mac_Install_VoxNovel.sh )
Una vez que esté completo, debe tener un atajo de escritorio para Voxnovel.
? Desinstalar en Intel Mac:
Para desinstalar, ejecute el siguiente comando en su terminal:
bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/uninstall_VoxNovel_Mac.sh )
(Deprimido no lo use) Intel Mac Manual-Install
Ejecutar en este orden:-
brew install calibre -
brew install ffmpeg -
conda create --name VoxNovel python=3.10 -
conda activate VoxNovel -
git clone https://github.com/DrewThomasson/VoxNovel.git -
cd VoxNovel -
pip install styletts2 -
pip install tts==0.21.3 -
pip install booknlp==1.0.7.1 9. pip install -r MAC-requirements.txt -
pip install spacy 11. python -m spacy download en_core_web_sm
? Para idiomas no basados en latín, soporte TTS (opcional)
Instale MECAB para (soporte TTS de idiomas no latinos) (opcional):
- MacOS:
brew install mecab , brew install mecab-ipadic
(Para idiomas no basados en latín soporte TTS) (opcional)
python -m unidic download
pip install mecab mecab-python3 unidic
? Apple Silicon Mac (probado en 2020 M1 Pro 8GB RAM)
Instalar en Apple Silicon Mac:
Descargar Apple Silicon Voxnovel Installer
O ejecute el siguiente comando en su terminal:
bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Apple_silicone_VoxNovel_install.sh )
Una vez que esté completo, debe tener un atajo de escritorio para Voxnovel.
? Desinstalar en Apple Silicon Mac:
Para desinstalar, ejecute el siguiente comando en su terminal:
bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/uninstall_VoxNovel_Mac.sh )
(Deprimido no lo use) Manual de silicio de manzana
Ejecutar en este orden:
-
brew install calibre (es posible que también tenga que instalarlo manualmente desde su sitio si esto no funciona) -
brew install ffmpeg -
conda create --name VoxNovel python=3.10 -
conda activate VoxNovel -
git clone https://github.com/DrewThomasson/VoxNovel.git -
cd VoxNovel -
pip install tensorflow-macos (también opcional pip install tensorflow-metal , pero hasta ahora aún no he obtenido la aceleración de la GPU -
pip install styletts2 -
pip install tts==0.21.3 -
pip install --no-dependencies booknlp==1.0.7.1 -
pip install transformers==4.30.0 -
pip install tensorflow -
pip install -r MAC-requirements.txt -
pip install ebooklib bs4 epub2txt pygame moviepy spacy -
python -m spacy download en_core_web_sm
? Para idiomas no basados en latín, soporte TTS (opcional)
Instale MECAB para (soporte TTS de idiomas no latinos) (opcional):
- MacOS:
brew install mecab , brew install mecab-ipadic (para idiomas no basados en latín soporte TTS) (opcional)
python -m unidic download
pip install mecab mecab-python3 unidic
? Windows 11
Debido a los problemas de BookNlp Windows, todo esto se ejecutará en WSL (no se preocupe, todavía es fácil).
? Mira el video de instalación aquí
En tu PowerShell, pase:
para instalar WSL. (Su sistema le solicitará que habilite la virtualización en su BIOS si está disponible, ya que es necesario ejecutar WSL en Windows).
Después de configurar su nombre de usuario y contraseña, abra WSL y pegue este comando para un solo comando Instalar:
yes | wget -O - https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Ubuntu-install.sh | bash
(Opcional solo para las tarjetas gráficas NVIDA no ejecutan este comando si no tiene una tarjeta gráfica NVIDIA) Instale el kit de herramientas NVIDIA CUDA (requerido para la aceleración de la GPU de NVIDIA):
sudo apt install nvidia-cuda-toolkit
Asegúrese de estar en el entorno Voxnovel Conda: (si 'conda: comando no encontrado' es decir, conda no se ve como un comando, luego intente cerrar la ventana actual de PowerShell y relanzar el wsl env con [wsl -d ubuntu]
Navegue a la carpeta Voxnovel (si no está allí):
Ahora solo ejecute uno de los dos programas que se muestran a continuación
Para ejecutar el programa
O para correr sin cabeza
python headless_voxnovel.py
Acceda a los archivos WSL Ubuntu desde Windows
Puede acceder a sus archivos WSL Ubuntu directamente en el Explorador de archivos de Windows ingresando la siguiente ruta en la barra de direcciones:
Los archivos de audiolibro de salida se ubicarán en VoxNoveloutput_audiobooks en WSL ENV
Para crear un atajo de escritorio de Voxnovel Windows
Ejecute este comando en PowerShell
Invoke-Expression (Invoke-WebRequest -Uri " https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Windows-install-scripts/create_desktop_shortcut.ps1 " ).Content
? ️ Desinstalación:
Para eliminar todo, ejecute el siguiente comando en PowerShell:
Esto eliminará completamente el entorno Ubuntu donde se almacena la aplicación. ?
Solución de problemas WSL
Si tiene problemas con el entorno WSL:
Lista de todos los entornos WSL:
Eliminar un entorno WSL específico (por ejemplo, Ubuntu):
wsl --unregister < distro_name >
Reinstalar WSL:
Para iniciar WSL en cualquier momento que necesite ejecutar este programa, puede usar la barra de búsqueda en Windows para encontrar y iniciar "WSL" o ejecutar:
? Para idiomas no basados en latín, soporte TTS (opcional)
Instale MECAB para (soporte TTS de idiomas no latinos) (opcional):
-
sudo apt-get install -y mecab libmecab-dev mecab-ipadic-utf8
(Para idiomas no basados en latín soporte TTS) (opcional)
python -m unidic download
pip install mecab mecab-python3 unidic
Para ejecutar el programa
O para correr sin cabeza
python headless_voxnovel.py
Corriendo con bajo VRAM (4 GB)
Modificaciones
- Resulta que una vez que configura el dispositivo, permanece así para el programa completo.
- Entonces, he dividido el programa en dos programas de Python: una CPU y una GPU. He probado esto en mi (GPU VRAM 4GB) y esta solución funciona. Al menos de mi parte, realmente espero que funcione de tu parte.
Para ejecutar la solución, hice a medida para una situación de GPU VRAM baja:
Para ejecutar los scripts proporcionados en su sistema, siga estos pasos para:
Procesamiento de libros (solo CPU):
- Script: 1CPU_Book_processing.py
- Este script maneja la tarea de procesar solo el libro usando BookNlp, forzándolo específicamente a ejecutarse en la CPU.
- Ejecutar con
python 1CPU_Book_processing.py
Generación de audio (solo GPU):
- Script: 2GPU_audio_Generation.py
- Este script se dedica solo a generar audio con la GPU y debe ejecutarse después de completar el procesamiento del libro con
1CPU_Book_processing.py . - Ejecutar con
python 2GPU_Audio_generation.py
Resultados de rendimiento
Al ejecutar una mini prueba con un archivo EPUB utilizando la configuración anterior, se observaron las siguientes métricas de rendimiento:
Resultados de rendimiento
Prueba realizada con el archivo Mini Epub ubicado en el ejemplo_working_files.zip
| Tarea | Configuración | Tiempo (segundos) |
|---|
| Procesamiento de libros | Solo GPU (GeForce GTX 980), 4GB VRAM, 32GB RAM, Intel i7-8700K | 2.922 |
| Generación de audio | Solo GPU (GeForce GTX 980), 4GB VRAM, 32GB RAM, Intel i7-8700K | 128.48 |
| Procesamiento de libros | Solo CPU, 32GB RAM, Intel i7-8700K | 4.964 |
| Generación de audio | Solo CPU, 32GB RAM, Intel i7-8700K | 391.4227 |
Para ejecutar el programa automático
Esto significa que todo lo que hace es seleccionar el libro y todas las voces serán asignadas y generadas automáticamente para usted. python auto_noGui_run.py
Acceso a archivos de audiolibro generados
Puede acceder a sus archivos de audiolibro generados en la carpeta Voxnovel en la ubicación
VoxNovel/output_audiobooks
Tipos de archivos de libro electrónico compatible:
.Epub, .pdf, .mobi, .txt, .txt, .html, .rtf, .chm, .lit, .pdb, .fb2, .odt, .cbr, .cbz, .prc, .lrf, .pml, .Snb, .cbbc, .rb, y .Tcr,
- (Los mejores resultados son de usar EPUB o MOBI para la detección de capítulos automáticos)
Carpetas
Carpetas utilizadas por el programa
/Final_combined_output_audio: aquí es donde se pondrán todos los archivos de audio de su capítulo en orden del Capítulo Num
/output_audiobooks: aquí es donde se almacenarán todos sus archivos de audiolibro M4B
/Working_files: contiene todos los archivos de trabajo utilizados por el programa mientras se ejecuta activamente.
- /Working_Files/Temp_EBook: contiene todos los archivos TXT del capítulo extraído individual del libro electrónico.
/Tortoise: contiene todos los archivos de voz de muestra
Funciones de GUI
GUI Parte 1 (procesador BookNlp)
-Botón "Archivo de proceso": haga clic y le pedirá que seleccione un archivo de libro electrónico. GUI Parte 2 (Coqui TTS GUI)
- Seleccione el desplegable del modelo TTS: esto selecciona el modelo TTS que se utilizará para la clonación de voz.
- Incluya la casilla de verificación de modelos de voz rápida: (Genere rápido al costo de la calidad de audio) Haga clic en esto para poder ver cualquier otro modelo y voces singulares compatibles con Coqui TTS.
- Actualizará el menú desplegable "Seleccionar modelo TTS" para que los modelos de clonación de voz también incluyan (lista de valores que se agregarán).
- Actualizará el menú desplegable para que las voces seleccionen para cada personaje para incluir también (lista de valores que se agregarán).
- Haga que todo el audio genere con la casilla de verificación de voz del narrador: esto hará que el audio de cada personaje se genere con la voz que ha seleccionado para el narrador cuando hace clic en el botón "Generar audio".
- Botón de voz nueva Clon: haga clic en esto para agregar una nueva voz que puede clon (asegúrese de tener un archivo de audio de referencia a mano).
- Agregue el modelo XTTS ajustado al botón del actor de voz: si tiene una carpeta que contiene todos los parámetros de un modelo XTTS ajustado de una voz específica, entonces puede hacer clic en esto para hacer que ese actor de voz clone con ese modelo XTTS ajustado, para proporcionar resultados de clonación de voz mucho mejores.
- Desenviamientos de voces de caracteres: estos son los menores para seleccionar el actor de voz (y el acento de cada personaje si usa XTTS).
- (1): Los actores de voz disponibles para seleccionar para este personaje. (El valor predeterminado es audio seleccionado en función del género inferido del carácter: "F, M, otro").
- Cuando selecciona una voz, reproducirá la muestra de audio de esa voz, si se trata de una voz de modelo de voz rápida y no existe un audio de refencia, entonces generará uno para reproducir.
- (2): Los acentos disponibles para seleccionar para este personaje. (Opcional, predeterminado es inglés).
- Campo delimitador del capítulo: cambiará el delimitador del capítulo predeterminado (la cadena que se usa para identificar capítulos).
- Duración de silencio en el campo de milisegundos (MS): esto cambiará la cantidad de milisegundos entre cada parte combinada de audio.
- Seleccione el desplegable del lenguaje TTS: esto le permitirá seleccionar el acento predeterminado utilizado para cada personaje que no ha tenido el acento seleccionado manualmente.
- Barra de carga: dará una cantidad aproximada de tiempo restante. (Estima, probablemente no verá predicciones precisas hasta que se haya ejecutado durante 5 minutos).
- Bloque de vista previa del libro anotado: esto mostrará la totalidad del libro con las líneas de cada personaje codificadas por colores.
- Puede hacer clic en una línea mientras se genera el audiolibro para escuchar cómo suena esa línea generada. Pero solo si la línea ya ha generado audio; Si no, no jugará nada.
- Botón de carga del libro: haciendo clic en esto recargará la vista del libro anotada codificada por colores, simplemente aleatorizará los colores seleccionados para las líneas de cada personaje.
- Genere el botón de audio: comenzará a generar el audiolibro completo.
- Seleccione el botón de voces aleatorias (solo será visible si se verifica la casilla de verificación "Incluir modelos de voz rápida"): seleccionará una voz de modelo rápida con influencia automática de género automático para cada personaje, excepto la voz del narrador.
GUI Parte 3 (Visor de libros)
-Este es difícil explicar que es más un patio de recreo si te metes con él, entonces debes obtener cómo funciona. Pero se puede usar para ajustar el audiolibro, cerca de la ventana cuando haya terminado. ? Características
Características planificadas entrantes
Un agradecimiento especial a:
-@Sidharthrajaram (para su instalación de Pip Styletts2 que creó, no pude agregar a Styletts2 sin él. :)) (https://github.com/sidharthrajaram/styletts2)