Descarga de VoxNovel - Descargar el código fuente VoxNovel

VoxNovel

Otro código fuente

vel: 1.5

Descargar

Voxnovel

Voxnovel_logo

? Descripción general

Voxnovel es un programa innovador que aprovecha las capacidades de BookNlp para analizar la literatura, atribuir citas a personajes específicos y generar un audiolibro a medida donde cada personaje tiene una voz distinta a través de Coqui TTS. Esto no solo proporciona una experiencia de audiolibro inmersiva, sino que también da vida a cada personaje con una voz única, lo que hace que la experiencia auditiva sea mucho más atractiva.

Incluidos modelos TTS

Todos los modelos Coqui TTS- (Tacotron, Tacotron2, Glow-TTS, Speedy-discal, Align-TTS, FastPitch, FastSpeech, FastSpeech2, SC-Glowtts, Capacitron, Overflow, Neural HMM TTS, delicioso TTS, ⓧTTS, Vits, Vits,?

?? ️ Acentos, puede dar a cada personaje el modelo de clonación predeterminado (XTTS)

- También les permiten hablar estos idiomas, pero la atribución de cotización no se identificará correctamente para cualquier cosa que no sea inglés. Inglés (en), español (ES), francés (FR), alemán (DE), italiano (IT), portugués (PT), polaco (PL), turco (TR), ruso (Ru), holandés (NL), checo (CS), árabe (AR), chino (ZH-CN), japonés (japonés), húngaro (HU), coreano (ko)

Salidas como un M4B con todos los metadatos y capítulos del libro, ejemplo de archivo de salida en una aplicación de reproductor de audiolibro

Ejemplo_of_output_in_audiobook_program

(así como una carpeta de archivos de chatper MP4 individuales con una imagen de libro electrónico integrado en ellos si lo desea)

? POBLACIÓN

Demostraciones XTTS V2 de alta calidad

Guardians_of_ga.hoole_10._lasky._kathryn _-_ Coming_of_hoole_chapter_4.mp4

? Más archivos de audio de demostración :)

Demostraciones de tortuga de alta calidad

2724639996-c4f8dfdf-c5bd-4771-AB1A-6131C22A67B2.MP4

Demos de Balacoon de audio super rápido

271878548-53B694A9-5DDD-4174-82BC-07AFF22D2330.MP4

271876316-530E8781-C77C-4424-89CD-A02DF363B0BF.MP4

** Prueba de súper alta calidad con modelos ajustados **

Audio_5811.mp4

Puede ajustar sus propios modelos XTTS con alrededor de más de 6 minutos de audio de forma gratuita con este colab. ~~https://colab.research.google.com/drive/1gii4_x724m8q2w-zz-jxo7cwtv7rfah--~~

EDITAR: Ese Colab ya no funciona: use mi versión que proporcione una solución: https://colab.research.google.com/drive/1sqqqzupo2pdjgggkrbm60su6sbfyo3su?usp=sharing

? Voxnovel sin cabeza Google Colab

¡Explore y ejecute la versión interactiva del proyecto Voxnovel sin cabeza directamente en Google Colab! Empiece aquí.

Guía

GUI_1_SELECT_FILE

GUI Parte 1 (procesador BookNlp) Información/características

-Botón "Archivo de proceso": haga clic y le pedirá que seleccione un archivo de libro electrónico.

GUI_2_FINETUNE

Herramienta de corrección de asignación de altavoces manuales (GUI 1.5)

Esta GUI es para la corrección manual de las asignaciones de oradores si BookNlp asigna incorrectamente las cotizaciones. Lee el archivo book.csv que contiene los libros extraídos de citas e información del altavoz, y le permite inspeccionar y modificar visualmente las asignaciones de altavoces según sea necesario antes de pasar al siguiente paso TTS.

Características clave:

Pantalla de texto desplazable: permite a los usuarios ver el texto del libro con asignaciones de altavoces codificadas por colores.
Selección de altavoces: los usuarios pueden seleccionar un nuevo altavoz desde un menú desplegable para reasignar líneas específicas.
Citas de verificación: las líneas del libro se muestran con casillas de verificación, lo que permite la selección de múltiples líneas para la reasignación del altavoz.
Codificación de color del altavoz: a cada altavoz se le asigna un color único para una fácil identificación.
Botones para la acción:
- Actualizar altavoces seleccionados: aplique el altavoz seleccionado a todas las líneas verificadas.
- Deseleccionar todo: desmarque todas las líneas seleccionadas.
- Continuar: guarde los cambios y salga de la herramienta.

Cómo usar:

Seleccione líneas: marque las casillas junto a las líneas que desea cambiar.
Elija el altavoz: seleccione el altavoz deseado en el menú desplegable.
Aplicar cambios: haga clic en "Actualizar los altavoces seleccionados" para aplicar los cambios.
Revisión: El texto se actualizará para reflejar los cambios.
Deselección: haga clic en "deseleccionar todo" para borrar sus selecciones.
Finalizar: una vez satisfecho con las correcciones, haga clic en "Continuar" para guardar y salir.

GUI_2_FINETUNE

GUI Parte 2 (Coqui TTS GUI) Información/Características

Seleccione el desplegable del modelo TTS: esto selecciona el modelo TTS que se utilizará para la clonación de voz.
Incluya la casilla de verificación de modelos de voz rápida: (Genere rápido al costo de la calidad de audio) Haga clic en esto para poder ver cualquier otro modelo y voces singulares compatibles con Coqui TTS.
- Actualizará el menú desplegable "Seleccionar modelo TTS" para que los modelos de clonación de voz también incluyan (lista de valores que se agregarán).
- Actualizará el menú desplegable para que las voces seleccionen para cada personaje para incluir también (lista de valores que se agregarán).
Haga que todo el audio genere con la casilla de verificación de voz del narrador: esto hará que el audio de cada personaje se genere con la voz que ha seleccionado para el narrador cuando hace clic en el botón "Generar audio".
Botón de voz nueva Clon: haga clic en esto para agregar una nueva voz que puede clon (asegúrese de tener un archivo de audio de referencia a mano).
Agregue el modelo XTTS ajustado al botón del actor de voz: si tiene una carpeta que contiene todos los parámetros de un modelo XTTS ajustado de una voz específica, entonces puede hacer clic en esto para hacer que ese actor de voz clone con ese modelo XTTS ajustado, para proporcionar resultados de clonación de voz mucho mejores.
Desenviamientos de voces de caracteres: estos son los menores para seleccionar el actor de voz (y el acento de cada personaje si usa XTTS).
- (1): Los actores de voz disponibles para seleccionar para este personaje. (El valor predeterminado es audio seleccionado en función del género inferido del carácter: "F, M, otro").
  - Cuando selecciona una voz, reproducirá la muestra de audio de esa voz, si se trata de una voz de modelo de voz rápida y no existe un audio de refencia, entonces generará uno para reproducir.
- (2): Los acentos disponibles para seleccionar para este personaje. (Opcional, predeterminado es inglés).
Campo delimitador del capítulo: cambiará el delimitador del capítulo predeterminado (la cadena que se usa para identificar capítulos).
Duración de silencio en el campo de milisegundos (MS): esto cambiará la cantidad de milisegundos entre cada parte combinada de audio.
Seleccione el desplegable del lenguaje TTS: esto le permitirá seleccionar el acento predeterminado utilizado para cada personaje que no ha tenido el acento seleccionado manualmente.
Barra de carga: dará una cantidad aproximada de tiempo restante. (Estima, probablemente no verá predicciones precisas hasta que se haya ejecutado durante 5 minutos).
Bloque de vista previa del libro anotado: esto mostrará la totalidad del libro con las líneas de cada personaje codificadas por colores.
- Puede hacer clic en una línea mientras se genera el audiolibro para escuchar cómo suena esa línea generada. Pero solo si la línea ya ha generado audio; Si no, no jugará nada.
Botón de carga del libro: haciendo clic en esto recargará la vista del libro anotada codificada por colores, simplemente aleatorizará los colores seleccionados para las líneas de cada personaje.
Genere el botón de audio: comenzará a generar el audiolibro completo.
Seleccione el botón de voces aleatorias (solo será visible si se verifica la casilla de verificación "Incluir modelos de voz rápida"): seleccionará una voz de modelo rápida con influencia automática de género automático para cada personaje, excepto la voz del narrador.

GUI_3_RUN

GUI Parte 3 (Visor de libros) Información/Características

-Este es difícil explicar que es más un patio de recreo si te metes con él, entonces debes obtener cómo funciona. Pero se puede usar para ajustar el audiolibro, cerca de la ventana cuando haya terminado.

? Instalación de configuración

? Voxnovel sin cabeza Google Colab

¡Explore y ejecute la versión interactiva del proyecto Voxnovel sin cabeza directamente en Google Colab! Empiece aquí.

? Docker (el sonido aún no funciona en la GUI)

? Docker sin cabeza

Docker sin cabeza M1? Mac

cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:headless_m1_v2

¿Docker sin cabeza? Linux/Intel? Mac

Para Docker sin cabeza en solo CPU

cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest_headless

Para Docker sin cabeza con GPU Speedup si tiene una GPU NVIDA

cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run --gpus all -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest_headless

Windows sin cabeza

Instalación y configuración en Windows (PowerShell)

Siga estos pasos para configurar el proyecto Voxnovel en un sistema de Windows usando PowerShell:

Navegue a su directorio de perfil de usuario:
```
cd $ env: USERPROFILE
```

Clon El repositorio de Voxnovel de GitHub:

git clone https: // github.com / DrewThomasson / VoxNovel.git

Ejecutando voxnovel en Docker

Para la operación sin cabeza en la CPU

Para ejecutar la aplicación Voxnovel en un contenedor Docker en su CPU:

docker run - v " ${ env: USERPROFILE} /VoxNovel/:/VoxNovel/ " - it athomasson2 / voxnovel:latest_headless

Para operación sin cabeza con Speedup de GPU NVIDIA

Si tiene una GPU NVIDIA y desea acelerar el procesamiento, use el siguiente comando:

docker run -- gpus all - v " ${ env: USERPROFILE} /VoxNovel/:/VoxNovel/ " - it athomasson2 / voxnovel:latest_headless

? GUI Docker (el sonido aún no funciona en GUI)

? Docker de Linux

1. `CD ~`

git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run --gpus all -e DISPLAY=$DISPLAY -v /tmp/.X11-unix:/tmp/.X11-unix -v /dev/snd:/dev/snd --device /dev/snd -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest

? Mac Docker

Configuración de aplicaciones GUI con Docker en MacOS

Esta guía proporciona instrucciones sobre cómo ejecutar un contenedor Docker con una interfaz gráfica de usuario en macOS que usa Xquartz para el reenvío X11 y el montaje de volumen.

Instalar xquartz

Descargue e instale Xquartz desde el sitio web de Xquartz.
Abra Xquartz.
Vaya a XQuartz -> Preferences .
En la pestaña Security , habilite Permitir conexiones de clientes de red .
Reinicie Xquartz para aplicar estas configuraciones.

Configurar y ejecutar el contenedor Docker

Permitir que Docker se conecte a Xquartz

Abra un terminal y ejecute el siguiente comando para permitir las conexiones desde su máquina local a Xquartz:

 xhost + $(ifconfig en0 | grep inet | awk '$1=="inet" {print $2}')

Inicie el contenedor Docker

Ejecute el siguiente comando para iniciar su contenedor Docker. Este comando configura la GUI para mostrar en su host y monta los directorios necesarios:

 cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
docker run -e DISPLAY=$(ifconfig en0 | grep inet | awk '$1=="inet" {print $2}'):0 
           -v /tmp/.X11-unix:/tmp/.X11-unix 
           -v "/Users/$(whoami)/VoxNovel:/VoxNovel" 
           athomasson2/voxnovel:latest

Notas

Configuración de Xquartz : asegúrese de que Xquartz esté configurado para permitir a los clientes de red antes de intentar conectarse.
Existencia del directorio : Verifique que el Directorio /Users/$(whoami)/VoxNovel exista en su Mac. De lo contrario, cree o ajuste la ruta de montaje de volumen en el comando Docker según sea necesario.
Firewall y seguridad : si enfrenta problemas de conectividad, verifique cualquier configuración de firewall y preferencias de seguridad que puedan bloquear las conexiones.

? Windows Docker

Instalar VCXSRV:
```
choco install vcxsrv
```
- Primero instale VCXSRV y configúrelo para permitir conexiones.
Cómo configurar VCXSRV
Después de instalar VCXSRV, generalmente se inicia automáticamente. Puede confirmar que se está ejecutando revisando su ícono en la bandeja del sistema, generalmente ubicado cerca del reloj en la barra de tareas. También puede comenzar automáticamente cuando inicia sesión en su sistema.
Para asegurarse de que esté configurado para permitir conexiones desde Docker Containers, siga estos pasos:
1. Haga clic derecho en el icono VCXSRV en la bandeja del sistema.
2. Seleccione "XLAUNCH" para abrir el asistente de configuración.
3. En el asistente de configuración, seleccione "Múltiples Windows" y continúe con el siguiente paso.
4. Elija su configuración preferida para el número de visualización y la pantalla.
5. En la ventana "Configuración adicional", asegúrese de verificar la casilla etiquetada "Desactivar el control de acceso" para permitir las conexiones desde los contenedores Docker.
6. Complete la configuración haciendo clic en "Finalizar" y luego "Guardar la configuración" cuando se le solicite.
Con estas configuraciones, VCXSRV debe ejecutarse y configurarse para permitir conexiones desde Docker Containers. Ahora puede continuar con la ejecución de sus comandos Docker que requieren soporte de GUI.
Cambie a su directorio de inicio:
```
 cd $HOME
```

Clon el repositorio:

git clone https://github.com/DrewThomasson/VoxNovel.git

Ejecute el contenedor Docker:

docker run -e DISPLAY=host.docker.internal:0 -v " /Users/ $( whoami ) /VoxNovel:/VoxNovel/ " -it athomasson2/voxnovel:latest

? Linux

Instalación de Ubuntu de comando único

(No lo use si ya tiene Miniconda instalada).

Para instalar Voxnovel en Ubuntu, puede usar el siguiente comando único:

yes | wget -O - https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Ubuntu-install.sh | bash

Atajo de escritorio

-Ese script de instalación simple anterior también debe crear un acceso directo para la aplicación.

Opción de lanzamiento manual

O puede iniciar manualmente la aplicación en el terminal con el siguiente comando:

 cd ~ /VoxNovel && conda activate VoxNovel && python gui_run.py

o instalación manual:

sudo apt-get install calibre
sudo apt-get install ffmpeg
conda create --name VoxNovel python=3.10
conda activate VoxNovel
git clone https://github.com/DrewThomasson/VoxNovel.git
cd VoxNovel
pip install bs4
pip install styletts2
pip install tts==0.21.3
pip install booknlp==1.0.7.1
pip install -r Ubuntu_requirements.txt
python -m spacy download en_core_web_sm

? Para idiomas no basados en latín, soporte TTS (opcional)

Instale MECAB para (soporte TTS de idiomas no latinos) (opcional):

Ubuntu: sudo apt-get install -y mecab libmecab-dev mecab-ipadic-utf8

(Para idiomas no basados en latín soporte TTS) (opcional)
python -m unidic download

pip install mecab mecab-python3 unidic

? Cubierta de vapor) (x86_64 Arch Linux)

Para instalar Voxnovel en su cubierta de vapor, abra un terminal y ejecute el siguiente comando único:

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Steam-Deck_VoxNovel-Install.sh )

¡Ahora debería tener un atajo de escritorio para Voxnovel al final de este guión!

? Intel Mac

Instalar en Intel Mac:

Descargar Intel Voxnovel Installer

O ejecute el siguiente comando en su terminal:

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Intel_Mac_Install_VoxNovel.sh )

Una vez que esté completo, debe tener un atajo de escritorio para Voxnovel.

? Desinstalar en Intel Mac:

Para desinstalar, ejecute el siguiente comando en su terminal:

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/uninstall_VoxNovel_Mac.sh )

(Deprimido no lo use) Intel Mac Manual-Install

Ejecutar en este orden:

brew install calibre
brew install ffmpeg
conda create --name VoxNovel python=3.10
conda activate VoxNovel
git clone https://github.com/DrewThomasson/VoxNovel.git
cd VoxNovel
pip install styletts2
pip install tts==0.21.3
pip install booknlp==1.0.7.1 9. pip install -r MAC-requirements.txt
pip install spacy 11. python -m spacy download en_core_web_sm

? Para idiomas no basados en latín, soporte TTS (opcional)

Instale MECAB para (soporte TTS de idiomas no latinos) (opcional):

MacOS: brew install mecab , brew install mecab-ipadic

(Para idiomas no basados en latín soporte TTS) (opcional)
python -m unidic download

pip install mecab mecab-python3 unidic

? Apple Silicon Mac (probado en 2020 M1 Pro 8GB RAM)

Instalar en Apple Silicon Mac:

Descargar Apple Silicon Voxnovel Installer

O ejecute el siguiente comando en su terminal:

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Apple_silicone_VoxNovel_install.sh )

Una vez que esté completo, debe tener un atajo de escritorio para Voxnovel.

? Desinstalar en Apple Silicon Mac:

Para desinstalar, ejecute el siguiente comando en su terminal:

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/uninstall_VoxNovel_Mac.sh )

(Deprimido no lo use) Manual de silicio de manzana

Ejecutar en este orden:

brew install calibre (es posible que también tenga que instalarlo manualmente desde su sitio si esto no funciona)
brew install ffmpeg
conda create --name VoxNovel python=3.10
conda activate VoxNovel
git clone https://github.com/DrewThomasson/VoxNovel.git
cd VoxNovel
pip install tensorflow-macos (también opcional pip install tensorflow-metal , pero hasta ahora aún no he obtenido la aceleración de la GPU
pip install styletts2
pip install tts==0.21.3
pip install --no-dependencies booknlp==1.0.7.1
pip install transformers==4.30.0
pip install tensorflow
pip install -r MAC-requirements.txt
pip install ebooklib bs4 epub2txt pygame moviepy spacy
python -m spacy download en_core_web_sm

? Para idiomas no basados en latín, soporte TTS (opcional)

Instale MECAB para (soporte TTS de idiomas no latinos) (opcional):

MacOS: brew install mecab , brew install mecab-ipadic (para idiomas no basados en latín soporte TTS) (opcional)
python -m unidic download

pip install mecab mecab-python3 unidic

? Windows 11

Debido a los problemas de BookNlp Windows, todo esto se ejecutará en WSL (no se preocupe, todavía es fácil).

? Mira el video de instalación aquí

En tu PowerShell, pase:
```
wsl --install
```
para instalar WSL. (Su sistema le solicitará que habilite la virtualización en su BIOS si está disponible, ya que es necesario ejecutar WSL en Windows).

Después de configurar su nombre de usuario y contraseña, abra WSL y pegue este comando para un solo comando Instalar:

yes | wget -O - https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Ubuntu-install.sh | bash

(Opcional solo para las tarjetas gráficas NVIDA no ejecutan este comando si no tiene una tarjeta gráfica NVIDIA) Instale el kit de herramientas NVIDIA CUDA (requerido para la aceleración de la GPU de NVIDIA):
```
sudo apt install nvidia-cuda-toolkit
```
Asegúrese de estar en el entorno Voxnovel Conda: (si 'conda: comando no encontrado' es decir, conda no se ve como un comando, luego intente cerrar la ventana actual de PowerShell y relanzar el wsl env con [wsl -d ubuntu]
```
conda activate VoxNovel
```
Navegue a la carpeta Voxnovel (si no está allí):
```
 cd ~ && cd VoxNovel
```
Ahora solo ejecute uno de los dos programas que se muestran a continuación

Para ejecutar el programa

python gui_run.py

O para correr sin cabeza

python headless_voxnovel.py

Acceda a los archivos WSL Ubuntu desde Windows

Puede acceder a sus archivos WSL Ubuntu directamente en el Explorador de archivos de Windows ingresando la siguiente ruta en la barra de direcciones:

 \wsl.localhostUbuntuhome

Los archivos de audiolibro de salida se ubicarán en VoxNoveloutput_audiobooks en WSL ENV

Para crear un atajo de escritorio de Voxnovel Windows

Ejecute este comando en PowerShell

Invoke-Expression (Invoke-WebRequest -Uri " https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Windows-install-scripts/create_desktop_shortcut.ps1 " ).Content

? ️ Desinstalación:

Para eliminar todo, ejecute el siguiente comando en PowerShell:

wsl --unregister Ubuntu

Esto eliminará completamente el entorno Ubuntu donde se almacena la aplicación. ?

Solución de problemas WSL

Si tiene problemas con el entorno WSL:

Lista de todos los entornos WSL:
```
wsl --list --verbose
```
Eliminar un entorno WSL específico (por ejemplo, Ubuntu):
```
wsl --unregister < distro_name >
```
Reinstalar WSL:
```
wsl --install
```

Para iniciar WSL en cualquier momento que necesite ejecutar este programa, puede usar la barra de búsqueda en Windows para encontrar y iniciar "WSL" o ejecutar:

wsl

? Para idiomas no basados en latín, soporte TTS (opcional)

Instale MECAB para (soporte TTS de idiomas no latinos) (opcional):

sudo apt-get install -y mecab libmecab-dev mecab-ipadic-utf8

(Para idiomas no basados en latín soporte TTS) (opcional)
python -m unidic download

pip install mecab mecab-python3 unidic

Para ejecutar el programa

python gui_run.py

O para correr sin cabeza

python headless_voxnovel.py

Corriendo con bajo VRAM (4 GB)

Modificaciones

Resulta que una vez que configura el dispositivo, permanece así para el programa completo.
Entonces, he dividido el programa en dos programas de Python: una CPU y una GPU. He probado esto en mi (GPU VRAM 4GB) y esta solución funciona. Al menos de mi parte, realmente espero que funcione de tu parte.

Para ejecutar la solución, hice a medida para una situación de GPU VRAM baja:

Para ejecutar los scripts proporcionados en su sistema, siga estos pasos para:

Procesamiento de libros (solo CPU):
- Script: 1CPU_Book_processing.py
- Este script maneja la tarea de procesar solo el libro usando BookNlp, forzándolo específicamente a ejecutarse en la CPU.
- Ejecutar con python 1CPU_Book_processing.py
Generación de audio (solo GPU):
- Script: 2GPU_audio_Generation.py
- Este script se dedica solo a generar audio con la GPU y debe ejecutarse después de completar el procesamiento del libro con 1CPU_Book_processing.py .
- Ejecutar con python 2GPU_Audio_generation.py

Resultados de rendimiento

Al ejecutar una mini prueba con un archivo EPUB utilizando la configuración anterior, se observaron las siguientes métricas de rendimiento:

Resultados de rendimiento

Prueba realizada con el archivo Mini Epub ubicado en el ejemplo_working_files.zip

Tarea	Configuración	Tiempo (segundos)
Procesamiento de libros	Solo GPU (GeForce GTX 980), 4GB VRAM, 32GB RAM, Intel i7-8700K	2.922
Generación de audio	Solo GPU (GeForce GTX 980), 4GB VRAM, 32GB RAM, Intel i7-8700K	128.48
Procesamiento de libros	Solo CPU, 32GB RAM, Intel i7-8700K	4.964
Generación de audio	Solo CPU, 32GB RAM, Intel i7-8700K	391.4227

Para ejecutar el programa automático

Esto significa que todo lo que hace es seleccionar el libro y todas las voces serán asignadas y generadas automáticamente para usted.

python auto_noGui_run.py

Acceso a archivos de audiolibro generados

Puede acceder a sus archivos de audiolibro generados en la carpeta Voxnovel en la ubicación

 VoxNovel/output_audiobooks

Tipos de archivos de libro electrónico compatible:

.Epub, .pdf, .mobi, .txt, .txt, .html, .rtf, .chm, .lit, .pdb, .fb2, .odt, .cbr, .cbz, .prc, .lrf, .pml, .Snb, .cbbc, .rb, y .Tcr,

(Los mejores resultados son de usar EPUB o MOBI para la detección de capítulos automáticos)

Carpetas

Carpetas utilizadas por el programa

/Final_combined_output_audio: aquí es donde se pondrán todos los archivos de audio de su capítulo en orden del Capítulo Num

/output_audiobooks: aquí es donde se almacenarán todos sus archivos de audiolibro M4B

/Working_files: contiene todos los archivos de trabajo utilizados por el programa mientras se ejecuta activamente.

/Working_Files/Temp_EBook: contiene todos los archivos TXT del capítulo extraído individual del libro electrónico.

/Tortoise: contiene todos los archivos de voz de muestra

Funciones de GUI

GUI Parte 1 (procesador BookNlp)

-Botón "Archivo de proceso": haga clic y le pedirá que seleccione un archivo de libro electrónico.

GUI Parte 2 (Coqui TTS GUI)

Seleccione el desplegable del modelo TTS: esto selecciona el modelo TTS que se utilizará para la clonación de voz.
Incluya la casilla de verificación de modelos de voz rápida: (Genere rápido al costo de la calidad de audio) Haga clic en esto para poder ver cualquier otro modelo y voces singulares compatibles con Coqui TTS.
- Actualizará el menú desplegable "Seleccionar modelo TTS" para que los modelos de clonación de voz también incluyan (lista de valores que se agregarán).
- Actualizará el menú desplegable para que las voces seleccionen para cada personaje para incluir también (lista de valores que se agregarán).
Haga que todo el audio genere con la casilla de verificación de voz del narrador: esto hará que el audio de cada personaje se genere con la voz que ha seleccionado para el narrador cuando hace clic en el botón "Generar audio".
Botón de voz nueva Clon: haga clic en esto para agregar una nueva voz que puede clon (asegúrese de tener un archivo de audio de referencia a mano).
Agregue el modelo XTTS ajustado al botón del actor de voz: si tiene una carpeta que contiene todos los parámetros de un modelo XTTS ajustado de una voz específica, entonces puede hacer clic en esto para hacer que ese actor de voz clone con ese modelo XTTS ajustado, para proporcionar resultados de clonación de voz mucho mejores.
Desenviamientos de voces de caracteres: estos son los menores para seleccionar el actor de voz (y el acento de cada personaje si usa XTTS).
- (1): Los actores de voz disponibles para seleccionar para este personaje. (El valor predeterminado es audio seleccionado en función del género inferido del carácter: "F, M, otro").
  - Cuando selecciona una voz, reproducirá la muestra de audio de esa voz, si se trata de una voz de modelo de voz rápida y no existe un audio de refencia, entonces generará uno para reproducir.
- (2): Los acentos disponibles para seleccionar para este personaje. (Opcional, predeterminado es inglés).
Campo delimitador del capítulo: cambiará el delimitador del capítulo predeterminado (la cadena que se usa para identificar capítulos).
Duración de silencio en el campo de milisegundos (MS): esto cambiará la cantidad de milisegundos entre cada parte combinada de audio.
Seleccione el desplegable del lenguaje TTS: esto le permitirá seleccionar el acento predeterminado utilizado para cada personaje que no ha tenido el acento seleccionado manualmente.
Barra de carga: dará una cantidad aproximada de tiempo restante. (Estima, probablemente no verá predicciones precisas hasta que se haya ejecutado durante 5 minutos).
Bloque de vista previa del libro anotado: esto mostrará la totalidad del libro con las líneas de cada personaje codificadas por colores.
- Puede hacer clic en una línea mientras se genera el audiolibro para escuchar cómo suena esa línea generada. Pero solo si la línea ya ha generado audio; Si no, no jugará nada.
Botón de carga del libro: haciendo clic en esto recargará la vista del libro anotada codificada por colores, simplemente aleatorizará los colores seleccionados para las líneas de cada personaje.
Genere el botón de audio: comenzará a generar el audiolibro completo.
Seleccione el botón de voces aleatorias (solo será visible si se verifica la casilla de verificación "Incluir modelos de voz rápida"): seleccionará una voz de modelo rápida con influencia automática de género automático para cada personaje, excepto la voz del narrador.

GUI Parte 3 (Visor de libros)

-Este es difícil explicar que es más un patio de recreo si te metes con él, entonces debes obtener cómo funciona. Pero se puede usar para ajustar el audiolibro, cerca de la ventana cuando haya terminado.

? Características

Características planificadas entrantes

Haga que todas las voces y modelos incluidos ya tengan sus propias voces de demostración premaduras
Haga que el audio de demostración para las voces clonadas no sea su audio de referencia, sino cómo suenan sus voces generadas.
Uso de transcripciones Whisper para cortar alucinaciones de audio generado
Incorporando el modelo local para generar efectos de sonido cuando un libro discute una ubicación o efecto de sonido
Agregar el archivo Guardar funcionaly

Un agradecimiento especial a:

-@Sidharthrajaram (para su instalación de Pip Styletts2 que creó, no pude agregar a Styletts2 sin él. :)) (https://github.com/sidharthrajaram/styletts2)

Expandir

Información adicional

Versión vel: 1.5
Tipo Otro código fuente
Fecha de actualización 2025-03-08
tamaño 70.96MB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo