Téléchargement VoxNovel - Téléchargement du code source VoxNovel

VoxNovel

Autre code source

vel: 1.5

Télécharger

Voxnovel

Voxnovel_logo

? Aperçu

VoxNovel est un programme innovant qui tire parti des capacités de BookNLP pour analyser la littérature, attribuer des citations à des caractères spécifiques et générer un livre audiobière sur mesure où chaque personnage a une voix distincte grâce à des coquies. Cela offre non seulement une expérience audio immersive, mais donne également vie à chaque personnage avec une voix unique, ce qui rend l'expérience d'écoute beaucoup plus attrayante.

Modèles TTS inclus

Tous les modèles coqui tts- (Tacotron, Tacotron2, Glow-TTS, Speedy-Speech, Align-TTS, FastPitch, FastSpeech, FastSpeech2, SC-Glowtts, Capacitron, Overflow, Nural Hmm TTS, délicieux TTS, ⓧTTS, VITS,? YOTTS,? TORTOISE,? Bark) et Styletts2.

?

- Ils leur permettent également de parler ces langues, mais l'attribution de la citation ne s'identifiera pas correctement pour tout ce qui n'est pas l'anglais. Anglais (en), espagnol (ES), français (FR), allemand (DE), italien (IT), portugais (PT), polonais (PL), turc (TR), Russe (RU), néerlandais (NL), tchèque (CS), arabe (AR), chinois (ZH-CN), japonais (JA), Hungarien (Hu), coréen (KO)

Sorties en tant que M4B avec toutes les métadonnées et chapitres du livre, exemple de fichier de sortie dans une application de lecteur audio

Exemple_of_output_in_audiobook_program

(Ainsi qu'un dossier de fichiers MP4 Chatper individuels avec une image de livre électronique intégré à celle si vous le souhaitez)

? Démos

Demos XTTS V2 de haute qualité

Gardiens_of_ga.hoole_10._lasky._kathryn _-_ Coming_of_hoole_chapter_4.mp4

?? Plus de fichiers audio de démonstration :)

Démos de tortue de haute qualité

272463996-C4F8DFDF-C5BD-4771-AB1A-6131C22A67B2.MP4

Démos audio Balacoon super rapides

271878548-53B694A9-5DDD-4174-82BC-07AFF22D2330.MP4

271876316-530E8781-C77C-4424-89CD-A02DF363B0BF.MP4

** Tests de grande qualité avec des modèles ajustés fins **

Audio_5811.mp4

Vous pouvez affiner vos propres modèles XTTS avec environ plus de 6 minutes d'audio gratuitement avec ce colab ~~https://colab.research.google.com/drive/1gii4_x724m8q2w-zz-jxo7cwtv7rfah-~~

Edit: ce colab ne fonctionne plus: utilisez ma version qui fournit un correctif: https://colab.research.google.com/drive/1sqqqzupo2pdjgggkrbm60su6sbfyo3su?usp=sharing

? VoxNovel sans tête Google Colab

Explorez et exécutez la version interactive du projet VoxNovel sans tête directement sur Google Colab! Commencez ici.

Gui

GUI_1_SELECT_FILE

GUI Part 1 (Processeur BooknLP) Infos / fonctionnalités

- Bouton "Process Fichier": cliquez sur et il vous demandera de sélectionner un fichier eBook.

GUI_2_FINETUNE

Outil de correction de l'attribution de l'enceinte manuelle (GUI 1.5)

Cette interface graphique concerne la correction manuelle des affectations de conférenciers si les devis sont mal attribués par booknlp. Il lit le fichier book.csv contenant les livres extraits de devis et des informations de haut-parleur, et vous permet d'inspecter visuellement et de modifier les affectations de haut-parleurs si nécessaire avant d'être transmise à l'étape TTS suivante.

Caractéristiques clés:

Affichage de texte défilable: permet aux utilisateurs de visualiser le texte du livre avec des affectations de haut-parleurs codées en couleur.
Sélection de haut-parleur: les utilisateurs peuvent sélectionner un nouveau haut-parleur dans un menu déroulant pour réaffecter des lignes spécifiques.
Citations cochables: les lignes du livre sont affichées avec des cases à cocher, permettant la sélection de plusieurs lignes pour la réaffectation du haut-parleur.
Codage de couleur du haut-parleur: chaque haut-parleur se voit attribuer une couleur unique pour une identification facile.
Boutons pour l'action:
- Mettez à jour les conférenciers sélectionnés: appliquez le haut-parleur sélectionné à toutes les lignes vérifiées.
- Désélectionnez tout: décochez toutes les lignes sélectionnées.
- Continuez: Enregistrez les modifications et sortez de l'outil.

Comment utiliser:

Sélectionnez les lignes: cochez les cases à côté des lignes que vous souhaitez modifier.
Choisissez le haut-parleur: sélectionnez le haut-parleur souhaité dans le menu déroulant.
Appliquer les modifications: cliquez sur "Mettre à jour les conférenciers sélectionnés" pour appliquer les modifications.
Revue: le texte mettra à jour pour refléter les modifications.
Désélectionner: cliquez sur "Deelect All" pour effacer vos sélections.
Terminer: une fois satisfait des corrections, cliquez sur "Continuer" pour enregistrer et quitter.

GUI_2_FINETUNE

Gui partie 2 (Coqui TTS GUI) Infos / fonctionnalités

Sélectionnez la liste déroulante du modèle TTS: cela sélectionne le modèle TTS qui sera utilisé pour le clonage vocal.
Incluez la case à cocher Fast Voice Modèles: (Générer rapidement au coût de la qualité de l'audio) Cliquez sur ceci pour pouvoir voir tous les autres modèles et voix singulières prises en charge par les coquies.
- Il mettra à jour la liste déroulante "Select TTS modèle" pour les modèles de clonage vocale à inclure également (liste des valeurs à ajouter).
- Il mettra à jour la liste déroulante pour les voix à sélectionner pour que chaque personnage inclue également (liste des valeurs à ajouter).
Faites que tout l'audio génère avec le narrateur à cocher la voix: cela fera générer audio chaque personnage avec la voix que vous avez sélectionnée pour le narrateur lorsque vous cliquez sur le bouton "Générer l'audio".
Clone NOUVEAU BOUTON VOCTY: Cliquez sur ceci pour ajouter une nouvelle voix que vous pouvez clone (assurez-vous d'avoir un fichier audio de référence à portée de main).
Ajoutez un modèle XTTS à réglage fin au bouton d'acteur vocal: Si vous avez un dossier contenant tous les paramètres d'un modèle XTTS affiné d'une voix spécifique, vous pouvez cliquer sur ceci pour créer ce clone de l'acteur vocal avec ce modèle XTTS affiné, pour fournir de bien meilleurs résultats de clonage vocal.
Les voites de personnages déroutes: ce sont les listes déroulantes pour sélectionner l'acteur vocal (et l'accent de chaque personnage si vous utilisez XTTS).
- (1): Les acteurs vocaux disponibles pour sélectionner pour ce personnage. (La valeur par défaut est sélectionnée audio en fonction du genre de caractère inféré: "f, m, autre").
  - Lorsque vous sélectionnez une voix, il jouera l'échantillon audio de cette voix, s'il s'agit d'une voix de modèle vocale rapide et qu'un audio de réfrension n'existe pas, il en générera un pour jouer.
- (2): Les accents disponibles pour sélectionner pour ce personnage. (Facultatif, la valeur par défaut est l'anglais).
Chapitre Delimiter Field: modifiera le délimiteur de chapitre par défaut (la chaîne utilisée pour identifier les chapitres).
Durée du silence en millisecondes (MS) Champ: Cela modifiera la quantité de millisecondes entre chaque morceau combiné d'audio.
Sélectionnez la liste déroulante du langage TTS: cela vous permettra de sélectionner l'accent par défaut utilisé pour chaque caractère qui n'a pas été sélectionné manuellement.
Barre de chargement: donnera une durée environ. (Estimez, vous ne verrez probablement pas de prédictions précises tant qu'elles sont en cours d'exécution pendant 5 min).
Bloque d'aperçu du livre annoté: Cela montrera l'intégralité du livre avec les lignes de chaque personnage codées.
- Vous pouvez cliquer sur une ligne pendant que le livre audio est généré pour entendre à quoi ressemble cette ligne générée. Mais seulement si la ligne a déjà été générée audio pour cela; Sinon, cela ne jouera rien.
Bouton de chargement: cliquez sur ceci recharger la vue du livre annotée à code couleur, il randomisera les couleurs sélectionnées pour les lignes de chaque personnage.
Générer le bouton audio: commencera à générer le livre audio complet.
Sélectionnez le bouton des voix aléatoires (ne sera visible que si la case à cocher "Inclure Fast Voice" est cochée): sélectionnera une voix rapide de modèle rapide inférieure à l'auto-genre pour chaque personnage à l'exception de la voix du narrateur.

GUI_3_RUN

GUI PARTIE 3 (Visionneuse du livre) Infos / fonctionnalités

-Il est difficile d'expliquer que c'est plus un terrain de jeu si vous jouez avec lui, vous devriez obtenir comment cela fonctionne. Mais il peut être utilisé pour affiner le livre audio -close hors de la fenêtre lorsque vous l'avez terminé.

? Installation de configuration

? VoxNovel sans tête Google Colab

Explorez et exécutez la version interactive du projet VoxNovel sans tête directement sur Google Colab! Commencez ici.

? Docker (son ne fonctionne pas encore dans l'interface graphique)

? Docker sans tête

Docker sans tête M1? Mac

cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:headless_m1_v2

Docker sans tête? Linux / Intel? Mac

Pour Docker sans tête sur uniquement le processeur

cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest_headless

Pour Docker sans tête avec un GPU accélére si vous avez un GPU NVIDA

cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run --gpus all -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest_headless

Windows Docker sans tête

Installation et configuration sur Windows (PowerShell)

Suivez ces étapes pour configurer le projet VoxNovel sur un système Windows à l'aide de PowerShell:

Accédez à votre répertoire de profil utilisateur:
```
cd $ env: USERPROFILE
```

Clone le référentiel VoxNovel de GitHub:

git clone https: // github.com / DrewThomasson / VoxNovel.git

Exécution de VoxNovel dans Docker

Pour un fonctionnement sans tête sur le processeur

Pour exécuter l'application VoxNovel dans un conteneur Docker sur votre CPU:

docker run - v " ${ env: USERPROFILE} /VoxNovel/:/VoxNovel/ " - it athomasson2 / voxnovel:latest_headless

Pour une opération sans tête avec NVIDIA GPU accélérer

Si vous avez un GPU NVIDIA et que vous souhaitez accélérer le traitement, utilisez la commande suivante:

docker run -- gpus all - v " ${ env: USERPROFILE} /VoxNovel/:/VoxNovel/ " - it athomasson2 / voxnovel:latest_headless

? Gui Docker (le son ne fonctionne pas encore dans GUI)

? Docker Linux

1. `CD ~`

git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run --gpus all -e DISPLAY=$DISPLAY -v /tmp/.X11-unix:/tmp/.X11-unix -v /dev/snd:/dev/snd --device /dev/snd -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest

? Mac docker

Configuration des applications GUI avec Docker sur macOS

Ce guide fournit des instructions sur la façon d'exécuter un conteneur Docker avec une interface utilisateur graphique sur MacOS à l'aide de XQuartz pour le transfert X11 et le montage de volume.

Installer xquartz

Téléchargez et installez XQuartz sur le site Web Xquartz.
Open Xquartz.
Allez à XQuartz -> Preferences .
Dans l'onglet Security , activez les connexions de clients de réseau .
Redémarrez Xquartz pour appliquer ces paramètres.

Configurer et exécuter le conteneur Docker

Autoriser Docker à se connecter à Xquartz

Ouvrez un terminal et exécutez la commande suivante pour autoriser les connexions de votre machine locale à xquartz:

 xhost + $(ifconfig en0 | grep inet | awk '$1=="inet" {print $2}')

Démarrez le conteneur Docker

Exécutez la commande suivante pour démarrer votre conteneur Docker. Cette commande configure l'interface graphique à afficher sur votre hôte et monte les répertoires nécessaires:

 cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
docker run -e DISPLAY=$(ifconfig en0 | grep inet | awk '$1=="inet" {print $2}'):0 
           -v /tmp/.X11-unix:/tmp/.X11-unix 
           -v "/Users/$(whoami)/VoxNovel:/VoxNovel" 
           athomasson2/voxnovel:latest

Notes

Configuration XQuartz : assurez-vous que Xquartz est configuré pour permettre aux clients du réseau avant d'essayer de se connecter.
Existence du répertoire : vérifiez que le répertoire /Users/$(whoami)/VoxNovel existe sur votre Mac. Sinon, créez-le ou ajustez le chemin de montage du volume dans la commande docker selon les besoins.
Pare-feu et sécurité : si vous confrontez les problèmes de connectivité, vérifiez les paramètres du pare-feu et les préférences de sécurité qui peuvent bloquer les connexions.

? Windows Docker

Installez VCXSRV:
```
choco install vcxsrv
```
- Installez d'abord VCXSRV et configurez-le pour autoriser les connexions.
Comment configurer VCXSRV
Après avoir installé VCXSRV, il lance généralement automatiquement. Vous pouvez confirmer qu'il s'exécute en vérifiant son icône dans le plateau système, généralement situé près de l'horloge dans la barre des tâches. Il peut également démarrer automatiquement lorsque vous vous connectez à votre système.
Pour vous assurer qu'il est configuré pour permettre les connexions à partir de conteneurs Docker, suivez ces étapes:
1. Cliquez avec le bouton droit sur l'icône VCXSRV dans le plateau système.
2. Sélectionnez "Xlaunch" pour ouvrir l'assistant de configuration.
3. Dans l'assistant de configuration, sélectionnez "plusieurs fenêtres" et passez à l'étape suivante.
4. Choisissez vos paramètres préférés pour le numéro d'affichage et l'écran.
5. Dans la fenêtre "Paramètres supplémentaires", assurez-vous de cocher la case intitulée "Désactiver le contrôle d'accès" pour permettre les connexions à partir de conteneurs Docker.
6. Terminez la configuration en cliquant sur "Finition", puis "Enregistrer la configuration" lorsque vous y êtes invité.
Avec ces paramètres, VCXSRV doit être exécuté et configuré pour permettre les connexions à partir de conteneurs Docker. Vous pouvez désormais procéder à l'exécution de vos commandes Docker nécessitant un support d'interface graphique.
Passez à votre répertoire d'origine:
```
 cd $HOME
```

Clone le référentiel:

git clone https://github.com/DrewThomasson/VoxNovel.git

Exécutez le conteneur Docker:

docker run -e DISPLAY=host.docker.internal:0 -v " /Users/ $( whoami ) /VoxNovel:/VoxNovel/ " -it athomasson2/voxnovel:latest

? Linux

Installation d'Ubuntu de commande unique

(N'utilisez pas si vous avez déjà installé MiniConda.)

Pour installer VoxNovel sur Ubuntu, vous pouvez utiliser la commande unique suivante:

yes | wget -O - https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Ubuntu-install.sh | bash

Raccourci de bureau

-Ce script d'installation unique ci-dessus devrait également créer un raccourci pour l'application.

Option de lancement manuel

Ou vous pouvez lancer manuellement l'application dans le terminal avec la commande suivante:

 cd ~ /VoxNovel && conda activate VoxNovel && python gui_run.py

ou installation manuelle:

sudo apt-get install calibre
sudo apt-get install ffmpeg
conda create --name VoxNovel python=3.10
conda activate VoxNovel
git clone https://github.com/DrewThomasson/VoxNovel.git
cd VoxNovel
pip install bs4
pip install styletts2
pip install tts==0.21.3
pip install booknlp==1.0.7.1
pip install -r Ubuntu_requirements.txt
python -m spacy download en_core_web_sm

? Pour les langues non latines, support TTS (facultatif)

Installez MECAB pour (support TTS des langues non latins) (facultatif):

Ubuntu: sudo apt-get install -y mecab libmecab-dev mecab-ipadic-utf8

(Pour les langues non latines Prise en charge TTS) (facultative)
python -m unidic download

pip install mecab mecab-python3 unidic

? Pont à vapeur) (x86_64 Arch Linux)

Pour installer VoxNovel sur votre pont de vapeur, ouvrez un terminal et exécutez la commande unique suivante:

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Steam-Deck_VoxNovel-Install.sh )

Maintenant, vous devriez avoir un raccourci de bureau pour VoxNovel à la fin de ce script!

? Intel Mac

Installer sur Intel Mac:

Téléchargez l'installateur Intel VoxNovel

Ou exécutez la commande suivante dans votre terminal:

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Intel_Mac_Install_VoxNovel.sh )

Une fois terminé, vous devriez avoir un raccourci de bureau pour VoxNovel.

? Désinstaller sur Intel Mac:

Pour désinstaller, exécutez la commande suivante dans votre terminal:

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/uninstall_VoxNovel_Mac.sh )

(Désactif n'utilise pas) Intel Mac Manual-Install

Exécutez dans cet ordre:

brew install calibre
brew install ffmpeg
conda create --name VoxNovel python=3.10
conda activate VoxNovel
git clone https://github.com/DrewThomasson/VoxNovel.git
cd VoxNovel
pip install styletts2
pip install tts==0.21.3
pip install booknlp==1.0.7.1 9. pip install -r MAC-requirements.txt
pip install spacy 11. python -m spacy download en_core_web_sm

? Pour les langues non latines, support TTS (facultatif)

Installez MECAB pour (support TTS des langues non latins) (facultatif):

macOS: brew install mecab , brew install mecab-ipadic

(Pour les langues non latines Prise en charge TTS) (facultative)
python -m unidic download

pip install mecab mecab-python3 unidic

? Apple Silicon Mac (testé sur 2020 M1 Pro 8 Go RAM)

Installer sur le silicium Apple Mac:

Télécharger le programme d'installation d'Apple Silicon VoxNovel

Ou exécutez la commande suivante dans votre terminal:

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Apple_silicone_VoxNovel_install.sh )

Une fois terminé, vous devriez avoir un raccourci de bureau pour VoxNovel.

? Désinstaller sur le silicium Apple Mac:

Pour désinstaller, exécutez la commande suivante dans votre terminal:

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/uninstall_VoxNovel_Mac.sh )

(Désactif n'utilise pas) Installation manuelle de silicium Apple Silicon

Exécutez dans cet ordre:

brew install calibre (vous devrez peut-être également l'installer manuellement à partir de leur site si cela ne fonctionne pas)
brew install ffmpeg
conda create --name VoxNovel python=3.10
conda activate VoxNovel
git clone https://github.com/DrewThomasson/VoxNovel.git
cd VoxNovel
pip install tensorflow-macos (également en option pip install tensorflow-metal mais jusqu'à présent, je n'ai pas encore obtenu GPU Speetup
pip install styletts2
pip install tts==0.21.3
pip install --no-dependencies booknlp==1.0.7.1
pip install transformers==4.30.0
pip install tensorflow
pip install -r MAC-requirements.txt
pip install ebooklib bs4 epub2txt pygame moviepy spacy
python -m spacy download en_core_web_sm

? Pour les langues non latines, support TTS (facultatif)

Installez MECAB pour (support TTS des langues non latins) (facultatif):

MacOS: brew install mecab , brew install mecab-ipadic (pour les langues non latines TTS Prise en charge) (facultatif)
python -m unidic download

pip install mecab mecab-python3 unidic

? Windows 11

En raison des problèmes de Windows BookNLP, tout cela sera exécuté dans WSL (ne vous inquiétez pas, c'est toujours facile).

? Regardez la vidéo d'installation ici

Dans votre PowerShell, collez:
```
wsl --install
```
Pour installer WSL. (Vous pourriez être invité par votre système à activer la virtualisation dans votre BIOS s'il est disponible, car il est nécessaire d'exécuter WSL sous Windows.)
Après avoir défini votre nom d'utilisateur et votre mot de passe, ouvrez WSL et collez cette commande pour une seule installation de commande:
```
yes | wget -O - https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Ubuntu-install.sh | bash
```
(Facultatif uniquement pour les cartes graphiques NVIDA n'exécutez pas cette commande si vous n'avez pas de carte graphique NVIDIA) Installez la boîte à outils NVIDIA CUDA (requise pour l'accélération du GPU NVIDIA):
```
sudo apt install nvidia-cuda-toolkit
```
Assurez-vous que vous êtes dans l'environnement de VoxNovel Conda: (si 'conda: commande non trouvé' ie- conda n'est pas considéré comme une commande, essayez de fermer la fenêtre PowerShell actuelle et de relancer le WSL Env avec [wsl -d ubuntu]
```
conda activate VoxNovel
```
Accédez au dossier VoxNovel (sinon déjà là):
```
 cd ~ && cd VoxNovel
```
Maintenant, exécutez l'un des deux programmes ci-dessous

Pour exécuter le programme

python gui_run.py

Ou pour courir sans tête

python headless_voxnovel.py

Accéder aux fichiers WSL Ubuntu à partir de Windows

Vous pouvez accéder à vos fichiers WSL Ubuntu directement dans Windows File Explorer en entrant le chemin suivant dans la barre d'adresse:

 \wsl.localhostUbuntuhome

Les fichiers de livres audio de sortie seront situés sous VoxNoveloutput_audiobooks dans le WSL Env

Pour créer un raccourci de bureau VoxNovel Windows

Exécutez cette commande dans PowerShell

Invoke-Expression (Invoke-WebRequest -Uri " https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Windows-install-scripts/create_desktop_shortcut.ps1 " ).Content

? ️ Uninstallation:

Pour tout supprimer, exécutez la commande suivante dans PowerShell:

wsl --unregister Ubuntu

Cela supprimera complètement l'environnement Ubuntu où l'application est stockée. ?

Dépannage WSL

Si vous avez des problèmes avec l'environnement WSL:

Liste tous les environnements WSL:
```
wsl --list --verbose
```
Supprimez un environnement WSL spécifique (par exemple, Ubuntu):
```
wsl --unregister < distro_name >
```
Réinstaller WSL:
```
wsl --install
```

Pour lancer WSL chaque fois que vous devez exécuter ce programme, vous pouvez utiliser la barre de recherche dans Windows pour trouver et lancer "WSL" ou exécuter:

wsl

? Pour les langues non latines, support TTS (facultatif)

Installez MECAB pour (support TTS des langues non latins) (facultatif):

sudo apt-get install -y mecab libmecab-dev mecab-ipadic-utf8

(Pour les langues non latines Prise en charge TTS) (facultative)
python -m unidic download

pip install mecab mecab-python3 unidic

Pour exécuter le programme

python gui_run.py

Ou pour courir sans tête

python headless_voxnovel.py

Courir avec un VRAM bas (4 Go)

Modifications

Il s'avère qu'une fois que vous avez réglé l'appareil, il reste comme ça pour le programme complet.
Donc, j'ai divisé le programme en deux programmes Python: un CPU et un GPU. J'ai testé cela sur mon (4 Go VRAM GPU) et cette solution fonctionne. Au moins de mon côté, j'espère vraiment que cela fonctionne de votre côté.

Pour exécuter le correctif que j'ai fait sur mesure pour une situation GPU VRAM faible:

Pour exécuter les scripts fournis sur votre système, suivez ces étapes dans l'ordre:

Traitement de livres (CPU uniquement):
- Script: 1cpu_book_processing.py
- Ce script gère la tâche de traiter uniquement le livre à l'aide de booknlp, le forçant spécifiquement à s'exécuter sur le CPU.
- Exécutez avec python 1CPU_Book_processing.py
Génération audio (GPU uniquement):
- Script: 2gpu_audio_generation.py
- Ce script est dédié à la génération d'audio uniquement avec le GPU et doit être exécuté après avoir terminé le traitement du livre avec 1CPU_Book_processing.py .
- Exécutez avec python 2GPU_Audio_generation.py

Résultats de performance

Lors de l'exécution d'un mini test avec un fichier EPUB utilisant la configuration ci-dessus, les mesures de performance suivantes ont été observées:

Résultats de performance

Test sur Terminé avec le mini fichier EPUB situé dans l'exemple_working_files.zip

Tâche	Configuration	Temps (secondes)
Traitement des livres	GPU uniquement (GeForce GTX 980), 4 Go VRAM, 32 Go de RAM, Intel i7-8700K	2.922
Génération audio	GPU uniquement (GeForce GTX 980), 4 Go VRAM, 32 Go de RAM, Intel i7-8700K	128.48
Traitement des livres	CPU uniquement, 32 Go de RAM, Intel i7-8700K	4.964
Génération audio	CPU uniquement, 32 Go de RAM, Intel i7-8700K	391.4227

Pour exécuter le programme automobile

Cela signifie que tout ce que vous faites est de sélectionner le livre et que toutes les voix seront attribuées et générées pour vous.

python auto_noGui_run.py

Fichiers de livres audio générés par l'accès

Vous pouvez accéder à vos fichiers de livres audio générés dans le dossier VoxNovel à l'emplacement

 VoxNovel/output_audiobooks

Types de fichiers d'ebook pris en charge:

.epub, .pdf, .mobi, .txt, .html, .rtf, .chm, .lit, .pdb, .fb2, .odt, .cbr, .cbz, .prc, .lrf, .pml, .snb, .cbc, .rb et .tcr,.

(Les meilleurs résultats proviennent de l'utilisation de EPUB ou MOBI pour la détection de chapitre automatique)

Dossiers

Dossiers utilisés par le programme

/ Final_combined_output_audio: c'est là que tous vos fichiers audio de chapitre seront mis dans l'ordre du chapitre Num

/ output_audiobooks: c'est là que tous vos fichiers de livres audio M4B seront stockés

/ Working_files: détient tous les fichiers de travail utilisés par le programme pendant l'activité.

/ Working_files / temp_ebook: détient tous les fichiers de chapitre TXT extraits individuels de l'ebook.

/ Tortoise: détient tous les exemples de fichiers vocaux

Fonctions GUI

GUI PARTIE 1 (Processeur BookNLP)

- Bouton "Process Fichier": cliquez sur et il vous demandera de sélectionner un fichier eBook.

GUI PARTIE 2 (Coqui TTS GUI)

Sélectionnez la liste déroulante du modèle TTS: cela sélectionne le modèle TTS qui sera utilisé pour le clonage vocal.
Incluez la case à cocher Fast Voice Modèles: (Générer rapidement au coût de la qualité de l'audio) Cliquez sur ceci pour pouvoir voir tous les autres modèles et voix singulières prises en charge par les coquies.
- Il mettra à jour la liste déroulante "Select TTS modèle" pour les modèles de clonage vocale à inclure également (liste des valeurs à ajouter).
- Il mettra à jour la liste déroulante pour les voix à sélectionner pour que chaque personnage inclue également (liste des valeurs à ajouter).
Faites que tout l'audio génère avec le narrateur à cocher la voix: cela fera générer audio chaque personnage avec la voix que vous avez sélectionnée pour le narrateur lorsque vous cliquez sur le bouton "Générer l'audio".
Clone NOUVEAU BOUTON VOCTY: Cliquez sur ceci pour ajouter une nouvelle voix que vous pouvez clone (assurez-vous d'avoir un fichier audio de référence à portée de main).
Ajoutez un modèle XTTS à réglage fin au bouton d'acteur vocal: Si vous avez un dossier contenant tous les paramètres d'un modèle XTTS affiné d'une voix spécifique, vous pouvez cliquer sur ceci pour créer ce clone de l'acteur vocal avec ce modèle XTTS affiné, pour fournir de bien meilleurs résultats de clonage vocal.
Les voites de personnages déroutes: ce sont les listes déroulantes pour sélectionner l'acteur vocal (et l'accent de chaque personnage si vous utilisez XTTS).
- (1): Les acteurs vocaux disponibles pour sélectionner pour ce personnage. (La valeur par défaut est sélectionnée audio en fonction du genre de caractère inféré: "f, m, autre").
  - Lorsque vous sélectionnez une voix, il jouera l'échantillon audio de cette voix, s'il s'agit d'une voix de modèle vocale rapide et qu'un audio de réfrension n'existe pas, il en générera un pour jouer.
- (2): Les accents disponibles pour sélectionner pour ce personnage. (Facultatif, la valeur par défaut est l'anglais).
Chapitre Delimiter Field: modifiera le délimiteur de chapitre par défaut (la chaîne utilisée pour identifier les chapitres).
Durée du silence en millisecondes (MS) Champ: Cela modifiera la quantité de millisecondes entre chaque morceau combiné d'audio.
Sélectionnez la liste déroulante du langage TTS: cela vous permettra de sélectionner l'accent par défaut utilisé pour chaque caractère qui n'a pas été sélectionné manuellement.
Barre de chargement: donnera une durée environ. (Estimez, vous ne verrez probablement pas de prédictions précises tant qu'elles sont en cours d'exécution pendant 5 min).
Bloque d'aperçu du livre annoté: Cela montrera l'intégralité du livre avec les lignes de chaque personnage codées.
- Vous pouvez cliquer sur une ligne pendant que le livre audio est généré pour entendre à quoi ressemble cette ligne générée. Mais seulement si la ligne a déjà été générée audio pour cela; Sinon, cela ne jouera rien.
Bouton de chargement: cliquez sur ceci recharger la vue du livre annotée à code couleur, il randomisera les couleurs sélectionnées pour les lignes de chaque personnage.
Générer le bouton audio: commencera à générer le livre audio complet.
Sélectionnez le bouton des voix aléatoires (ne sera visible que si la case à cocher "Inclure Fast Voice" est cochée): sélectionnera une voix rapide de modèle rapide inférieure à l'auto-genre pour chaque personnage à l'exception de la voix du narrateur.

GUI PARTIE 3 (Visionneuse du livre)

-Il est difficile d'expliquer que c'est plus un terrain de jeu si vous jouez avec lui, vous devriez obtenir comment cela fonctionne. Mais il peut être utilisé pour affiner le livre audio -close hors de la fenêtre lorsque vous l'avez terminé.

? Caractéristiques

Caractéristiques planifiées entrantes

Faites en sorte que toutes les voix et modèles inclus aient déjà leurs propres voix de démonstration préalables
Faites en sorte que l'audio de démonstration pour les voix clonées ne soit pas leur audio de référence, mais ce que leurs voix ressemblent générées
Utilisation des transcriptions de Whisper pour couper les hallucinations de l'audio généré
Incorporer le modèle local pour générer des effets sonores lorsqu'un livre décrit un emplacement ou un effet sonore
Ajout de la fonction de fichier de sauvegarde

Un merci spécial à:

- @ Sidharthrajaram (pour son installation de styletts2 pip qu'il a créé, je ne pouvais pas d'ajouter Styletts2 sans lui. :)) (https://github.com/sidharthrajaram/styletts2)

Développer

Informations supplémentaires

Version vel: 1.5
Type Autre code source
Date de mise à jour 2025-03-08
taille 70.96MB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout