Voxnovel

? Visão geral
O Voxnovel é um programa inovador que aproveita os recursos do BookNLP para analisar a literatura, atribuir cotações a caracteres específicos e gerar um audiolivro personalizado, onde cada personagem tem uma voz distinta através do Coqui TTS. Isso não apenas fornece uma experiência imersiva de audiolivro, mas também dá vida a cada personagem com uma voz única, tornando a experiência auditiva muito mais envolvente.
Modelos TTS incluídos
Todos os modelos coqui tts- (Tacotron, Tacotron2, Glow-TTS, Speedy-fala, Align-TTS, FastPitch, FastSpeech, FastSpeech2, SC-Glowtts, Capacitron, Overflow, Hmm neural, TTS, Tts deliciosos, ⓧTTs, Vits,? Yourtts,?
Antecedentes você pode dar a cada personagem com o modelo de clonagem padrão (XTTS)
- Eles também permitem que eles falem esses idiomas, mas a atribuição da cotação não se identificará corretamente para nada que não seja inglês. English (en), Spanish (es), French (fr), German (de), Italian (it), Portuguese (pt), Polish (pl), Turkish (tr), Russian (ru), Dutch (nl), Czech (cs), Arabic (ar), Chinese (zh-cn), Japanese (ja), Hungarian (hu), Korean (ko) Saídas como um M4B com todos os metadados do livro e capítulos, exemplo de arquivo de saída em um aplicativo de audiolivro

(bem como uma pasta de arquivos individuais do MP4 Chatper com a imagem do e -book incorporada neles, se você quiser)
? Demos
Demos XTTs v2 de alta qualidade
Guardians_of_ga.hoole_10._Lasky._kathryn _-_ viche_of_hoole_chapter_4.mp4
? Mais arquivos de áudio de demonstração :)
Dimensões de tartaruga de alta qualidade
272463996-C4F8DFDF-C5BD-4771-AB1A-6131C22A67B2.MP4
Demonsibras de Balacoon de áudio super rápido
271878548-53B694A9-5DDD-4174-82BC-07AFF22D2330.MP4
271876316-530E8781-C77C-4424-89CD-A02DF363B0BF.MP4
** Testes super de alta qualidade com modelos túnicos finos **
AUDIO_5811.MP4
Você pode ajustar seus próprios modelos XTTS com cerca de 6 minutos de áudio gratuitamente com este colab https://colab.research.google.com/drive/1gii4_x724m8q2w-zz-jxo7cwtv7rfah-
Edit: que colab não funciona mais: use minha versão que forneça uma correção: https://colab.research.google.com/drive/1sqqqzupo2pdjggkrbm60su6sbfyo3su?usp=sharing
? Voxnovel sem cabeça Google Colab
Explore e execute a versão interativa do projeto Voxnovels sem cabeça diretamente no Google Colab! Comece aqui.
GUI

GUI Parte 1 (Processador BookNLP) Informações/Recursos
-Botão "Processar arquivo": clique e ele solicitará que você selecione um arquivo de e -book. 
Ferramenta de correção de atribuição de alto -falante manual (GUI 1.5)
Esta GUI é para a correção manual das atribuições do alto -falante se as cotações forem atribuídas incorretamente pelo BookNLP. Ele lê o arquivo book.csv que contém os livros extraídos citações e informações do alto -falante e permite inspecionar e modificar visualmente as atribuições do alto -falante, conforme necessário antes de ser passado para a próxima etapa do TTS.
Principais recursos:
- Exibição de texto rolável: permite que os usuários visualizem o texto do livro com atribuições de alto-falantes codificadas em cores.
- Seleção de alto -falantes: os usuários podem selecionar um novo alto -falante em um menu suspenso para reatribuir linhas específicas.
- Citações verificáveis: As linhas do livro são exibidas com caixas de seleção, permitindo a seleção de várias linhas para a reatribuição do alto -falante.
- Codificação de cores do alto -falante: Cada alto -falante recebe uma cor única para facilitar a identificação.
- Botões para ação:
- Atualize os alto -falantes selecionados: aplique o alto -falante selecionado em todas as linhas verificadas.
- Desmarque tudo: desmarque todas as linhas selecionadas.
- Continue: salve alterações e saia da ferramenta.
Como usar:
- Selecione linhas: verifique as caixas ao lado das linhas que deseja alterar.
- Escolha o alto -falante: selecione o alto -falante desejado no menu suspenso.
- Aplique alterações: clique em "Atualize os alto -falantes selecionados" para aplicar as alterações.
- Revisão: o texto será atualizado para refletir as alterações.
- Desmarcar: clique em "Desmarque tudo" para limpar suas seleções.
- Acabamento: Uma vez satisfeito com as correções, clique em "Continuar" para salvar e sair.

GUI Parte 2 (Coqui TTS GUI) Informações/Recursos
- Selecione o menu suspenso do modelo TTS: ele seleciona o modelo TTS que será usado para clonagem de voz.
- Inclua caixa de seleção Fast Voice Models: (Gere Fast ao custo da qualidade do áudio) Clique isso para poder ver todos os outros modelos e vozes singulares suportadas pela Coqui TTS.
- Ele atualizará o suspensão "Selecionar modelo TTS" para os modelos de clonagem de voz também incluem (lista de valores a serem adicionados).
- Ele atualizará o menu suspenso para que o Voices selecione para cada caractere incluir também (lista de valores a serem adicionados).
- Faça todo o áudio gerar com a caixa de seleção de voz do narrador: isso fará com que o áudio de todos os personagens seja gerado com a voz que você selecionou para o narrador quando você clicar no botão "Gerar áudio".
- Clone Novo Botão de Voz: Clique isso para adicionar uma nova voz que você pode clonar (verifique se possui um arquivo de áudio de referência à mão).
- Adicione o modelo XTTS de ajuste fino ao botão do ator de voz: se você tiver uma pasta contendo todos os parâmetros de um modelo XTTS ajustado de uma voz específica, clique nele para fazer com que esse clone de ator de voz com esse modelo XTTS ajustado, para fornecer resultados de clonagem de voz muito melhores.
- Dropdowns de vozes de personagens: estes são os suspensos para selecionar o dublador ator (e o sotaque de cada caractere se estiver usando XTTS).
- (1): Os dubladores disponíveis para selecionar para este personagem. (O valor padrão é selecionado em áudio com base no gênero inferido de ser: "f, m, outros").
- Quando você seleciona uma voz, ela reproduz a amostra de áudio dessa voz, se for uma voz rápida do modelo de voz e um áudio de refreência não existe, ele gerará um para reproduzir.
- (2): os sotaques disponíveis para selecionar para este caractere. (Opcional, o padrão é inglês).
- Campo Delimitador do Capítulo: alterará o delimitador do capítulo padrão (a sequência usada para identificar capítulos).
- Duração do silêncio no campo milissegundos (MS): isso mudará a quantidade de milissegundos entre cada pedaço combinado de áudio.
- Selecione DOLDOWN DO LUGAR TTS: isso permitirá selecionar o sotaque padrão usado para todos os caracteres que não tiveram o sotaque selecionado manualmente.
- Barra de carregamento: dará uma quantidade aproximada de tempo restante. (Estimativa, você provavelmente não verá previsões precisas até que estejam funcionando por 5 min).
- Bloco de visualização de livros anotados: isso mostrará a totalidade do livro com as linhas de cada personagem codificadas por cores.
- Você pode clicar em uma linha enquanto o audiolivro está sendo gerado para ouvir como é a linha gerada. Mas somente se a linha já tiver gerado áudio para ela; Caso contrário, não jogará nada.
- Botão Carregar Book: Clicando com isso recarregará a exibição de livro anotada com código de cores, ele apenas alega as cores selecionadas para as linhas de cada caractere.
- Gere botão de áudio: começará a gerar o audiolivro completo.
- Selecione o botão Random Voices (só estará visível se a caixa de seleção "Incluir modelos de voz rápida" estiver verificada): selecionar uma voz de modelo rápido diferido automaticamente o gênero para todos os caracteres, exceto a voz do narrador.

GUI Parte 3 (Visualizador de livros) Informações/Recursos
-É difícil explicar mais um playground se você mexer com ele, então você deve conseguir como ele funciona. Mas ele pode ser usado para ajustar o Audiobook -Close pela janela quando você terminar. ? Instalação de instalação
? Voxnovel sem cabeça Google Colab
Explore e execute a versão interativa do projeto Voxnovels sem cabeça diretamente no Google Colab! Comece aqui.
? Docker (som ainda não está funcionando na GUI)
? Docker sem cabeça
Docker sem cabeça M1? Mac
cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:headless_m1_v2
Docker sem cabeça? Linux/Intel? Mac
Para o Docker sem cabeça na CPU apenas
cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest_headless
Para Docker sem cabeça com aceleração da GPU se você tiver uma GPU NVIDA
cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run --gpus all -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest_headless
Janelas sem cabeça do Docker
Instalação e configuração no Windows (PowerShell)
Siga estas etapas para configurar o projeto Voxnovel em um sistema Windows usando o PowerShell:
Navegue até o diretório do seu perfil de usuário:
Clone o repositório Voxnovel do Github:
git clone https: // github.com / DrewThomasson / VoxNovel.git
Voxnovel em Docker
Para operação sem cabeça na CPU
Para executar o aplicativo Voxnovel em um contêiner do Docker na sua CPU:
docker run - v " ${ env: USERPROFILE} /VoxNovel/:/VoxNovel/ " - it athomasson2 / voxnovel:latest_headlessPara operação sem cabeça com a Nvidia GPU Speedup
Se você tem uma GPU da NVIDIA e deseja acelerar o processamento, use o seguinte comando:
docker run -- gpus all - v " ${ env: USERPROFILE} /VoxNovel/:/VoxNovel/ " - it athomasson2 / voxnovel:latest_headless ? GUI Docker (som ainda não está funcionando na GUI)
? Linux Docker
1. `CD ~`-
git clone https://github.com/DrewThomasson/VoxNovel.git -
sudo docker run --gpus all -e DISPLAY=$DISPLAY -v /tmp/.X11-unix:/tmp/.X11-unix -v /dev/snd:/dev/snd --device /dev/snd -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest
? Mac Docker
Configurando aplicativos de GUI com Docker no macOS
Este guia fornece instruções sobre como executar um contêiner do Docker com uma interface gráfica do usuário no macOS usando o XQuartz para o encaminhamento X11 e a montagem de volume.
Instale o Xquartz
- Faça o download e instale o site Xquartz do Xquartz.
- Aberto xquartz.
- Vá para
XQuartz -> Preferences . - Na guia
Security , Ative permitir conexões de clientes de rede . - Reinicie o Xquartz para aplicar essas configurações.
Configure e execute o recipiente do Docker
Permitir que o Docker se conecte ao Xquartz
Abra um terminal e execute o comando a seguir para permitir conexões da sua máquina local para Xquartz:
xhost + $(ifconfig en0 | grep inet | awk '$1=="inet" {print $2}')
Inicie o contêiner do Docker
Execute o seguinte comando para iniciar seu contêiner do docker. Este comando configura a GUI para exibir em seu host e montar os diretórios necessários:
cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
docker run -e DISPLAY=$(ifconfig en0 | grep inet | awk '$1=="inet" {print $2}'):0
-v /tmp/.X11-unix:/tmp/.X11-unix
-v "/Users/$(whoami)/VoxNovel:/VoxNovel"
athomasson2/voxnovel:latest
Notas
- Configuração do Xquartz : Verifique se o Xquartz está configurado para permitir que clientes de rede antes de tentar se conectar.
- Existência do diretório : verifique se o diretório
/Users/$(whoami)/VoxNovel existe no seu Mac. Caso contrário, crie -o ou ajuste o caminho de montagem de volume no comando Docker, conforme necessário. - Firewall e segurança : se você enfrentar problemas de conectividade, verifique qualquer configuração do firewall e preferências de segurança que possam bloquear as conexões.
? Windows Docker
Instale o VCXSRV:
- Primeiro instale o vcxsrv e configure -o para permitir conexões.
Como configurar o VCXSRV
Após a instalação do VCXSRV, ele normalmente é iniciado automaticamente. Você pode confirmar que está sendo executado verificando seu ícone na bandeja do sistema, geralmente localizado perto do relógio na barra de tarefas. Também pode começar automaticamente quando você efetua login no seu sistema.
Para garantir que esteja configurado para permitir conexões de recipientes do Docker, siga estas etapas:
- Clique com o botão direito do mouse no ícone VCXSRV na bandeja do sistema.
- Selecione "Xlaunch" para abrir o Assistente de Configuração.
- No Assistente de Configuração, selecione "Multiple Windows" e prossiga para a próxima etapa.
- Escolha suas configurações preferidas para o número e tela de exibição.
- Na janela "Configurações extras", verifique a caixa rotulada "Desativar controle de acesso" para permitir conexões de contêineres do Docker.
- Conclua a configuração clicando em "Concluir" e depois "salvar a configuração" quando solicitado.
Com essas configurações, o VCXSRV deve estar em execução e configurado para permitir conexões de contêineres do Docker. Agora você pode prosseguir com a execução de seus comandos do Docker que exigem suporte da GUI.
Mude para o seu diretório doméstico:
Clone o repositório:
git clone https://github.com/DrewThomasson/VoxNovel.git
Execute o contêiner do docker:
docker run -e DISPLAY=host.docker.internal:0 -v " /Users/ $( whoami ) /VoxNovel:/VoxNovel/ " -it athomasson2/voxnovel:latest
? Linux
Comando único ubuntu install
(Não use se você já tiver o Miniconda instalado.)
Para instalar o Voxnovel no Ubuntu, você pode usar o seguinte comando único:
yes | wget -O - https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Ubuntu-install.sh | bash
Atalho de mesa
-Eque o script de instalação único acima também deve criar um atalho para o aplicativo também.
Opção de lançamento manual
Ou você pode iniciar manualmente o aplicativo no terminal com o seguinte comando:
cd ~ /VoxNovel && conda activate VoxNovel && python gui_run.py
ou instalação manual:
-
sudo apt-get install calibre -
sudo apt-get install ffmpeg -
conda create --name VoxNovel python=3.10 -
conda activate VoxNovel -
git clone https://github.com/DrewThomasson/VoxNovel.git -
cd VoxNovel -
pip install bs4 -
pip install styletts2 -
pip install tts==0.21.3 -
pip install booknlp==1.0.7.1 -
pip install -r Ubuntu_requirements.txt -
python -m spacy download en_core_web_sm
? Para idiomas não baseados em latim, suporte TTS (opcional)
Instale o MECAB para (não baseado em latim, suporte TTS) (opcional):
- Ubuntu:
sudo apt-get install -y mecab libmecab-dev mecab-ipadic-utf8
(Para o suporte TTS para idiomas não baseados em latim) (opcional)
python -m unidic download
pip install mecab mecab-python3 unidic
? Deck a vapor) (X86_64 Arch Linux)
Para instalar o Voxnovel no seu deck de vapor, abra um terminal e execute o seguinte comando único:
bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Steam-Deck_VoxNovel-Install.sh )
- Agora você deve ter um atalho de mesa para o Voxnovel no final deste script!
? Intel Mac
Instale no Intel Mac:
Baixe o Instalador Intel Voxnovel
Ou execute o seguinte comando em seu terminal:
bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Intel_Mac_Install_VoxNovel.sh )
Uma vez concluído, você deve ter um atalho de mesa para o Voxnovel.
? Desinstale no Intel Mac:
Para desinstalar, execute o seguinte comando em seu terminal:
bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/uninstall_VoxNovel_Mac.sh )
(Privado não use) Intel Mac Manual-Install
Execute nesta ordem:-
brew install calibre -
brew install ffmpeg -
conda create --name VoxNovel python=3.10 -
conda activate VoxNovel -
git clone https://github.com/DrewThomasson/VoxNovel.git -
cd VoxNovel -
pip install styletts2 -
pip install tts==0.21.3 -
pip install booknlp==1.0.7.1 9. pip install -r MAC-requirements.txt -
pip install spacy 11. python -m spacy download en_core_web_sm
? Para idiomas não baseados em latim, suporte TTS (opcional)
Instale o MECAB para (não baseado em latim, suporte TTS) (opcional):
- MacOS:
brew install mecab , brew install mecab-ipadic
(Para o suporte TTS para idiomas não baseados em latim) (opcional)
python -m unidic download
pip install mecab mecab-python3 unidic
? Apple Silicon Mac (testado em 2020 M1 Pro 8GB RAM)
Instale no Apple Silicon Mac:
Baixe o instalador Apple Silicon Voxnovel
Ou execute o seguinte comando em seu terminal:
bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Apple_silicone_VoxNovel_install.sh )
Uma vez concluído, você deve ter um atalho de mesa para o Voxnovel.
? Desinstale no Apple Silicon Mac:
Para desinstalar, execute o seguinte comando em seu terminal:
bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/uninstall_VoxNovel_Mac.sh )
(Privado não use) Apple Silicon Manual-Install
Execute nesta ordem:
-
brew install calibre (você pode precisar também instalá -lo manualmente no site deles, se isso não funcionar) -
brew install ffmpeg -
conda create --name VoxNovel python=3.10 -
conda activate VoxNovel -
git clone https://github.com/DrewThomasson/VoxNovel.git -
cd VoxNovel -
pip install tensorflow-macos (também opcional pip install tensorflow-metal , mas até agora ainda não recebi a aceleração da GPU -
pip install styletts2 -
pip install tts==0.21.3 -
pip install --no-dependencies booknlp==1.0.7.1 -
pip install transformers==4.30.0 -
pip install tensorflow -
pip install -r MAC-requirements.txt -
pip install ebooklib bs4 epub2txt pygame moviepy spacy -
python -m spacy download en_core_web_sm
? Para idiomas não baseados em latim, suporte TTS (opcional)
Instale o MECAB para (não baseado em latim, suporte TTS) (opcional):
- MacOS:
brew install mecab , brew install mecab-ipadic (para o suporte TTS não baseado em latim) (opcional)
python -m unidic download
pip install mecab mecab-python3 unidic
? Windows 11
Por causa dos problemas do Windows BookNLP, tudo isso será executado no WSL (não se preocupe, ainda é fácil).
? Assista ao vídeo de instalação aqui
Em seu PowerShell, pasta:
Para instalar o WSL. (Você pode ser solicitado pelo seu sistema a ativar a virtualização em seu BIOS, se estiver disponível, pois é necessário para executar o WSL no Windows.)
Depois de definir seu nome de usuário e senha, abra WSL e cole este comando para uma única instalação de comando:
yes | wget -O - https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Ubuntu-install.sh | bash
(Opcional apenas para as placas gráficas da NVIDA não executa este comando se você não tiver uma placa gráfica NVIDIA) Instale o NVIDIA CUDA Toolkit (necessário para a aceleração da GPU da NVIDIA):
sudo apt install nvidia-cuda-toolkit
Certifique -se de que você esteja no ambiente Voxnovel condna: (se 'conda: comando não encontrado' ou seja, não é visto como um comando, tente fechar a janela atual do PowerShell e relançar o WSL Env com [wsl -d ubuntu]
Navegue até a pasta Voxnovel (se ainda não estiver lá):
Agora basta executar um dos dois programas mostrados abaixo
Para executar o programa
Ou para correr sem cabeça
python headless_voxnovel.py
Acesse arquivos WSL Ubuntu do Windows
Você pode acessar seus arquivos WSL Ubuntu diretamente no Windows File Explorer, inserindo o seguinte caminho na barra de endereços:
Os arquivos de audiolivros de saída estarão localizados em VoxNoveloutput_audiobooks no WSL Env
Para criar o atalho da área de trabalho do Voxnovel Windows
Execute este comando em PowerShell
Invoke-Expression (Invoke-WebRequest -Uri " https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Windows-install-scripts/create_desktop_shortcut.ps1 " ).Content
? ️ Desinstalação:
Para remover tudo, execute o seguinte comando em PowerShell:
Isso removerá completamente o ambiente do Ubuntu, onde o aplicativo é armazenado. ?
Solução de problemas WSL
Se você tiver problemas com o ambiente WSL:
Liste todos os ambientes WSL:
Remova um ambiente WSL específico (por exemplo, Ubuntu):
wsl --unregister < distro_name >
Reinstale WSL:
Para iniciar o WSL sempre que precisar executar este programa, você pode usar a barra de pesquisa no Windows para encontrar e lançar "WSL" ou executar:
? Para idiomas não baseados em latim, suporte TTS (opcional)
Instale o MECAB para (não baseado em latim, suporte TTS) (opcional):
-
sudo apt-get install -y mecab libmecab-dev mecab-ipadic-utf8
(Para o suporte TTS para idiomas não baseados em latim) (opcional)
python -m unidic download
pip install mecab mecab-python3 unidic
Para executar o programa
Ou para correr sem cabeça
python headless_voxnovel.py
Correndo com baixo VRAM (4 GB)
Modificações
- Acontece que quando você define o dispositivo, ele permanece assim para o programa completo.
- Então, dividi o programa em dois programas Python: uma CPU e uma GPU. Eu testei isso na minha GPU (4 GB de VRAM) e essa solução funciona. Pelo menos do meu lado, eu realmente espero que funcione do seu lado.
Para executar a correção, fiz alfaiate feito para uma situação de GPU com baixa VRAM:
Para executar os scripts fornecidos em seu sistema, siga estas etapas em ordem:
Processamento de livros (somente CPU):
- Script: 1cpu_book_processing.py
- Esse script lida com a tarefa de processar apenas o livro usando o BookNLP, forçando -o especificamente a ser executado na CPU.
- Execute com
python 1CPU_Book_processing.py
Geração de áudio (somente GPU):
- Script: 2GPU_AUDIO_GENERAÇÃO.PY
- Esse script é dedicado a gerar apenas áudio com a GPU e deve ser executado após a conclusão do processamento do livro com
1CPU_Book_processing.py . - Execute com
python 2GPU_Audio_generation.py
Resultados de desempenho
Ao executar um mini teste com um arquivo EPUB usando a configuração acima, foram observadas as seguintes métricas de desempenho:
Resultados de desempenho
Testando em Concluído com o arquivo mini epub localizado no exemplo_working_files.zip
| Tarefa | Configuração | Tempo (segundos) |
|---|
| Processamento de livros | Somente GPU (GeForce GTX 980), 4 GB VRAM, 32 GB de RAM, Intel i7-8700K | 2.922 |
| Geração de áudio | Somente GPU (GeForce GTX 980), 4 GB VRAM, 32 GB de RAM, Intel i7-8700K | 128.48 |
| Processamento de livros | Somente CPU, 32 GB de RAM, Intel i7-8700k | 4.964 |
| Geração de áudio | Somente CPU, 32 GB de RAM, Intel i7-8700k | 391.4227 |
Para executar o programa de automóveis
Isso significa que tudo o que você faz é selecionar o livro e todas as vozes serão atribuídas e geradas automaticamente para você. python auto_noGui_run.py
Acesso gerado arquivos de audiolivro
Você pode acessar seus arquivos de audiolivro gerados na pasta Voxnovel no local
VoxNovel/output_audiobooks
Tipos de arquivo de e -book suportados:
.EPUB, .pdf, .mobi, .txt, .html, .rtf, .chm, .lit, .pdb, .fb2, .odt, .cbr, .cbz, .prc, .lrf, .pml, .snb, .cbc, .rb, e .tcr, .pml, .snb, .cbc, .rb, e .tcr,
- (Os melhores resultados são de usar EPUB ou MOBI para detecção de capítulos automáticos)
Pastas
Pastas usadas pelo programa
/Final_combined_output_audio: é aqui que todos os seus arquivos de áudio de capítulo serão colocados em ordem do capítulo num
/output_audioBooks: é aqui que todos os seus arquivos de audiolivro M4B serão armazenados
/Working_files: mantém todos os arquivos de trabalho usados pelo programa durante a execução ativamente.
- /Working_files/temp_ebook: mantém todos os arquivos TXT de capítulo extraídos individuais do e -book.
/tartaruga: segura todos os arquivos de voz de amostra
Funções da GUI
GUI Parte 1 (processador BookNLP)
-Botão "Processar arquivo": clique e ele solicitará que você selecione um arquivo de e -book. GUI Parte 2 (coqui tts gui)
- Selecione o menu suspenso do modelo TTS: ele seleciona o modelo TTS que será usado para clonagem de voz.
- Inclua caixa de seleção Fast Voice Models: (Gere Fast ao custo da qualidade do áudio) Clique isso para poder ver todos os outros modelos e vozes singulares suportadas pela Coqui TTS.
- Ele atualizará o suspensão "Selecionar modelo TTS" para os modelos de clonagem de voz também incluem (lista de valores a serem adicionados).
- Ele atualizará o menu suspenso para que o Voices selecione para cada caractere incluir também (lista de valores a serem adicionados).
- Faça todo o áudio gerar com a caixa de seleção de voz do narrador: isso fará com que o áudio de todos os personagens seja gerado com a voz que você selecionou para o narrador quando você clicar no botão "Gerar áudio".
- Clone Novo Botão de Voz: Clique isso para adicionar uma nova voz que você pode clonar (verifique se possui um arquivo de áudio de referência à mão).
- Adicione o modelo XTTS de ajuste fino ao botão do ator de voz: se você tiver uma pasta contendo todos os parâmetros de um modelo XTTS ajustado de uma voz específica, clique nele para fazer com que esse clone de ator de voz com esse modelo XTTS ajustado, para fornecer resultados de clonagem de voz muito melhores.
- Dropdowns de vozes de personagens: estes são os suspensos para selecionar o dublador ator (e o sotaque de cada caractere se estiver usando XTTS).
- (1): Os dubladores disponíveis para selecionar para este personagem. (O valor padrão é selecionado em áudio com base no gênero inferido de ser: "f, m, outros").
- Quando você seleciona uma voz, ela reproduz a amostra de áudio dessa voz, se for uma voz rápida do modelo de voz e um áudio de refreência não existe, ele gerará um para reproduzir.
- (2): os sotaques disponíveis para selecionar para este caractere. (Opcional, o padrão é inglês).
- Campo Delimitador do Capítulo: alterará o delimitador do capítulo padrão (a sequência usada para identificar capítulos).
- Duração do silêncio no campo milissegundos (MS): isso mudará a quantidade de milissegundos entre cada pedaço combinado de áudio.
- Selecione DOLDOWN DO LUGAR TTS: isso permitirá selecionar o sotaque padrão usado para todos os caracteres que não tiveram o sotaque selecionado manualmente.
- Barra de carregamento: dará uma quantidade aproximada de tempo restante. (Estimativa, você provavelmente não verá previsões precisas até que estejam funcionando por 5 min).
- Bloco de visualização de livros anotados: isso mostrará a totalidade do livro com as linhas de cada personagem codificadas por cores.
- Você pode clicar em uma linha enquanto o audiolivro está sendo gerado para ouvir como é a linha gerada. Mas somente se a linha já tiver gerado áudio para ela; Caso contrário, não jogará nada.
- Botão Carregar Book: Clicando com isso recarregará a exibição de livro anotada com código de cores, ele apenas alega as cores selecionadas para as linhas de cada caractere.
- Gere botão de áudio: começará a gerar o audiolivro completo.
- Selecione o botão Random Voices (só estará visível se a caixa de seleção "Incluir modelos de voz rápida" estiver verificada): selecionar uma voz de modelo rápido diferido automaticamente o gênero para todos os caracteres, exceto a voz do narrador.
GUI Parte 3 (visualizador de livros)
-É difícil explicar mais um playground se você mexer com ele, então você deve conseguir como ele funciona. Mas ele pode ser usado para ajustar o Audiobook -Close pela janela quando você terminar. ? Características
Recursos planejados recebidos
Agradecimentos especiais a:
-@sidharthrajaram (para sua instalação Styletts2 pip que ele criou, eu não podia de Styletts2 adicional sem ele. :)) (https://github.com/sidharthrajaram/styletts2)