Download de VoxNovel - Download do Código Fonte de VoxNovel

VoxNovel

Outro código-fonte

vel: 1.5

Baixar

Voxnovel

Voxnovel_logo

? Visão geral

O Voxnovel é um programa inovador que aproveita os recursos do BookNLP para analisar a literatura, atribuir cotações a caracteres específicos e gerar um audiolivro personalizado, onde cada personagem tem uma voz distinta através do Coqui TTS. Isso não apenas fornece uma experiência imersiva de audiolivro, mas também dá vida a cada personagem com uma voz única, tornando a experiência auditiva muito mais envolvente.

Modelos TTS incluídos

Todos os modelos coqui tts- (Tacotron, Tacotron2, Glow-TTS, Speedy-fala, Align-TTS, FastPitch, FastSpeech, FastSpeech2, SC-Glowtts, Capacitron, Overflow, Hmm neural, TTS, Tts deliciosos, ⓧTTs, Vits,? Yourtts,?

Antecedentes você pode dar a cada personagem com o modelo de clonagem padrão (XTTS)

- Eles também permitem que eles falem esses idiomas, mas a atribuição da cotação não se identificará corretamente para nada que não seja inglês. English (en), Spanish (es), French (fr), German (de), Italian (it), Portuguese (pt), Polish (pl), Turkish (tr), Russian (ru), Dutch (nl), Czech (cs), Arabic (ar), Chinese (zh-cn), Japanese (ja), Hungarian (hu), Korean (ko)

Saídas como um M4B com todos os metadados do livro e capítulos, exemplo de arquivo de saída em um aplicativo de audiolivro

Exemplo_of_output_in_audiobook_program

(bem como uma pasta de arquivos individuais do MP4 Chatper com a imagem do e -book incorporada neles, se você quiser)

? Demos

Demos XTTs v2 de alta qualidade

Guardians_of_ga.hoole_10._Lasky._kathryn _-_ viche_of_hoole_chapter_4.mp4

? Mais arquivos de áudio de demonstração :)

Dimensões de tartaruga de alta qualidade

272463996-C4F8DFDF-C5BD-4771-AB1A-6131C22A67B2.MP4

Demonsibras de Balacoon de áudio super rápido

271878548-53B694A9-5DDD-4174-82BC-07AFF22D2330.MP4

271876316-530E8781-C77C-4424-89CD-A02DF363B0BF.MP4

** Testes super de alta qualidade com modelos túnicos finos **

AUDIO_5811.MP4

Você pode ajustar seus próprios modelos XTTS com cerca de 6 minutos de áudio gratuitamente com este colab ~~https://colab.research.google.com/drive/1gii4_x724m8q2w-zz-jxo7cwtv7rfah-~~

Edit: que colab não funciona mais: use minha versão que forneça uma correção: https://colab.research.google.com/drive/1sqqqzupo2pdjggkrbm60su6sbfyo3su?usp=sharing

? Voxnovel sem cabeça Google Colab

Explore e execute a versão interativa do projeto Voxnovels sem cabeça diretamente no Google Colab! Comece aqui.

GUI

GUI_1_SELECT_FILE

GUI Parte 1 (Processador BookNLP) Informações/Recursos

-Botão "Processar arquivo": clique e ele solicitará que você selecione um arquivo de e -book.

GUI_2_FineTune

Ferramenta de correção de atribuição de alto -falante manual (GUI 1.5)

Esta GUI é para a correção manual das atribuições do alto -falante se as cotações forem atribuídas incorretamente pelo BookNLP. Ele lê o arquivo book.csv que contém os livros extraídos citações e informações do alto -falante e permite inspecionar e modificar visualmente as atribuições do alto -falante, conforme necessário antes de ser passado para a próxima etapa do TTS.

Principais recursos:

Exibição de texto rolável: permite que os usuários visualizem o texto do livro com atribuições de alto-falantes codificadas em cores.
Seleção de alto -falantes: os usuários podem selecionar um novo alto -falante em um menu suspenso para reatribuir linhas específicas.
Citações verificáveis: As linhas do livro são exibidas com caixas de seleção, permitindo a seleção de várias linhas para a reatribuição do alto -falante.
Codificação de cores do alto -falante: Cada alto -falante recebe uma cor única para facilitar a identificação.
Botões para ação:
- Atualize os alto -falantes selecionados: aplique o alto -falante selecionado em todas as linhas verificadas.
- Desmarque tudo: desmarque todas as linhas selecionadas.
- Continue: salve alterações e saia da ferramenta.

Como usar:

Selecione linhas: verifique as caixas ao lado das linhas que deseja alterar.
Escolha o alto -falante: selecione o alto -falante desejado no menu suspenso.
Aplique alterações: clique em "Atualize os alto -falantes selecionados" para aplicar as alterações.
Revisão: o texto será atualizado para refletir as alterações.
Desmarcar: clique em "Desmarque tudo" para limpar suas seleções.
Acabamento: Uma vez satisfeito com as correções, clique em "Continuar" para salvar e sair.

GUI_2_FineTune

GUI Parte 2 (Coqui TTS GUI) Informações/Recursos

Selecione o menu suspenso do modelo TTS: ele seleciona o modelo TTS que será usado para clonagem de voz.
Inclua caixa de seleção Fast Voice Models: (Gere Fast ao custo da qualidade do áudio) Clique isso para poder ver todos os outros modelos e vozes singulares suportadas pela Coqui TTS.
- Ele atualizará o suspensão "Selecionar modelo TTS" para os modelos de clonagem de voz também incluem (lista de valores a serem adicionados).
- Ele atualizará o menu suspenso para que o Voices selecione para cada caractere incluir também (lista de valores a serem adicionados).
Faça todo o áudio gerar com a caixa de seleção de voz do narrador: isso fará com que o áudio de todos os personagens seja gerado com a voz que você selecionou para o narrador quando você clicar no botão "Gerar áudio".
Clone Novo Botão de Voz: Clique isso para adicionar uma nova voz que você pode clonar (verifique se possui um arquivo de áudio de referência à mão).
Adicione o modelo XTTS de ajuste fino ao botão do ator de voz: se você tiver uma pasta contendo todos os parâmetros de um modelo XTTS ajustado de uma voz específica, clique nele para fazer com que esse clone de ator de voz com esse modelo XTTS ajustado, para fornecer resultados de clonagem de voz muito melhores.
Dropdowns de vozes de personagens: estes são os suspensos para selecionar o dublador ator (e o sotaque de cada caractere se estiver usando XTTS).
- (1): Os dubladores disponíveis para selecionar para este personagem. (O valor padrão é selecionado em áudio com base no gênero inferido de ser: "f, m, outros").
  - Quando você seleciona uma voz, ela reproduz a amostra de áudio dessa voz, se for uma voz rápida do modelo de voz e um áudio de refreência não existe, ele gerará um para reproduzir.
- (2): os sotaques disponíveis para selecionar para este caractere. (Opcional, o padrão é inglês).
Campo Delimitador do Capítulo: alterará o delimitador do capítulo padrão (a sequência usada para identificar capítulos).
Duração do silêncio no campo milissegundos (MS): isso mudará a quantidade de milissegundos entre cada pedaço combinado de áudio.
Selecione DOLDOWN DO LUGAR TTS: isso permitirá selecionar o sotaque padrão usado para todos os caracteres que não tiveram o sotaque selecionado manualmente.
Barra de carregamento: dará uma quantidade aproximada de tempo restante. (Estimativa, você provavelmente não verá previsões precisas até que estejam funcionando por 5 min).
Bloco de visualização de livros anotados: isso mostrará a totalidade do livro com as linhas de cada personagem codificadas por cores.
- Você pode clicar em uma linha enquanto o audiolivro está sendo gerado para ouvir como é a linha gerada. Mas somente se a linha já tiver gerado áudio para ela; Caso contrário, não jogará nada.
Botão Carregar Book: Clicando com isso recarregará a exibição de livro anotada com código de cores, ele apenas alega as cores selecionadas para as linhas de cada caractere.
Gere botão de áudio: começará a gerar o audiolivro completo.
Selecione o botão Random Voices (só estará visível se a caixa de seleção "Incluir modelos de voz rápida" estiver verificada): selecionar uma voz de modelo rápido diferido automaticamente o gênero para todos os caracteres, exceto a voz do narrador.

GUI_3_RUN

GUI Parte 3 (Visualizador de livros) Informações/Recursos

-É difícil explicar mais um playground se você mexer com ele, então você deve conseguir como ele funciona. Mas ele pode ser usado para ajustar o Audiobook -Close pela janela quando você terminar.

? Instalação de instalação

? Voxnovel sem cabeça Google Colab

Explore e execute a versão interativa do projeto Voxnovels sem cabeça diretamente no Google Colab! Comece aqui.

? Docker (som ainda não está funcionando na GUI)

? Docker sem cabeça

Docker sem cabeça M1? Mac

cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:headless_m1_v2

Docker sem cabeça? Linux/Intel? Mac

Para o Docker sem cabeça na CPU apenas

cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest_headless

Para Docker sem cabeça com aceleração da GPU se você tiver uma GPU NVIDA

cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run --gpus all -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest_headless

Janelas sem cabeça do Docker

Instalação e configuração no Windows (PowerShell)

Siga estas etapas para configurar o projeto Voxnovel em um sistema Windows usando o PowerShell:

Navegue até o diretório do seu perfil de usuário:
```
cd $ env: USERPROFILE
```

Clone o repositório Voxnovel do Github:

git clone https: // github.com / DrewThomasson / VoxNovel.git

Voxnovel em Docker

Para operação sem cabeça na CPU

Para executar o aplicativo Voxnovel em um contêiner do Docker na sua CPU:

docker run - v " ${ env: USERPROFILE} /VoxNovel/:/VoxNovel/ " - it athomasson2 / voxnovel:latest_headless

Para operação sem cabeça com a Nvidia GPU Speedup

Se você tem uma GPU da NVIDIA e deseja acelerar o processamento, use o seguinte comando:

docker run -- gpus all - v " ${ env: USERPROFILE} /VoxNovel/:/VoxNovel/ " - it athomasson2 / voxnovel:latest_headless

? GUI Docker (som ainda não está funcionando na GUI)

? Linux Docker

1. `CD ~`

git clone https://github.com/DrewThomasson/VoxNovel.git
sudo docker run --gpus all -e DISPLAY=$DISPLAY -v /tmp/.X11-unix:/tmp/.X11-unix -v /dev/snd:/dev/snd --device /dev/snd -v "$HOME/VoxNovel:/VoxNovel/" -it athomasson2/voxnovel:latest

? Mac Docker

Configurando aplicativos de GUI com Docker no macOS

Este guia fornece instruções sobre como executar um contêiner do Docker com uma interface gráfica do usuário no macOS usando o XQuartz para o encaminhamento X11 e a montagem de volume.

Instale o Xquartz

Faça o download e instale o site Xquartz do Xquartz.
Aberto xquartz.
Vá para XQuartz -> Preferences .
Na guia Security , Ative permitir conexões de clientes de rede .
Reinicie o Xquartz para aplicar essas configurações.

Configure e execute o recipiente do Docker

Permitir que o Docker se conecte ao Xquartz

Abra um terminal e execute o comando a seguir para permitir conexões da sua máquina local para Xquartz:

 xhost + $(ifconfig en0 | grep inet | awk '$1=="inet" {print $2}')

Inicie o contêiner do Docker

Execute o seguinte comando para iniciar seu contêiner do docker. Este comando configura a GUI para exibir em seu host e montar os diretórios necessários:

 cd ~
git clone https://github.com/DrewThomasson/VoxNovel.git
docker run -e DISPLAY=$(ifconfig en0 | grep inet | awk '$1=="inet" {print $2}'):0 
           -v /tmp/.X11-unix:/tmp/.X11-unix 
           -v "/Users/$(whoami)/VoxNovel:/VoxNovel" 
           athomasson2/voxnovel:latest

Notas

Configuração do Xquartz : Verifique se o Xquartz está configurado para permitir que clientes de rede antes de tentar se conectar.
Existência do diretório : verifique se o diretório /Users/$(whoami)/VoxNovel existe no seu Mac. Caso contrário, crie -o ou ajuste o caminho de montagem de volume no comando Docker, conforme necessário.
Firewall e segurança : se você enfrentar problemas de conectividade, verifique qualquer configuração do firewall e preferências de segurança que possam bloquear as conexões.

? Windows Docker

Instale o VCXSRV:
```
choco install vcxsrv
```
- Primeiro instale o vcxsrv e configure -o para permitir conexões.
Como configurar o VCXSRV
Após a instalação do VCXSRV, ele normalmente é iniciado automaticamente. Você pode confirmar que está sendo executado verificando seu ícone na bandeja do sistema, geralmente localizado perto do relógio na barra de tarefas. Também pode começar automaticamente quando você efetua login no seu sistema.
Para garantir que esteja configurado para permitir conexões de recipientes do Docker, siga estas etapas:
1. Clique com o botão direito do mouse no ícone VCXSRV na bandeja do sistema.
2. Selecione "Xlaunch" para abrir o Assistente de Configuração.
3. No Assistente de Configuração, selecione "Multiple Windows" e prossiga para a próxima etapa.
4. Escolha suas configurações preferidas para o número e tela de exibição.
5. Na janela "Configurações extras", verifique a caixa rotulada "Desativar controle de acesso" para permitir conexões de contêineres do Docker.
6. Conclua a configuração clicando em "Concluir" e depois "salvar a configuração" quando solicitado.
Com essas configurações, o VCXSRV deve estar em execução e configurado para permitir conexões de contêineres do Docker. Agora você pode prosseguir com a execução de seus comandos do Docker que exigem suporte da GUI.
Mude para o seu diretório doméstico:
```
 cd $HOME
```

Clone o repositório:

git clone https://github.com/DrewThomasson/VoxNovel.git

Execute o contêiner do docker:

docker run -e DISPLAY=host.docker.internal:0 -v " /Users/ $( whoami ) /VoxNovel:/VoxNovel/ " -it athomasson2/voxnovel:latest

? Linux

Comando único ubuntu install

(Não use se você já tiver o Miniconda instalado.)

Para instalar o Voxnovel no Ubuntu, você pode usar o seguinte comando único:

yes | wget -O - https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Ubuntu-install.sh | bash

Atalho de mesa

-Eque o script de instalação único acima também deve criar um atalho para o aplicativo também.

Opção de lançamento manual

Ou você pode iniciar manualmente o aplicativo no terminal com o seguinte comando:

 cd ~ /VoxNovel && conda activate VoxNovel && python gui_run.py

ou instalação manual:

sudo apt-get install calibre
sudo apt-get install ffmpeg
conda create --name VoxNovel python=3.10
conda activate VoxNovel
git clone https://github.com/DrewThomasson/VoxNovel.git
cd VoxNovel
pip install bs4
pip install styletts2
pip install tts==0.21.3
pip install booknlp==1.0.7.1
pip install -r Ubuntu_requirements.txt
python -m spacy download en_core_web_sm

? Para idiomas não baseados em latim, suporte TTS (opcional)

Instale o MECAB para (não baseado em latim, suporte TTS) (opcional):

Ubuntu: sudo apt-get install -y mecab libmecab-dev mecab-ipadic-utf8

(Para o suporte TTS para idiomas não baseados em latim) (opcional)
python -m unidic download

pip install mecab mecab-python3 unidic

? Deck a vapor) (X86_64 Arch Linux)

Para instalar o Voxnovel no seu deck de vapor, abra um terminal e execute o seguinte comando único:

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Steam-Deck_VoxNovel-Install.sh )

Agora você deve ter um atalho de mesa para o Voxnovel no final deste script!

? Intel Mac

Instale no Intel Mac:

Baixe o Instalador Intel Voxnovel

Ou execute o seguinte comando em seu terminal:

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Intel_Mac_Install_VoxNovel.sh )

Uma vez concluído, você deve ter um atalho de mesa para o Voxnovel.

? Desinstale no Intel Mac:

Para desinstalar, execute o seguinte comando em seu terminal:

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/uninstall_VoxNovel_Mac.sh )

(Privado não use) Intel Mac Manual-Install

Execute nesta ordem:

brew install calibre
brew install ffmpeg
conda create --name VoxNovel python=3.10
conda activate VoxNovel
git clone https://github.com/DrewThomasson/VoxNovel.git
cd VoxNovel
pip install styletts2
pip install tts==0.21.3
pip install booknlp==1.0.7.1 9. pip install -r MAC-requirements.txt
pip install spacy 11. python -m spacy download en_core_web_sm

? Para idiomas não baseados em latim, suporte TTS (opcional)

Instale o MECAB para (não baseado em latim, suporte TTS) (opcional):

MacOS: brew install mecab , brew install mecab-ipadic

(Para o suporte TTS para idiomas não baseados em latim) (opcional)
python -m unidic download

pip install mecab mecab-python3 unidic

? Apple Silicon Mac (testado em 2020 M1 Pro 8GB RAM)

Instale no Apple Silicon Mac:

Baixe o instalador Apple Silicon Voxnovel

Ou execute o seguinte comando em seu terminal:

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Apple_silicone_VoxNovel_install.sh )

Uma vez concluído, você deve ter um atalho de mesa para o Voxnovel.

? Desinstale no Apple Silicon Mac:

Para desinstalar, execute o seguinte comando em seu terminal:

bash <( curl -s https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/uninstall_VoxNovel_Mac.sh )

(Privado não use) Apple Silicon Manual-Install

Execute nesta ordem:

brew install calibre (você pode precisar também instalá -lo manualmente no site deles, se isso não funcionar)
brew install ffmpeg
conda create --name VoxNovel python=3.10
conda activate VoxNovel
git clone https://github.com/DrewThomasson/VoxNovel.git
cd VoxNovel
pip install tensorflow-macos (também opcional pip install tensorflow-metal , mas até agora ainda não recebi a aceleração da GPU
pip install styletts2
pip install tts==0.21.3
pip install --no-dependencies booknlp==1.0.7.1
pip install transformers==4.30.0
pip install tensorflow
pip install -r MAC-requirements.txt
pip install ebooklib bs4 epub2txt pygame moviepy spacy
python -m spacy download en_core_web_sm

? Para idiomas não baseados em latim, suporte TTS (opcional)

Instale o MECAB para (não baseado em latim, suporte TTS) (opcional):

MacOS: brew install mecab , brew install mecab-ipadic (para o suporte TTS não baseado em latim) (opcional)
python -m unidic download

pip install mecab mecab-python3 unidic

? Windows 11

Por causa dos problemas do Windows BookNLP, tudo isso será executado no WSL (não se preocupe, ainda é fácil).

? Assista ao vídeo de instalação aqui

Em seu PowerShell, pasta:
```
wsl --install
```
Para instalar o WSL. (Você pode ser solicitado pelo seu sistema a ativar a virtualização em seu BIOS, se estiver disponível, pois é necessário para executar o WSL no Windows.)

Depois de definir seu nome de usuário e senha, abra WSL e cole este comando para uma única instalação de comando:

yes | wget -O - https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Ubuntu-install.sh | bash

(Opcional apenas para as placas gráficas da NVIDA não executa este comando se você não tiver uma placa gráfica NVIDIA) Instale o NVIDIA CUDA Toolkit (necessário para a aceleração da GPU da NVIDIA):
```
sudo apt install nvidia-cuda-toolkit
```
Certifique -se de que você esteja no ambiente Voxnovel condna: (se 'conda: comando não encontrado' ou seja, não é visto como um comando, tente fechar a janela atual do PowerShell e relançar o WSL Env com [wsl -d ubuntu]
```
conda activate VoxNovel
```
Navegue até a pasta Voxnovel (se ainda não estiver lá):
```
 cd ~ && cd VoxNovel
```
Agora basta executar um dos dois programas mostrados abaixo

Para executar o programa

python gui_run.py

Ou para correr sem cabeça

python headless_voxnovel.py

Acesse arquivos WSL Ubuntu do Windows

Você pode acessar seus arquivos WSL Ubuntu diretamente no Windows File Explorer, inserindo o seguinte caminho na barra de endereços:

 \wsl.localhostUbuntuhome

Os arquivos de audiolivros de saída estarão localizados em VoxNoveloutput_audiobooks no WSL Env

Para criar o atalho da área de trabalho do Voxnovel Windows

Execute este comando em PowerShell

Invoke-Expression (Invoke-WebRequest -Uri " https://raw.githubusercontent.com/DrewThomasson/VoxNovel/main/shell_install_scripts/Windows-install-scripts/create_desktop_shortcut.ps1 " ).Content

? ️ Desinstalação:

Para remover tudo, execute o seguinte comando em PowerShell:

wsl --unregister Ubuntu

Isso removerá completamente o ambiente do Ubuntu, onde o aplicativo é armazenado. ?

Solução de problemas WSL

Se você tiver problemas com o ambiente WSL:

Liste todos os ambientes WSL:
```
wsl --list --verbose
```
Remova um ambiente WSL específico (por exemplo, Ubuntu):
```
wsl --unregister < distro_name >
```
Reinstale WSL:
```
wsl --install
```

Para iniciar o WSL sempre que precisar executar este programa, você pode usar a barra de pesquisa no Windows para encontrar e lançar "WSL" ou executar:

wsl

? Para idiomas não baseados em latim, suporte TTS (opcional)

Instale o MECAB para (não baseado em latim, suporte TTS) (opcional):

sudo apt-get install -y mecab libmecab-dev mecab-ipadic-utf8

(Para o suporte TTS para idiomas não baseados em latim) (opcional)
python -m unidic download

pip install mecab mecab-python3 unidic

Para executar o programa

python gui_run.py

Ou para correr sem cabeça

python headless_voxnovel.py

Correndo com baixo VRAM (4 GB)

Modificações

Acontece que quando você define o dispositivo, ele permanece assim para o programa completo.
Então, dividi o programa em dois programas Python: uma CPU e uma GPU. Eu testei isso na minha GPU (4 GB de VRAM) e essa solução funciona. Pelo menos do meu lado, eu realmente espero que funcione do seu lado.

Para executar a correção, fiz alfaiate feito para uma situação de GPU com baixa VRAM:

Para executar os scripts fornecidos em seu sistema, siga estas etapas em ordem:

Processamento de livros (somente CPU):
- Script: 1cpu_book_processing.py
- Esse script lida com a tarefa de processar apenas o livro usando o BookNLP, forçando -o especificamente a ser executado na CPU.
- Execute com python 1CPU_Book_processing.py
Geração de áudio (somente GPU):
- Script: 2GPU_AUDIO_GENERAÇÃO.PY
- Esse script é dedicado a gerar apenas áudio com a GPU e deve ser executado após a conclusão do processamento do livro com 1CPU_Book_processing.py .
- Execute com python 2GPU_Audio_generation.py

Resultados de desempenho

Ao executar um mini teste com um arquivo EPUB usando a configuração acima, foram observadas as seguintes métricas de desempenho:

Resultados de desempenho

Testando em Concluído com o arquivo mini epub localizado no exemplo_working_files.zip

Tarefa	Configuração	Tempo (segundos)
Processamento de livros	Somente GPU (GeForce GTX 980), 4 GB VRAM, 32 GB de RAM, Intel i7-8700K	2.922
Geração de áudio	Somente GPU (GeForce GTX 980), 4 GB VRAM, 32 GB de RAM, Intel i7-8700K	128.48
Processamento de livros	Somente CPU, 32 GB de RAM, Intel i7-8700k	4.964
Geração de áudio	Somente CPU, 32 GB de RAM, Intel i7-8700k	391.4227

Para executar o programa de automóveis

Isso significa que tudo o que você faz é selecionar o livro e todas as vozes serão atribuídas e geradas automaticamente para você.

python auto_noGui_run.py

Acesso gerado arquivos de audiolivro

Você pode acessar seus arquivos de audiolivro gerados na pasta Voxnovel no local

 VoxNovel/output_audiobooks

Tipos de arquivo de e -book suportados:

.EPUB, .pdf, .mobi, .txt, .html, .rtf, .chm, .lit, .pdb, .fb2, .odt, .cbr, .cbz, .prc, .lrf, .pml, .snb, .cbc, .rb, e .tcr, .pml, .snb, .cbc, .rb, e .tcr,

(Os melhores resultados são de usar EPUB ou MOBI para detecção de capítulos automáticos)

Pastas

Pastas usadas pelo programa

/Final_combined_output_audio: é aqui que todos os seus arquivos de áudio de capítulo serão colocados em ordem do capítulo num

/output_audioBooks: é aqui que todos os seus arquivos de audiolivro M4B serão armazenados

/Working_files: mantém todos os arquivos de trabalho usados pelo programa durante a execução ativamente.

/Working_files/temp_ebook: mantém todos os arquivos TXT de capítulo extraídos individuais do e -book.

/tartaruga: segura todos os arquivos de voz de amostra

Funções da GUI

GUI Parte 1 (processador BookNLP)

-Botão "Processar arquivo": clique e ele solicitará que você selecione um arquivo de e -book.

GUI Parte 2 (coqui tts gui)

Selecione o menu suspenso do modelo TTS: ele seleciona o modelo TTS que será usado para clonagem de voz.
Inclua caixa de seleção Fast Voice Models: (Gere Fast ao custo da qualidade do áudio) Clique isso para poder ver todos os outros modelos e vozes singulares suportadas pela Coqui TTS.
- Ele atualizará o suspensão "Selecionar modelo TTS" para os modelos de clonagem de voz também incluem (lista de valores a serem adicionados).
- Ele atualizará o menu suspenso para que o Voices selecione para cada caractere incluir também (lista de valores a serem adicionados).
Faça todo o áudio gerar com a caixa de seleção de voz do narrador: isso fará com que o áudio de todos os personagens seja gerado com a voz que você selecionou para o narrador quando você clicar no botão "Gerar áudio".
Clone Novo Botão de Voz: Clique isso para adicionar uma nova voz que você pode clonar (verifique se possui um arquivo de áudio de referência à mão).
Adicione o modelo XTTS de ajuste fino ao botão do ator de voz: se você tiver uma pasta contendo todos os parâmetros de um modelo XTTS ajustado de uma voz específica, clique nele para fazer com que esse clone de ator de voz com esse modelo XTTS ajustado, para fornecer resultados de clonagem de voz muito melhores.
Dropdowns de vozes de personagens: estes são os suspensos para selecionar o dublador ator (e o sotaque de cada caractere se estiver usando XTTS).
- (1): Os dubladores disponíveis para selecionar para este personagem. (O valor padrão é selecionado em áudio com base no gênero inferido de ser: "f, m, outros").
  - Quando você seleciona uma voz, ela reproduz a amostra de áudio dessa voz, se for uma voz rápida do modelo de voz e um áudio de refreência não existe, ele gerará um para reproduzir.
- (2): os sotaques disponíveis para selecionar para este caractere. (Opcional, o padrão é inglês).
Campo Delimitador do Capítulo: alterará o delimitador do capítulo padrão (a sequência usada para identificar capítulos).
Duração do silêncio no campo milissegundos (MS): isso mudará a quantidade de milissegundos entre cada pedaço combinado de áudio.
Selecione DOLDOWN DO LUGAR TTS: isso permitirá selecionar o sotaque padrão usado para todos os caracteres que não tiveram o sotaque selecionado manualmente.
Barra de carregamento: dará uma quantidade aproximada de tempo restante. (Estimativa, você provavelmente não verá previsões precisas até que estejam funcionando por 5 min).
Bloco de visualização de livros anotados: isso mostrará a totalidade do livro com as linhas de cada personagem codificadas por cores.
- Você pode clicar em uma linha enquanto o audiolivro está sendo gerado para ouvir como é a linha gerada. Mas somente se a linha já tiver gerado áudio para ela; Caso contrário, não jogará nada.
Botão Carregar Book: Clicando com isso recarregará a exibição de livro anotada com código de cores, ele apenas alega as cores selecionadas para as linhas de cada caractere.
Gere botão de áudio: começará a gerar o audiolivro completo.
Selecione o botão Random Voices (só estará visível se a caixa de seleção "Incluir modelos de voz rápida" estiver verificada): selecionar uma voz de modelo rápido diferido automaticamente o gênero para todos os caracteres, exceto a voz do narrador.

GUI Parte 3 (visualizador de livros)

-É difícil explicar mais um playground se você mexer com ele, então você deve conseguir como ele funciona. Mas ele pode ser usado para ajustar o Audiobook -Close pela janela quando você terminar.

? Características

Recursos planejados recebidos

Faça para que todas as vozes e modelos incluídos já tenham suas próprias vozes de demonstração premiadas
Faça isso para que o áudio da demonstração para as vozes clonadas não seja o áudio de referência, mas como suas vozes parecem geradas
Usando transcrições de sussurros para cortar alucinações do áudio gerado
Incorporando o modelo local para gerar efeitos sonoros quando um livro descreve um local ou efeito sonoro
Adicionando Salvar Arquivo Funcional

Agradecimentos especiais a:

-@sidharthrajaram (para sua instalação Styletts2 pip que ele criou, eu não podia de Styletts2 adicional sem ele. :)) (https://github.com/sidharthrajaram/styletts2)

Expandir

Informações adicionais

Versão vel: 1.5
Tipo Outro código-fonte
Data da Última Atualização 2025-03-08
tamanho 70.96MB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos