tts tortoise gradio Download - tts tortoise gradio Código -fonte Download

tts tortoise gradio

Código-Fonte de IA

1.0.0

Baixar

Tartaruga

Tortoise é um programa de texto em fala criado com as seguintes prioridades:

Recursos de várias vozes fortes.
Prosódia e entonação altamente realistas.

Este repo contém todo o código necessário para executar o TTTS TTS no modo de inferência.

Colab

Colab é a maneira mais fácil de experimentar isso. Eu montei um caderno que você pode usar aqui: https://colab.research.google.com/drive/1wvqupqwidbuvewwounglpghu3hg_cbr?usp=sharing

Instalação local

Se você deseja usar isso no seu próprio computador, deve ter uma GPU da NVIDIA.

Primeiro, instale o pytorch usando estas instruções: https://pytorch.org/get-started/locally/. No Windows, eu recomendo usar o caminho de instalação do CONDA. Disseram -me que, se você não fizer isso, gastará muito tempo perseguindo problemas de dependência.

Em seguida, instale a tartaruga e suas dependências:

git clone https://github.com/neonbjb/tortoise-tts.git
cd tortoise-tts
python setup.py install

Se você estiver no Windows, também precisará instalar o PysoundFile: conda install -c conda-forge pysoundfile

do_tts.py

Este script permite que você fale uma única frase com uma ou mais vozes.

python tortoise/do_tts.py --text " I'm going to speak this " --voice random --preset fast

read.py

Este script fornece ferramentas para ler grandes quantidades de texto.

python tortoise/read.py --textfile < your text to be read > --voice random

Isso dividirá o arquivo de texto em frases e depois as converterá para a fala uma de cada vez. Ele produzirá uma série de clipes falados à medida que são gerados. Depois que todos os clipes forem gerados, ele os combinará em um único arquivo e a saída isso também.

Às vezes, a tartaruga estraga uma saída. Você pode re-gerar qualquer clipes ruins, reencontrando read.py com o argumento-Regenerate.

API

Tartaruga pode ser usada programaticamente, assim:

 reference_clips = [ utils . audio . load_audio ( p , 22050 ) for p in clips_paths ]
tts = api . TextToSpeech ()
pcm_audio = tts . tts_with_preset ( "your text here" , voice_samples = reference_clips , preset = 'fast' )

Guia de personalização de voz

A tartaruga foi treinada especificamente para ser um modelo de vários falantes. Ele faz isso consultando clipes de referência.

Esses clipes de referência são gravações de um orador que você fornece para orientar a geração de fala. Esses clipes são usados para determinar muitas propriedades da saída, como o tom e o tom da voz, a velocidade falando e até mesmo defeitos como um lisp ou gaguejando. O clipe de referência também é usado para determinar aspectos relacionados a não-voz da saída de áudio, como volume, ruído de fundo, qualidade de gravação e reverb.

Voz aleatória

Incluí um recurso que gera aleatoriamente uma voz. Essas vozes não existem e serão aleatórias toda vez que você a executa. Os resultados são bastante fascinantes e eu recomendo que você brinque com ele!

Você pode usar a voz aleatória passando 'aleatório' como o nome da voz. Tartaruga cuidará do resto.

Para os do espaço de ML: isso é criado projetando um vetor aleatório no espaço latente do condicionamento de voz.

Vozes fornecidas

Este repositório vem com várias vozes pré-embaladas. As vozes anteriores com "Train_" vieram do conjunto de treinamento e têm um desempenho muito melhor do que as outras. Se seu objetivo é um discurso de alta qualidade, recomendo que você escolha um deles. Se você quiser ver o que a tartaruga pode fazer por um imitação de tiro zero, dê uma olhada nos outros.

Adicionando uma nova voz

Para adicionar novas vozes à tartaruga, você precisará fazer o seguinte:

Reúna clipes de áudio do (s) seu (s) orador (s). Boas fontes são entrevistas no YouTube (você pode usar o YouTube-DL para buscar o áudio), audiolivros ou podcasts. As diretrizes para bons clipes estão na próxima seção.
Corte seus clipes em ~ 10 segundos segmentos. Você quer pelo menos 3 clipes. Mais é melhor, mas só experimentei até 5 nos meus testes.
Salve os clipes como um arquivo WAV com formato de ponto flutuante e uma taxa de amostragem de 22.050.
Crie um subdiretório em Voices/
Coloque seus clipes nesse subdiretório.
Execute utilitários de tartaruga com --voice = <your_subdirectory_name>.

Escolhendo bons clipes de referência

Como mencionado acima, seus clipes de referência têm um impacto profundo na produção de tartaruga. A seguir estão algumas dicas para escolher bons clipes:

Evite clipes com música de fundo, ruído ou reverb. Esses clipes foram removidos do conjunto de dados de treinamento. É improvável que a tartaruga se faça bem com eles.
Evite discursos. Eles geralmente têm distorção causada pelo sistema de amplificação.
Evite clipes de telefonemas.
Evite clipes que tenham gaguejamento excessivo, gaguejando ou palavras como "uh" ou "como" neles.
Tente encontrar clipes falados de maneira que você deseje que sua saída pareça. Por exemplo, se você quiser ouvir sua voz alvo ler um audiolivro, tente encontrar clipes deles lendo um livro.
O texto falado nos clipes não importa, mas o texto diversificado parece ter um desempenho melhor.

Uso avançado

Configurações de geração

A tartaruga é principalmente um modelo de decodificador autoregressivo combinado com um modelo de difusão. Ambos têm muitos botões que podem ser transformados e abstraí -lo por uma questão de facilidade de uso. Fiz isso gerando milhares de clipes usando várias permutações das configurações e usando uma métrica para realismo e inteligibilidade de voz para medir seus efeitos. Definei os padrões para as melhores configurações gerais que consegui encontrar. Para casos de uso específicos, pode ser eficaz brincar com essas configurações (e é muito provável que eu tenha perdido alguma coisa!)

Essas configurações não estão disponíveis nos scripts normais embalados com tartaruga. Eles estão disponíveis, no entanto, na API. Consulte api.tts para uma lista completa.

Engenharia rápida

Algumas pessoas descobriram que é possível fazer uma engenharia pronta com tartaruga! Por exemplo, você pode evocar emoção, incluindo coisas como "I'm Realmente triste", antes do seu texto. Eu criei um sistema de redação automatizado que você pode usar para aproveitar isso. Funciona tentando redigir qualquer texto no prompt, cercado por colchetes. Por exemplo, o aviso "[Estou realmente triste], por favor, me alimente." Só falará as palavras "Por favor, alimente -me" (com uma tonalidade triste).

Brincando com a voz latente

A tartaruga ingera clipes de referência, alimentando -os individualmente através de um pequeno submodelo que produz um ponto latente e depois pegando a média de todos os latentes produzidos. A experimentação que fiz indicou que esses latentes de pontos são bastante expressivos, afetando tudo, do tom a taxa de fala e anormalidades da fala.

Isso se presta a alguns truques interessantes. Por exemplo, você pode combinar alimentar duas vozes diferentes para a tartaruga e ele produzirá como ela acha que a "média" dessas duas vozes soa.

Gerando latentes de condicionamento a partir de vozes

Use o script get_conditioning_latents.py para extrair latentes de condicionamento para uma voz que você instalou. Este script despejará os latentes em um arquivo de picles. PTH. O arquivo conterá uma única tupla, (AutoRegressive_latent, difusion_latent).

Como alternativa, use a api.texttosteech.get_conditioning_latents () para buscar os latentes.

Usando latentes de condicionamento bruto para gerar fala

Depois de brincar com eles, você pode usá -los para gerar discursos criando um subdiretório em vozes/ com um único arquivo ".th" que contém os latentes de condicionamento em conserva como uma tupla (AutoRegressive_latent, Diffusion_latent).

Detecção de tartaruga

Por preocupações de que esse modelo possa ser mal utilizado, construí um classificador que representa a probabilidade de um clipe de áudio ter vindo da tartaruga.

Este classificador pode ser executado em qualquer computador, o uso é o seguinte:

 python tortoise/is_this_from_tortoise.py --clip=<path_to_suspicious_audio_file>

Este modelo tem 100% de precisão no conteúdo dos resultados/ e vozes/ pastas neste repositório. Ainda assim, trate esse classificador como um "sinal forte". Os classificadores podem ser enganados e também não é impossível para esse classificador exibir falsos positivos.

Arquitetura de modelo

O Tortoise TTS é inspirado no Dalle do Openai, aplicado aos dados da fala e usando um decodificador melhor. É composto por 5 modelos separados que funcionam juntos: https://nonint.com/2022/04/25/tortoise-architectural-design-doc/

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-21
tamanho 53MB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
F5 TTS ComfyUI

2024-11-02
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Informações em inglês sobre desenvolvimento de voz (TTS User Guide versão Delphi)

2009-05-28

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos