Descargar tts tortoise gradio - tts tortoise gradio Source Code Descargar

tts tortoise gradio

Código Fuente de IA

1.0.0

Descargar

Tortuga

Tortoise es un programa de texto a voz construido con las siguientes prioridades:

Fuertes capacidades de múltiples voces.
Prosodia y entonación altamente realistas.

Este repositorio contiene todo el código necesario para ejecutar Tortoise TTS en modo de inferencia.

Colab

Colab es la forma más fácil de probar esto. He reunido un cuaderno que puede usar aquí: https://colab.research.google.com/drive/1wvvqupqwidbuvewwounglpghu3hg_cbr?usp=sharing

Instalación local

Si desea usar esto en su propia computadora, debe tener una GPU NVIDIA.

Primero, instale pytorch usando estas instrucciones: https://pytorch.org/get-started/locally/. En Windows, recomiendo usar la ruta de instalación de Conda. Me han dicho que si no haces esto, pasarás mucho tiempo persiguiendo problemas de dependencia.

A continuación, instale Tortoise y sus dependencias:

git clone https://github.com/neonbjb/tortoise-tts.git
cd tortoise-tts
python setup.py install

Si está en Windows, también deberá instalar PySoundFile: conda install -c conda-forge pysoundfile

do_tts.py

Este script le permite hablar una sola frase con una o más voces.

python tortoise/do_tts.py --text " I'm going to speak this " --voice random --preset fast

read.py

Este script proporciona herramientas para leer grandes cantidades de texto.

python tortoise/read.py --textfile < your text to be read > --voice random

Esto dividirá el archivo de texto en oraciones y luego las convertirá en discurso uno a la vez. ENCONTRARÁ UNA ESTACIÓN DE CLIPS SABADOS según se genere. Una vez que se generan todos los clips, los combinará en un solo archivo y salida también.

A veces, la tortuga atornilla una salida. Puede volver a generar cualquier clip de malos volviendo a Running read.py con el argumento-Regenerado.

API

La tortuga se puede usar programáticamente, como así:

 reference_clips = [ utils . audio . load_audio ( p , 22050 ) for p in clips_paths ]
tts = api . TextToSpeech ()
pcm_audio = tts . tts_with_preset ( "your text here" , voice_samples = reference_clips , preset = 'fast' )

Guía de personalización de voz

Tortoise fue entrenada específicamente para ser un modelo de múltiples altas. Logra esto consultando clips de referencia.

Estos clips de referencia son grabaciones de un orador que proporciona para guiar la generación del habla. Estos clips se utilizan para determinar muchas propiedades de la salida, como el tono y el tono de la voz, la velocidad de oratoria e incluso los defectos que hablan como un lisp o tartamudeo. El clip de referencia también se usa para determinar aspectos no relacionados con la voz de la salida de audio, como volumen, ruido de fondo, calidad de grabación y reverb.

Voz aleatoria

He incluido una característica que genera al azar una voz. Estas voces en realidad no existen y serán aleatorias cada vez que lo ejecute. ¡Los resultados son bastante fascinantes y te recomiendo que juegues con él!

Puede usar la voz aleatoria pasando 'aleatorio' como nombre de voz. Tortoise se encargará del resto.

Para aquellos en el espacio ML: esto se crea proyectando un vector aleatorio en el espacio latente de acondicionamiento de voz.

Voces proporcionadas

Este repositorio viene con varias voces preenvasadas. Las voces preparadas con "Train_" vinieron del set de entrenamiento y funcionan mucho mejor que los demás. Si su objetivo es un discurso de alta calidad, le recomiendo que elija uno de ellos. Si desea ver qué puede hacer Tortoise para la imitación de cero disparos, eche un vistazo a los demás.

Agregar una nueva voz

Para agregar nuevas voces a la tortuga, deberá hacer lo siguiente:

Reúna los clips de audio de su (s) altavoz (s). Las buenas fuentes son entrevistas de YouTube (puede usar YouTube-DL para obtener el audio), audiolibros o podcasts. Las pautas para buenos clips están en la siguiente sección.
Corta tus clips en ~ 10 segmentos de 10 segundos. Quieres al menos 3 clips. Más es mejor, pero solo experimenté con hasta 5 en mis pruebas.
Guarde los clips como un archivo WAV con formato de punto flotante y una frecuencia de muestreo de 22,050.
Crear un subdirectorio en voces/
Pon tus clips en ese subdirectorio.
Ejecute Tortoise Utilities con --voice = <Your_Subdirectory_Name>.

Elegir buenos clips de referencia

Como se mencionó anteriormente, sus clips de referencia tienen un profundo impacto en la producción de tortuga. Los siguientes son algunos consejos para elegir buenos clips:

Evite clips con música de fondo, ruido o reverb. Estos clips se eliminaron del conjunto de datos de entrenamiento. Es poco probable que la tortuga les vaya bien.
Evite los discursos. Estos generalmente tienen una distorsión causada por el sistema de amplificación.
Evite los clips de las llamadas telefónicas.
Evite los clips que tienen tartamudeo excesivo, tartamudeo o palabras como "uh" o "me gusta" en ellos.
Intente encontrar clips que se hablen de tal manera que desee que suene su salida. Por ejemplo, si desea escuchar su voz objetivo, lea un audiolibro, intente encontrar clips de ellos leyendo un libro.
El texto que se habla en los clips no importa, pero el texto diverso parece funcionar mejor.

Uso avanzado

Configuración de generación

La tortuga es principalmente un modelo de decodificador autorregresivo combinado con un modelo de difusión. Ambos tienen muchas perillas que se pueden girar que he abstraído en aras de la facilidad de uso. Hice esto generando miles de clips utilizando diversas permutaciones de la configuración y usando una métrica para el realismo de voz y la inteligibilidad para medir sus efectos. He establecido los valores predeterminados en la mejor configuración general que pude encontrar. Para casos de uso específicos, puede ser efectivo jugar con estas configuraciones (¡y es muy probable que me haya perdido algo!)

Estas configuraciones no están disponibles en los scripts normales empaquetados con tortuga. Están disponibles, sin embargo, en la API. Consulte api.tts para obtener una lista completa.

Ingeniería rápida

¡Algunas personas han descubierto que es posible hacer ingeniería rápida con tortuga! Por ejemplo, puede evocar emociones al incluir cosas como "Estoy realmente triste", antes de su texto. He creado un sistema de redacción automatizado que puede usar para aprovechar esto. Funciona al intentar redactar cualquier texto en el indicador rodeado de soportes. Por ejemplo, el mensaje "[Estoy realmente triste,] por favor alimenteme". Solo hablará las palabras "Por favor, alimentarme" (con una triste tonalidad).

Jugando con la voz latente

La tortuga ingiere clips de referencia alimentándolos individualmente a través de un pequeño submodelo que produce un punto latente, luego tomando la media de todos los latentes producidos. La experimentación que he realizado ha indicado que estos latentes de puntos son bastante expresivos, lo que afecta todo, desde tono hasta tasa de habla, anormalidades del habla.

Esto se presta a algunos trucos ordenados. Por ejemplo, puede combinar dos voces diferentes para tortuga y generará lo que cree que suena el "promedio" de esas dos voces.

Generando latentes de acondicionamiento a partir de voces

Use el script get_conditioning_latents.py para extraer los latentes de acondicionamiento para una voz que ha instalado. Este script arrojará a los latentes a un archivo .pth Pickle. El archivo contendrá una sola tupla (Autorregressessive_Latent, Diffusion_Latent).

Alternativamente, use el api.textTospeech.get_conditioning_latents () para obtener los latentes.

Uso de los latentes de acondicionamiento bruto para generar discurso

Después de que haya jugado con ellos, puede usarlos para generar el discurso creando un subdirectorio en voces/ con un solo archivo ".pth" que contiene los latentes de acondicionamiento en escabeche como tupla (Autorregressessive_Latent, difusión_latent).

Detectar tortuga

Por preocupaciones de que este modelo podría ser mal utilizado, he construido un clasificador que le dice la probabilidad de que un clip de audio provenga de tortuga.

Este clasificador se puede ejecutar en cualquier computadora, el uso es el siguiente:

 python tortoise/is_this_from_tortoise.py --clip=<path_to_suspicious_audio_file>

Este modelo tiene un 100% de precisión en el contenido de los resultados/ voces/ carpetas en este repositorio. Aún así, trate este clasificador como una "señal fuerte". Los clasificadores se pueden engañar y tampoco es imposible para este clasificador exhibir falsos positivos.

Arquitectura modelo

Tortoise TTS está inspirada en Dalle de OpenAi, aplicado a los datos del habla y utilizando un mejor decodificador. Está compuesto por 5 modelos separados que funcionan juntos: https://nonint.com/2022/04/25/tortoise-architectural-doc/

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-21
tamaño 53MB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
F5 TTS ComfyUI

2024-11-02
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Información en inglés sobre desarrollo de voz (Guía del usuario TTS versión Delphi)

2009-05-28

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo