Descargar podcast_tts - Descargar el código fuente podcast

podcast_tts

Código Fuente de IA

1.0.0

Descargar

Podcast TTS

podcast_tts es una biblioteca de Python para generar podcasts y diálogos utilizando texto a voz (TTS). Admite múltiples altavoces, música de fondo y una mezcla de audio precisa para resultados de calidad profesional.

Ejemplo de podcast

Puede escuchar el podcast de ejemplo a continuación:

Ejemplo-Podcast_01.mp4

Características

Soporte de múltiples altavoces : genere diálogos con distintos perfiles de altavoces.
Voces prefabricadas : use perfiles de altavoces prefabricados (Male1, Male2, Femenino2) incluidos con la biblioteca o cree perfiles personalizados.
Generación de altavoces dinámicos : genera automáticamente nuevos perfiles de altavoces si el altavoz especificado no existe, guardando los perfiles en la subcarpeta voices para uso futuro.
Asignación de roles consistente : garantiza la consistencia al asignar y reutilizar perfiles de altavoces basados en el nombre del hablante.
Reproducción específica del canal : permite que el audio se repite a la izquierda, a la derecha o ambos canales para la separación espacial.
Normalización del texto : normalice automáticamente el texto, maneje las contracciones y formatea casos especiales.
Integración de música de fondo : Agregue la música de fondo con el control de desvanecimiento/out y el volumen.
Soporte de MP3 y URL : use archivos MP3/WAV locales o descargue música de una URL con almacenamiento en caché.
Formatos de salida : Guarde el audio generado como archivos WAV o MP3.

Instalación

 # ensure to have sox, or ffmpeg installed
brew install sox
# install the package
pip install podcast_tts

Uso

Generar audio para un solo altavoz

 import asyncio
from podcast_tts import PodcastTTS

async def main ():
    tts = PodcastTTS ( speed = 5 )
    await tts . generate_tts (
        text = "Hello! Welcome to our podcast." ,
        speaker = "male1" ,
        filename = "output_audio.wav" ,
        channel = "both"
    )

if __name__ == "__main__" :
    asyncio . run ( main ())

Ejemplo: Generación de un podcast con música

El método Generate_Podcast combina el diálogo y la música de fondo para una producción de podcasts sin interrupciones.

 import asyncio
from podcast_tts import PodcastTTS

async def main ():
    tts = PodcastTTS ( speed = 5 )

    # Define speakers and text
    texts = [
        { "male1" : [ "Welcome to the podcast!" , "both" ]},
        { "female2" : [ "Today, we discuss AI advancements." , "left" ]},
        { "male2" : [ "Don't miss our exciting updates." , "right" ]},
    ]

    # Define background music (local file or URL)
    music_config = [ "https://example.com/background_music.mp3" , 10 , 3 , 0.3 ]

    # Generate the podcast
    output_file = await tts . generate_podcast (
        texts = texts ,
        music = music_config ,
        filename = "podcast_with_music.mp3" ,
        pause_duration = 0.5 ,
        normalize = True
    )

    print ( f"Podcast saved to: { output_file } " )

if __name__ == "__main__" :
    asyncio . run ( main ())

Configuración musical:

[Archivo/url, full_volume_duration, fade_duration, target_volume]
- Archivo/URL : ruta a un archivo MP3/WAV local o una URL para descargar.
- Full_volume_duration : Time (segundos) a volumen completo antes de que el diálogo comience y después finalice.
- Fade_duration : Time (segundos) para efectos de desvanecimiento/salida.
- Target_volum E: Nivel de volumen (0.0 a 1.0) durante la reproducción del diálogo.

Voces prefabricadas

Podcasttts incluye los siguientes perfiles de altavoces prefabricados:

hombre1
macho2
femenina2

Estos perfiles se incluyen en el directorio predeterminado del paquete y se pueden usar sin una configuración adicional.

Generación de altavoces dinámicos

Cuando se especifica un perfil de altavoz, pero no existe, la biblioteca generará automáticamente un nuevo perfil de altavoces y lo guardará en la subcarpeta Voices. Esto garantiza roles de voz consistentes en diferentes giros en un diálogo. Por ejemplo:

 texts = [
    { "Narrator" : [ "Welcome to this exciting episode." , "left" ]},
    { "Expert" : [ "Today, we'll explore AI's impact on healthcare." , "right" ]},
]
# If "Narrator" or "Expert" profiles do not exist, they will be generated dynamically.

Los perfiles se guardan en el directorio Voces del script y se reutilizan automáticamente si el mismo altavoz se usa en el futuro para la consistencia.

Carga de perfiles de altavoces existentes

Puede cargar cualquier perfil de altavoz especificando su nombre de archivo (sin la extensión .txt). Los perfiles se almacenan en la subcarpeta Voices, por lo que no necesita especificar la ruta explícitamente.

 # Assuming a speaker profile "Host.txt" exists in the voices subfolder
await tts . generate_tts ( "This is a test for an existing speaker." , "Host" , "existing_speaker.wav" )

Notas adicionales

La biblioteca utiliza chattts para la generación TTS de alta calidad.
El texto se limpia automáticamente y se divide en trozos manejables, lo que facilita la generación de audio para scripts o conversaciones largas.
Los archivos de audio generados se guardan en formato WAV, con soporte para la reproducción específica del canal.