podcast_tts Download - podcast_tts Download de código fonte

podcast_tts

Código-Fonte de IA

1.0.0

Baixar

Podcast TTS

podcast_tts é uma biblioteca Python para gerar podcasts e diálogos usando o texto em fala (TTS). Ele suporta vários alto-falantes, música de fundo e mistura precisa de áudio para obter resultados de qualidade profissional.

Exemplo de podcast

Você pode ouvir o exemplo de podcast abaixo:

Exemplo-podcast_01.mp4

Características

Suporte de vários falantes : gerar diálogos com perfis de alto-falantes distintos.
Vozes pré -fabricados : use perfis de alto -falantes pré -fabricados (Male1, Male2, feminino2) incluídos na biblioteca ou crie perfis personalizados.
Geração dinâmica de alto -falante : gera automaticamente os novos perfis de alto -falante se o alto -falante especificado não existir, economizando os perfis na subpasta voices para uso futuro.
Atribuição de função consistente : garante a consistência atribuindo e reutilizando perfis de alto -falante com base no nome do alto -falante.
Reprodução específica do canal : permite que o áudio seja reproduzido à esquerda, à direita ou nos dois canais para separação espacial.
Normalização do texto : normalize automaticamente o texto, manipula contrações e formate casos especiais.
Integração musical de fundo : adicione música de fundo com controle de desbotamento/saída e controle de volume.
Suporte a MP3 e URL : use arquivos MP3/WAV locais ou baixe músicas de um URL com cache.
Formatos de saída : Salvar áudio gerado como arquivos WAV ou MP3.

Instalação

 # ensure to have sox, or ffmpeg installed
brew install sox
# install the package
pip install podcast_tts

Uso

Gerando áudio para um único alto -falante

 import asyncio
from podcast_tts import PodcastTTS

async def main ():
    tts = PodcastTTS ( speed = 5 )
    await tts . generate_tts (
        text = "Hello! Welcome to our podcast." ,
        speaker = "male1" ,
        filename = "output_audio.wav" ,
        channel = "both"
    )

if __name__ == "__main__" :
    asyncio . run ( main ())

Exemplo: gerar um podcast com música

O método Generate_podcast combina diálogo e música de fundo para uma produção perfeita de podcast.

 import asyncio
from podcast_tts import PodcastTTS

async def main ():
    tts = PodcastTTS ( speed = 5 )

    # Define speakers and text
    texts = [
        { "male1" : [ "Welcome to the podcast!" , "both" ]},
        { "female2" : [ "Today, we discuss AI advancements." , "left" ]},
        { "male2" : [ "Don't miss our exciting updates." , "right" ]},
    ]

    # Define background music (local file or URL)
    music_config = [ "https://example.com/background_music.mp3" , 10 , 3 , 0.3 ]

    # Generate the podcast
    output_file = await tts . generate_podcast (
        texts = texts ,
        music = music_config ,
        filename = "podcast_with_music.mp3" ,
        pause_duration = 0.5 ,
        normalize = True
    )

    print ( f"Podcast saved to: { output_file } " )

if __name__ == "__main__" :
    asyncio . run ( main ())

Configuração de música:

[file/url, full_volume_duration, Fade_Duration, Target_volume]
- Arquivo/URL : caminho para um arquivo MP3/WAV local ou um URL para baixar.
- Full_Volume_Duration : Time (segundos) em volume total antes do início do diálogo e depois do fim.
- FADE_DURATION : Time (segundos) para efeitos de desbotamento/saída.
- Target_volum E: nível de volume (0,0 a 1,0) durante a reprodução de diálogo.

Vozes pré -fabricados

Podcasttts inclui os seguintes perfis de alto -falante pré -fabricados:

masculino1
Male2
feminino2

Esses perfis estão incluídos no diretório Default_voices do pacote e podem ser usados sem configuração adicional.

Geração dinâmica de alto -falante

Quando um perfil do alto -falante é especificado, mas não existe, a biblioteca gera automaticamente um novo perfil do alto -falante e o salvará na subpasta Voices. Isso garante papéis de voz consistentes em diferentes turnos em um diálogo. Por exemplo:

 texts = [
    { "Narrator" : [ "Welcome to this exciting episode." , "left" ]},
    { "Expert" : [ "Today, we'll explore AI's impact on healthcare." , "right" ]},
]
# If "Narrator" or "Expert" profiles do not exist, they will be generated dynamically.

Os perfis são salvos no diretório Voices do script e reutilizados automaticamente se o mesmo alto -falante for usado no futuro para consistência.

Carregando perfis de alto -falantes existentes

Você pode carregar qualquer perfil do alto -falante especificando seu nome de arquivo (sem a extensão .txt). Os perfis são armazenados na subpasta Voices, para que você não precise especificar o caminho explicitamente.

 # Assuming a speaker profile "Host.txt" exists in the voices subfolder
await tts . generate_tts ( "This is a test for an existing speaker." , "Host" , "existing_speaker.wav" )

Notas adicionais

A biblioteca usa Chattts para geração TTS de alta qualidade.
O texto é limpo e dividido automaticamente em pedaços gerenciáveis, facilitando a geração de áudio para scripts ou conversas longas.
Os arquivos de áudio gerados são salvos no formato WAV, com suporte para reprodução específica do canal.