Unduh podcast_tts - Unduh Kode Sumber podcast

podcast_tts

Kode Sumber AI

1.0.0

Unduh

Podcast tts

podcast_tts adalah perpustakaan Python untuk menghasilkan podcast dan dialog menggunakan Text-to-Speech (TTS). Ini mendukung banyak speaker, musik latar, dan pencampuran audio yang tepat untuk hasil berkualitas profesional.

Contoh Podcast

Anda dapat mendengarkan podcast contoh di bawah ini:

Contoh-podcast_01.mp4

Fitur

Dukungan multi-speaker : Hasilkan dialog dengan profil pembicara yang berbeda.
Premade Voices : Gunakan profil speaker premade (MALE1, MALE2, Female2) disertakan dengan perpustakaan atau membuat profil khusus.
Dynamic Speaker Generation : Secara otomatis menghasilkan profil speaker baru jika pembicara yang ditentukan tidak ada, menyimpan profil dalam subfolder voices untuk penggunaan di masa mendatang.
Penugasan Peran yang Konsisten : Memastikan konsistensi dengan menugaskan dan menggunakan kembali profil pembicara berdasarkan nama pembicara.
Pemutaran Khusus Saluran : Memungkinkan audio dimainkan di kiri, kanan, atau kedua saluran untuk pemisahan spasial.
Normalisasi teks : Secara otomatis menormalkan teks, menangani kontraksi, dan format kasus khusus.
Integrasi musik latar : Tambahkan musik latar dengan fade-in/out dan volume control.
Dukungan MP3 dan URL : Gunakan file MP3/WAV lokal atau unduh musik dari URL dengan caching.
Format output : Simpan audio yang dihasilkan sebagai file WAV atau MP3.

Instalasi

 # ensure to have sox, or ffmpeg installed
brew install sox
# install the package
pip install podcast_tts

Penggunaan

Menghasilkan audio untuk satu speaker

 import asyncio
from podcast_tts import PodcastTTS

async def main ():
    tts = PodcastTTS ( speed = 5 )
    await tts . generate_tts (
        text = "Hello! Welcome to our podcast." ,
        speaker = "male1" ,
        filename = "output_audio.wav" ,
        channel = "both"
    )

if __name__ == "__main__" :
    asyncio . run ( main ())

Contoh: Menghasilkan podcast dengan musik

Metode generate_podcast menggabungkan dialog dan musik latar untuk produksi podcast yang mulus.

 import asyncio
from podcast_tts import PodcastTTS

async def main ():
    tts = PodcastTTS ( speed = 5 )

    # Define speakers and text
    texts = [
        { "male1" : [ "Welcome to the podcast!" , "both" ]},
        { "female2" : [ "Today, we discuss AI advancements." , "left" ]},
        { "male2" : [ "Don't miss our exciting updates." , "right" ]},
    ]

    # Define background music (local file or URL)
    music_config = [ "https://example.com/background_music.mp3" , 10 , 3 , 0.3 ]

    # Generate the podcast
    output_file = await tts . generate_podcast (
        texts = texts ,
        music = music_config ,
        filename = "podcast_with_music.mp3" ,
        pause_duration = 0.5 ,
        normalize = True
    )

    print ( f"Podcast saved to: { output_file } " )

if __name__ == "__main__" :
    asyncio . run ( main ())

Konfigurasi Musik:

[file/url, full_volume_duration, fade_duration, target_volume]
- File/URL : Path ke file MP3/WAV lokal atau URL untuk diunduh.
- full_volume_duration : waktu (detik) pada volume penuh sebelum dialog dimulai dan setelah berakhir.
- fade_duration : waktu (detik) untuk efek fade-in/out.
- Target_volum E: Level volume (0,0 hingga 1.0) selama pemutaran dialog.

Suara premade

Podcasttts termasuk profil speaker premade berikut:

pria1
pria2
wanita2

Profil ini termasuk dalam direktori paket default_voices dan dapat digunakan tanpa pengaturan tambahan.

Generasi pembicara yang dinamis

Ketika profil speaker ditentukan tetapi tidak ada, perpustakaan akan secara otomatis menghasilkan profil speaker baru dan menyimpannya di subfolder suara. Ini memastikan peran suara yang konsisten di berbagai putaran dalam dialog. Misalnya:

 texts = [
    { "Narrator" : [ "Welcome to this exciting episode." , "left" ]},
    { "Expert" : [ "Today, we'll explore AI's impact on healthcare." , "right" ]},
]
# If "Narrator" or "Expert" profiles do not exist, they will be generated dynamically.

Profil disimpan di direktori suara skrip dan digunakan kembali secara otomatis jika pembicara yang sama digunakan di masa depan untuk konsistensi.

Memuat profil speaker yang ada

Anda dapat memuat profil speaker apa pun dengan menentukan nama file (tanpa ekstensi .txt). Profil disimpan dalam subfolder suara, jadi Anda tidak perlu menentukan jalur secara eksplisit.

 # Assuming a speaker profile "Host.txt" exists in the voices subfolder
await tts . generate_tts ( "This is a test for an existing speaker." , "Host" , "existing_speaker.wav" )

Catatan tambahan

Perpustakaan menggunakan chattts untuk generasi TTS berkualitas tinggi.
Teks secara otomatis dibersihkan dan dibagi menjadi potongan yang dapat dikelola, membuatnya mudah untuk menghasilkan audio untuk skrip atau percakapan yang panjang.
File audio yang dihasilkan disimpan dalam format WAV, dengan dukungan untuk pemutaran khusus saluran.