podcast_tts Download - podcast_tts Quellcode herunterladen

podcast_tts

AI-Quellcode

1.0.0

Herunterladen

Podcast TTS

podcast_tts ist eine Python-Bibliothek zum Generieren von Podcasts und Dialogen mithilfe von Text-to-Speech (TTS). Es unterstützt mehrere Lautsprecher, Hintergrundmusik und präzises Audio-Mischen für die Ergebnisse professioneller Qualität.

Beispiel Podcast

Sie können den Beispielpodcast unten anhören:

Beispiel-Podcast_01.mp4

Merkmale

Support mit mehreren Sprechern : Generieren Sie Dialoge mit unterschiedlichen Sprecherprofilen.
Vorgefertigte Stimmen : Verwenden Sie vorgefertigte Lautsprecherprofile (male1, male2, weiblich2) in der Bibliothek oder erstellen Sie benutzerdefinierte Profile.
Dynamic Speaker Generation : Generiert automatisch neue Lautsprecherprofile, wenn der angegebene Sprecher nicht existiert, und speichern die Profile im voices -Unterordner für die zukünftige Verwendung.
Konsistente Rollenzuordnung : Gewährleistet die Konsistenz, indem Sprecherprofile auf der Grundlage des Sprechernamens zugewiesen und wiederverwendet werden.
Kanalspezifische Wiedergabe : Ermöglicht die Ausführung von Audio links, rechts oder beide Kanäle zur räumlichen Trennung.
Textnormalisierung : Normalisieren Sie den Text automatisch, verarbeiten Sie Kontraktionen und formatieren Sie Sonderfälle.
Hintergrundmusik-Integration : Hintergrundmusik mit Fade-in/Out und Lautstärkesteuerung hinzufügen.
Support von MP3 und URL : Verwenden Sie lokale MP3/WAV -Dateien oder laden Sie Musik von einer URL mit Caching herunter.
Ausgabesformate : Erzeugt Audio als WAV- oder MP3 -Dateien speichern.

Installation

 # ensure to have sox, or ffmpeg installed
brew install sox
# install the package
pip install podcast_tts

Verwendung

Audio für einen einzelnen Lautsprecher generieren

 import asyncio
from podcast_tts import PodcastTTS

async def main ():
    tts = PodcastTTS ( speed = 5 )
    await tts . generate_tts (
        text = "Hello! Welcome to our podcast." ,
        speaker = "male1" ,
        filename = "output_audio.wav" ,
        channel = "both"
    )

if __name__ == "__main__" :
    asyncio . run ( main ())

Beispiel: Generieren eines Podcasts mit Musik

Die Methode generate_podcast kombiniert Dialog- und Hintergrundmusik für eine nahtlose Podcast -Produktion.

 import asyncio
from podcast_tts import PodcastTTS

async def main ():
    tts = PodcastTTS ( speed = 5 )

    # Define speakers and text
    texts = [
        { "male1" : [ "Welcome to the podcast!" , "both" ]},
        { "female2" : [ "Today, we discuss AI advancements." , "left" ]},
        { "male2" : [ "Don't miss our exciting updates." , "right" ]},
    ]

    # Define background music (local file or URL)
    music_config = [ "https://example.com/background_music.mp3" , 10 , 3 , 0.3 ]

    # Generate the podcast
    output_file = await tts . generate_podcast (
        texts = texts ,
        music = music_config ,
        filename = "podcast_with_music.mp3" ,
        pause_duration = 0.5 ,
        normalize = True
    )

    print ( f"Podcast saved to: { output_file } " )

if __name__ == "__main__" :
    asyncio . run ( main ())

Musikkonfiguration:

[Datei/URL, full_volume_duration, fade_duration, target_volume]
- Datei/URL : Pfad zu einer lokalen MP3/WAV -Datei oder einer URL zum Herunterladen.
- full_volume_duration : Zeit (Sekunden) im vollen Volumen vor Beginn des Dialogs und nach dem Ende.
- Fade_Duration : Zeit (Sekunden) für Fade-in/Out-Effekte.
- target_volum e: Lautstärke (0,0 bis 1,0) während der Dialogwiedergabe.

Vorgefertigte Stimmen

Podcasttts enthält die folgenden vorgefertigten Lautsprecherprofile:

male1
male2
weiblich2

Diese Profile sind im Verzeichnis Standard_voices des Pakets enthalten und können ohne zusätzliche Einrichtung verwendet werden.

Dynamische Lautsprechergenerierung

Wenn ein Sprecherprofil angegeben ist, aber nicht vorhanden ist, generiert die Bibliothek automatisch ein neues Lautsprecherprofil und speichert es im Voices -Unterordner. Dies gewährleistet eine konsistente Sprachrollen in verschiedenen Kurven in einem Dialog. Zum Beispiel:

 texts = [
    { "Narrator" : [ "Welcome to this exciting episode." , "left" ]},
    { "Expert" : [ "Today, we'll explore AI's impact on healthcare." , "right" ]},
]
# If "Narrator" or "Expert" profiles do not exist, they will be generated dynamically.

Die Profile werden im Voices -Verzeichnis des Skripts gespeichert und automatisch wiederverwendet, wenn derselbe Sprecher in Zukunft für die Konsistenz verwendet wird.

Laden vorhandener Lautsprecherprofile

Sie können jedes Lautsprecherprofil laden, indem Sie seinen Dateinamen angeben (ohne die .txt -Erweiterung). Profile werden im Voices -Unterordner gespeichert, sodass Sie den Pfad nicht explizit angeben müssen.

 # Assuming a speaker profile "Host.txt" exists in the voices subfolder
await tts . generate_tts ( "This is a test for an existing speaker." , "Host" , "existing_speaker.wav" )

Zusätzliche Notizen

Die Bibliothek verwendet Chattts für eine hochwertige TTS-Generation.
Der Text wird automatisch gereinigt und in überschaubare Stücke aufgeteilt, wodurch es einfach ist, Audio für lange Skripte oder Gespräche zu generieren.
Die generierten Audiodateien werden im WAV-Format mit Unterstützung für die kanalspezifische Wiedergabe gespeichert.