podcast_ttsダウンロードpodcast_ttsソースコードのダウンロード

podcast_tts

AI ソースコード

1.0.0

ダウンロード

ポッドキャストTTS

podcast_tts 、テキストツーチック（TTS）を使用してポッドキャストと対話を生成するためのPythonライブラリです。複数のスピーカー、バックグラウンドミュージック、および専門的な品質の結果を得るための正確なオーディオミキシングをサポートしています。

ポッドキャストの例

以下のサンプルポッドキャストを聞くことができます。

example-podcast_01.mp4

特徴

マルチスピーカーのサポート：明確なスピーカープロファイルでダイアログを生成します。
事前の声：ライブラリに含まれる既製のスピーカープロファイル（MALE1、MALE2、女性2）を使用するか、カスタムプロファイルを作成します。
ダイナミックスピーカーの生成：指定されたスピーカーが存在しない場合は、新しいスピーカープロファイルを自動的に生成し、将来の使用のためにvoices Subfolderのプロファイルを保存します。
一貫した役割の割り当て：スピーカー名に基づいてスピーカープロファイルを割り当てて再利用することにより、一貫性を保証します。
チャネル固有の再生：空間分離のために、左、右、または両方のチャネルでオーディオを再生できます。
テキストの正規化：テキストを自動的に正規化し、収縮を処理し、特別なケースをフォーマットします。
バックグラウンドミュージックの統合：フェードイン/アウトとボリュームコントロールを備えたバックグラウンドミュージックを追加します。
MP3とURLサポート：ローカルMP3/WAVファイルを使用するか、キャッシュ付きのURLから音楽をダウンロードします。
出力形式：生成されたオーディオをWAVまたはMP3ファイルとして保存します。

インストール

 # ensure to have sox, or ffmpeg installed
brew install sox
# install the package
pip install podcast_tts

使用法

単一のスピーカーのオーディオを生成します

 import asyncio
from podcast_tts import PodcastTTS

async def main ():
    tts = PodcastTTS ( speed = 5 )
    await tts . generate_tts (
        text = "Hello! Welcome to our podcast." ,
        speaker = "male1" ,
        filename = "output_audio.wav" ,
        channel = "both"
    )

if __name__ == "__main__" :
    asyncio . run ( main ())

例：音楽でポッドキャストを生成します

Generate_Podcastメソッドは、シームレスなポッドキャスト制作の対話とバックグラウンドミュージックを組み合わせています。

 import asyncio
from podcast_tts import PodcastTTS

async def main ():
    tts = PodcastTTS ( speed = 5 )

    # Define speakers and text
    texts = [
        { "male1" : [ "Welcome to the podcast!" , "both" ]},
        { "female2" : [ "Today, we discuss AI advancements." , "left" ]},
        { "male2" : [ "Don't miss our exciting updates." , "right" ]},
    ]

    # Define background music (local file or URL)
    music_config = [ "https://example.com/background_music.mp3" , 10 , 3 , 0.3 ]

    # Generate the podcast
    output_file = await tts . generate_podcast (
        texts = texts ,
        music = music_config ,
        filename = "podcast_with_music.mp3" ,
        pause_duration = 0.5 ,
        normalize = True
    )

    print ( f"Podcast saved to: { output_file } " )

if __name__ == "__main__" :
    asyncio . run ( main ())

音楽構成：

[file/url、full_volume_duration、fade_duration、target_volume]
- ファイル/URL ：ローカルMP3/WAVファイルまたはダウンロードするURLへのパス。
- full_volume_duration ：ダイアログが始まる前と終了後のフルボリュームでの時間（秒）。
- fade_duration ：Fade-in/out Effectsの時間（秒）。
- Target_Volum E：対話再生中のボリュームレベル（0.0〜1.0）。

事前の声

podcastttsには、次の既製のスピーカープロファイルが含まれています。

男性1
男性2
女性2

これらのプロファイルは、パッケージのdefault_voicesディレクトリに含まれており、追加のセットアップなしで使用できます。

ダイナミックスピーカーの生成

スピーカープロファイルが指定されているが存在しない場合、ライブラリは新しいスピーカープロファイルを自動的に生成し、Voices Subfolderに保存します。これにより、対話で異なるターンにわたる一貫した音声役割が保証されます。例えば：

 texts = [
    { "Narrator" : [ "Welcome to this exciting episode." , "left" ]},
    { "Expert" : [ "Today, we'll explore AI's impact on healthcare." , "right" ]},
]
# If "Narrator" or "Expert" profiles do not exist, they will be generated dynamically.

プロファイルは、スクリプトのVoicesディレクトリに保存され、同じスピーカーが将来一貫性を得るために使用される場合、自動的に再利用されます。

既存のスピーカープロファイルの読み込み

ファイル名を指定して、スピーカープロファイルをロードできます（.txt拡張子なし）。プロファイルはVoices Subfolderに保存されるため、パスを明示的に指定する必要はありません。

 # Assuming a speaker profile "Host.txt" exists in the voices subfolder
await tts . generate_tts ( "This is a test for an existing speaker." , "Host" , "existing_speaker.wav" )