Скачать podcast_tts - загрузка исходного кода podcast

podcast_tts

AI Исходный код

1.0.0

Скачать

Подкаст TTS

podcast_tts -это библиотека Python для генерации подкастов и диалогов с использованием текста в речь (TTS). Он поддерживает несколько динамиков, фоновую музыку и точное микширование звука для результатов профессионального качества.

Пример подкаста

Вы можете послушать пример подкаста ниже:

Пример-podcast_01.mp4

Функции

Поддержка с несколькими динамиками : сгенерировать диалоги с различными профилями динамиков.
Правообразные голоса : используйте предварительные профили динамиков (MALE1, MALE2, FEMAR2), включенные в библиотеку или создайте пользовательские профили.
Динамическая генерация динамиков : автоматически генерирует новые профили динамиков, если указанный динамик не существует, сохраняя профили в подпапке voices для будущего использования.
Последовательное назначение ролей : обеспечивает последовательность путем назначения и повторного использования профилей динамиков на основе имени динамика.
Воспроизведение специфического канала : позволяет воспроизводить звук слева, справа или оба канала для пространственного разделения.
Нормализация текста : автоматически нормализовать текст, обрабатывать сокращения и форматировать особые случаи.
Фоновая интеграция : добавьте фоновую музыку с помощью Fade-In/Out Control.
Поддержка MP3 и URL : используйте локальные файлы mp3/wav или скачать музыку с URL -адреса с кэшированием.
Форматы вывода : Сохранить сгенерированное аудио в виде файлов WAV или MP3.

Установка

 # ensure to have sox, or ffmpeg installed
brew install sox
# install the package
pip install podcast_tts

Использование

Создание звука для одного динамика

 import asyncio
from podcast_tts import PodcastTTS

async def main ():
    tts = PodcastTTS ( speed = 5 )
    await tts . generate_tts (
        text = "Hello! Welcome to our podcast." ,
        speaker = "male1" ,
        filename = "output_audio.wav" ,
        channel = "both"
    )

if __name__ == "__main__" :
    asyncio . run ( main ())

Пример: создание подкаста с музыкой

Метод Generate_podcast объединяет диалог и фоновую музыку для бесшовного производства подкастов.

 import asyncio
from podcast_tts import PodcastTTS

async def main ():
    tts = PodcastTTS ( speed = 5 )

    # Define speakers and text
    texts = [
        { "male1" : [ "Welcome to the podcast!" , "both" ]},
        { "female2" : [ "Today, we discuss AI advancements." , "left" ]},
        { "male2" : [ "Don't miss our exciting updates." , "right" ]},
    ]

    # Define background music (local file or URL)
    music_config = [ "https://example.com/background_music.mp3" , 10 , 3 , 0.3 ]

    # Generate the podcast
    output_file = await tts . generate_podcast (
        texts = texts ,
        music = music_config ,
        filename = "podcast_with_music.mp3" ,
        pause_duration = 0.5 ,
        normalize = True
    )

    print ( f"Podcast saved to: { output_file } " )

if __name__ == "__main__" :
    asyncio . run ( main ())

Музыкальная конфигурация:

[файл/url, full_volume_duration, fade_duration, target_volume]
- Файл/URL : Path to Local MP3/WAV -файл или URL -адрес для загрузки.
- full_volume_duration : время (секунды) в полном объеме до начала диалога и после окончания.
- fade_duration : время (секунды) для эффектов затухания/Out.
- Target_volum E: уровень объема (от 0,0 до 1,0) во время воспроизведения диалога.

Певадные голоса

Подкасты включают следующие готовые профили докладчиков:

Мале1
Мале2
женщина2

Эти профили включены в каталог пакета default_voices и могут использоваться без дополнительной настройки.

Динамическое генерация динамиков

Когда профиль динамика указан, но не существует, библиотека автоматически генерирует новый профиль динамика и сохраняет его в подпапке Voices. Это обеспечивает последовательные голосовые роли в разных поворотах в диалоге. Например:

 texts = [
    { "Narrator" : [ "Welcome to this exciting episode." , "left" ]},
    { "Expert" : [ "Today, we'll explore AI's impact on healthcare." , "right" ]},
]
# If "Narrator" or "Expert" profiles do not exist, they will be generated dynamically.

Профили сохраняются в каталоге голосов сценария и автоматически повторно используются, если в будущем будет использоваться тот же динамик для последовательности.

Загрузка существующих профилей динамиков

Вы можете загрузить любой профиль динамика, указав его имя файла (без расширения .txt). Профили хранятся в подпапке Voices, поэтому вам не нужно указывать путь явно.

 # Assuming a speaker profile "Host.txt" exists in the voices subfolder
await tts . generate_tts ( "This is a test for an existing speaker." , "Host" , "existing_speaker.wav" )

Дополнительные примечания

Библиотека использует чат для высококачественного поколения TTS.
Текст автоматически очищается и разделяется на управляемые куски, что позволяет легко генерировать аудио для длинных сценариев или разговоров.
Сгенерированные аудиофайлы сохраняются в формате WAV с поддержкой воспроизведения специфического канала.