Подфай
Это приложение позволяет пользователю создавать контент в стиле подкастов на основе предоставленных файлов. Некоторые примеры будут предоставлять бумагу, лекцию, описание проекта, личное резюме или многие другие.
Я также написал сообщение в блоге, чтобы поговорить об этом проекте, обязательно проверьте « как использовать Generative AI для создания контента в стиле подкаста из любого ввода ».
Как это работает

Как использовать
- Предоставить один или несколько файлов.
- При желании настраивайте голоса гостя и хоста, вы можете проверить здесь голосовые образцы.
- Нажмите на «Generate Podcast» и подождите несколько мгновений.
- Играйте в аудио и не стесняйтесь следить за текстовой стенограммой.
Примеры

Подкаст генерируется из моего другого проекта "AI Beats"
Podcast-Ai_beast.mp4
Подкаст генерируется из моего другого проекта "AI Trailer"
Podcast-Ai_trailer.mp4
Подкаст генерируется из описания «Оптимальной утренней рутины» Эндрю Хубермана
Podcast Andrew_hubermans.mp4
Подкаст генерируется личным резюме
подкаст-resume.mp4
Местное использование
Настраивать
- Клонировать репозиторий GitHub
https://github.com/dimitreOliveira/PodfAI.git
cd PodfAI
- Создать новый Venv
python -m venv .venvs/podfai
- Активировать Вен
source .venvs/podfai/bin/activate
- Установите требования
В качестве альтернативы, вы также можете запустить с помощью pip
pip install -r requirements
- Настройка зависимости Google API
- Следуйте этому руководству или этому другому.
Запуск приложения
Чтобы запустить приложение, запустите команду Make ниже
В качестве альтернативы, вы также можете работать с помощью Plaine Python
streamlit run src / app . py
Конфигурации
Не стесняйтесь изменить конфигурации по умолчанию, чтобы изменить поведение приложения или настроить на ваши потребности.
vertex:
project: {VERTEX_AI_PROJECT}
location: {VERTEX_AI_LOCATION}
transcript:
model_id: gemini-1.5-pro-002
transcript_len: 5000
max_output_tokens: 8192
temperature: 1
top_p: 0.95
top_k: 32
- вершина
- Проект: название проекта, используемое Vertex AI.
- Местоположение: Расположение проекта, используемое Vertex AI.
- транскрипт
- MODEL_ID: модель, используемая для создания транскрипта подкаста.
- Transcript_len: предлагаемая длина транскрипта.
- max_output_tokens: максимальное количество токенов, сгенерированных моделью.
- Температура: температура контролирует степень случайности при выборе токенов. Более низкие температуры хороши для подсказок, которые ожидают истинного или правильного ответа, в то время как более высокие температуры могут привести к более разнообразным или неожиданным результатам. При температуре 0 всегда выбирается токен с самой высокой вероятностью
- top_p: Top-P изменяет, как модель выбирает токены для вывода. Токены выбираются из наиболее вероятных до наименьшего до тех пор, пока сумма их вероятностей не будет равна значению Top-P. Например, если токены A, B и C имеют вероятность 0,3, .2 и .1, а значение Top-P составляет.
- top_k: Top-K изменяет, как модель выбирает токены для вывода. Top-K из 1 означает, что выбранный токен является наиболее вероятным среди всех токенов в словаре модели (также называемой жадным декодированием), в то время как Top-K из 3 означает, что следующий токен выбирается из 3 наиболее вероятных токенов (с использованием температуры)
Тодо
- Поддержка клонирования голоса
- Поддерживать другие языки
- Поддержите другие типы ввода (изображения, видео, URL -адреса YouTube)
- Добавить пример ноутбука для запуска в Колабе
- Воспроизведите рабочий процесс с моделями с открытым исходным кодом
- Экспериментируйте с агентскими рабочими процессами, чтобы улучшить стенограмму подкаста
Ссылки
- Google Cloud-клиентские библиотеки текста в речь
- Настройка Google Cloud TTS локально
- Голосовой список Google Cloud TTS
Внося
Если вы заинтересованы в участии в этом проекте, большое спасибо! Перед созданием вашего пиара, обязательно заполните свой код, запустив команду ниже:
Благодарности
- Облачные кредиты Google предоставляются для этого проекта. Этот проект был возможен благодаря поддержке команды программ разработчиков Google ML.
- Этот проект был основан на Google Notebooklm, который, помимо контента в стиле подкаста, имеет много других функций, не забудьте проверить его.