Podfai
Este aplicativo permite que o usuário crie conteúdo no estilo de podcasts com base nos arquivos fornecidos. Alguns exemplos forneceriam um artigo, palestra, descrição do projeto, currículo pessoal ou muitos outros.
Também escrevi uma postagem no blog para falar sobre este projeto, verifique " como usar a IA generativa para criar conteúdo de estilo de podcast a partir de qualquer entrada ".
Como funciona

Como usar
- Fornecer um ou mais arquivos.
- Opcionalmente, personalize as vozes do convidado e do host, você pode conferir as amostras de voz aqui.
- Clique em "Gereate Podcast" e espere alguns momentos.
- Jogue o áudio e fique à vontade para seguir a transcrição textual.
Exemplos

Podcast gerar a partir do meu outro projeto "Ai Beats"
podcast-ai_beast.mp4
Podcast gerar a partir do meu outro projeto "AI Trailer"
podcast-ai_trailer.mp4
Podcast gerar a partir da descrição de "rotina da manhã ideal" de Andrew Huberman
Podcast-Andrew_hubermans.mp4
Podcast gerado por um currículo pessoal
podcast-resume.mp4
Uso local
Configurar
- Clone o repositório do GitHub
https://github.com/dimitreOliveira/PodfAI.git
cd PodfAI
- Crie um novo Venv
python -m venv .venvs/podfai
- Ative o Venv
source .venvs/podfai/bin/activate
- Instale os requisitos
Como alternativa, você também pode ser executado usando pip
pip install -r requirements
- Configure as dependências da API do Google
- Siga este guia ou o outro.
Executando o aplicativo
Para iniciar o aplicativo, execute o comando make abaixo
Como alternativa, você também pode ser executado usando python simples
streamlit run src / app . py
Configurações
Sinta -se à vontade para alterar as configurações padrão para alterar o comportamento do aplicativo ou ajustar suas necessidades.
vertex:
project: {VERTEX_AI_PROJECT}
location: {VERTEX_AI_LOCATION}
transcript:
model_id: gemini-1.5-pro-002
transcript_len: 5000
max_output_tokens: 8192
temperature: 1
top_p: 0.95
top_k: 32
- vértice
- Projeto: Nome do projeto usado por vértice ai.
- Localização: Localização do projeto usado pelo vértice ai.
- transcrição
- Model_id: Modelo usado para criar a transcrição do podcast.
- transcript_len: comprimento da transcrição sugerida.
- max_output_tokens: número máximo de tokens gerados pelo modelo.
- Temperatura: A temperatura controla o grau de aleatoriedade na seleção de token. As temperaturas mais baixas são boas para avisos que esperam uma resposta verdadeira ou correta, enquanto temperaturas mais altas podem levar a resultados mais diversos ou inesperados. Com uma temperatura de 0, o token de probabilidade mais alto é sempre selecionado
- TOP_P: TOP-P muda como o modelo seleciona tokens para saída. Os tokens são selecionados do mais provável ao menor até que a soma de suas probabilidades seja igual ao valor do Top-P. Por exemplo, se os tokens a, b e c tiverem uma probabilidade de 0,3, 0,2 e .1 e o valor Top-P for 0,5, o modelo selecionará A ou B como o próximo token (usando temperatura)
- TOP_K: Top-K muda como o modelo seleciona tokens para saída. Um K Top-K de 1 significa que o token selecionado é o mais provável entre todos os tokens do vocabulário do modelo (também chamado de decodificação gananciosa), enquanto um K Top-K de 3 significa que o próximo token é selecionado entre os três tokens mais prováveis (usando temperatura)
PENDÊNCIA
- Apoie a clonagem de voz
- Apoiar outros idiomas
- Apoie outros tipos de entrada (imagens, vídeos, URLs do YouTube)
- Adicione um notebook de exemplo para executar no Colab
- Reproduzir o fluxo de trabalho com modelos de código aberto
- Experimente os fluxos de trabalho agênticos para melhorar a transcrição do podcast
Referências
- Google Cloud-Bibliotecas de clientes de texto para fala
- Configure o Google Cloud TTS localmente
- Lista de voz do Google Cloud TTS
Contribuindo
Se você estiver interessado em contribuir para este projeto, muito obrigado! Antes de criar seu PR, certifique -se de fingir seu código, executando o comando abaixo:
Agradecimentos
- Os créditos do Google Cloud são fornecidos para este projeto. Este projeto foi possível graças ao apoio da equipe de programas de desenvolvedor de ML do Google.
- Este projeto foi baseado no Notebooklm do Google, que, além do conteúdo do estilo podcast, possui muitos outros recursos, verifique.