Uma alternativa da API de código aberto ao recurso de podcast do Notebooklm: transformando conteúdo multimodal em conversas de áudio multilíngues cativantes com genai
Papel | Pacote python | CLI | Rest Api | Aplicativo da web | Opinião
O Podcastfy é um pacote Python de código aberto que transforma o conteúdo multimodal (texto, imagens) em conversas de áudio multilíngues envolventes usando o Genai. O conteúdo de entrada inclui sites, PDFs, imagens, vídeos do YouTube e tópicos fornecidos pelo usuário.
Ao contrário das ferramentas baseadas em UI de código fechado focadas principalmente na síntese de pesquisa (por exemplo, notebooklm ❤️), o Podcastfy se concentra em geração de código aberto, programática e sob medida de envolvimento e de conversação de uma infinidade de fontes multimodais, permitindo a personalização e escala.
Esta coleção de amostras foi gerada usando este notebook Python.
Amostra 1: Senecio, 1922 (Paul Klee) e conexão de civilizações (2017) por Gheorghe Virtosu


Amostra 2: A Grande Onda de Kanagawa, 1831 (Hokusai) e Takiyasha, a bruxa e o espectro esqueleto, c. 1844 (Kuniyoshi)


Amostra 3: Ícone da cultura pop Taylor Swift e Mona Lisa, 1503 (Leonardo da Vinci)


| Áudio | Descrição | Fonte |
|---|---|---|
Souza.mp4 | Site pessoal | Site |
Áudio ( longform=True ) | Podcast Lex Fridman: entrevista 5H com CEO do Dario Amodeei Anthrópica | YouTube |
Áudio ( longform=True ) | Autobiografia de Benjamin Franklin | Livro |
| Linguagem | Tipo de conteúdo | Descrição | Áudio | Fonte |
|---|---|---|---|---|
| Francês | Site | Informações de pesquisa agroclima | Áudio | Site |
| Português-BR | Artigo de notícias | Pesquisas eleitorais em São Paulo | Áudio | Site |
$ pip install ffmpeg (para processamento de áudio) Instale do $ pip install podcastfy
Configure suas chaves da API
from podcastfy . client import generate_podcast
audio_file = generate_podcast ( urls = [ "<url1>" , "<url2>" ]) python -m podcastfy.client --url <url1> --url <url2>
Pacote Python Investir rápido
Como fazer
Manual de referência do pacote Python
Manual de referência da API REST
CLI
O Podcastfy oferece uma variedade de opções de personalização para adaptar seus podcasts gerados pela IA:
"Amar esta iniciativa e o melhor que já vi até agora, especialmente para um usuário 'não-técnico'".
"Adoro que você construiu casualmente uma versão de código aberto do produto mais popular que o Google construído na última década"
"Sua biblioteca era muito direta para trabalhar. Você fez um irmão de trabalho incrível"
"Eu acho incrível que você tenha sido inspirado/reconheça o quão difícil é vencer a qualidade do Notebooklm, mas você fez um trabalho incrível com isso! Parece incrível e é de código aberto! Obrigado por ser incrível!"
Veja Changelog para obter mais detalhes.
Este software está licenciado no Apache 2.0. Consulte as instruções se quiser usar o Podcastfy em seu software.
Congratulamo -nos com contribuições! Consulte as diretrizes para obter mais detalhes.
Os criadores de conteúdo podem usar Podcastfy para converter postagens, artigos ou conteúdo multimídia em áudio no estilo de podcast, permitindo que eles atinjam o público mais amplo. Ao transformar o conteúdo em um formato de áudio, os criadores podem atender aos usuários que preferem ouvir a leitura.
Os educadores podem transformar notas de palestras, apresentações e materiais visuais em conversas de áudio, tornando o conteúdo educacional mais acessível aos alunos com diferentes preferências de aprendizado. Isso é particularmente benéfico para estudantes com deficiência visual ou aqueles que têm dificuldade em processar informações escritas.
Os pesquisadores podem converter trabalhos de pesquisa, dados visuais e conteúdo técnico em áudio de conversação. Isso facilita para um público mais amplo, incluindo aqueles com deficiência, consumir e entender informações científicas complexas. Os pesquisadores também podem criar resumos de áudio de seu trabalho para aumentar a acessibilidade.
Os advogados de acessibilidade podem usar Podcastfy para promover a acessibilidade digital, fornecendo uma ferramenta que converte conteúdo multimodal em formatos auditivos. Isso ajuda indivíduos com deficiências visuais, dislexia ou outras deficiências que tornam desafiador consumir conteúdo escrito ou visual.
↑ Voltar ao topo ↑