O processo de geração de sinopse do podcast tradicionalmente exigia que criadores, produtores e/ou escritores entendessem o conteúdo e escreviam manualmente a sinopse, resumindo os pontos e os destaques destacados de um episódio. Essa abordagem consome tempo e pode envolver sessões de brainstorming que discutem os principais temas e refinam o texto até que ele efetivamente transmite a mensagem e o tom do podcast (por exemplo, um podcast cômico pode apresentar linguagem ou hipérbole em seus resumos).
Este repositório ilustra como automatizar grande parte desse processo manual e demorado usando o portfólio de serviços fornecidos pelos serviços cognitivos do Azure, especificamente o serviço de fala do Azure e o Azure OpenAI é usado para transcrever e gerar a sinopse , taglines , palavras-chave de SEO e tradução para vários idiomas. A incorporação da IA para automatizar esse processo não elimina o papel da criatividade humana ou a importância do envolvimento humano. Em vez disso, permite uma aceleração significativa no tempo de mercado, aproveitando o poder da IA. A validação e a aprovação final do conteúdo continuam de responsabilidade dos especialistas humanos antes da publicação.

Esse repositório implementa uma arquitetura de alto nível que levará o áudio de um podcast (etapas 1-3), transcreve o áudio para o texto usando serviços de fala do Azure (etapa 4) e gerar uma sinopse baseada na transcrição usando o Azure OpenAi GPT-3.5 (etapa 5). Observe que a versão do modelo GPT usada pode ser facilmente atualizada para, por exemplo, GPT-4 ou versões futuras.
Consiste em um aplicativo da Web React que permite ao usuário fazer upload de um arquivo de áudio (podcast). O aplicativo usa uma função do Azure (WebApihttpTrigger) para o upload do arquivo de áudio em uma conta de armazenamento, ou seja, o contêiner raw-files .
Função do Azure (AudiofileUploadedblobtrigger) é acionado quando um novo arquivo é adicionado ao contêiner raw-files . A função baixa o arquivo de áudio e o envia para o Azure Speech Services e transcreve o áudio para o texto. Em seguida, salva a transcrição na mesma conta de armazenamento, ou seja, o contêiner transcription .
A última função do Azure (transcriptionFileUploadedBlobTrigger) é acionada quando novos arquivos são adicionados ao contêiner transcriptions . A função baixa o arquivo de transcrição e o envia para quatro métodos diferentes do Azure Openai que executam as seguintes funções:
Ele salva os resultados como arquivos de texto separados na conta de armazenamento open-ai-results Container.
Este projeto recebe contribuições e sugestões. A maioria das contribuições exige que você concorde com um Contrato de Licença de Colaborador (CLA) declarando que você tem o direito e, na verdade, concede -nos os direitos de usar sua contribuição. Para detalhes, visite https://cla.opensource.microsoft.com.
Para contribuir, comece criando um problema auto-atribuído, fornecendo uma visão geral de alto nível do que você gostaria de fazer. Uma vez que qualquer discussão termine, acompanhe um PR.
Este projeto adotou o Código de Conduta Open Microsoft. Para obter mais informações, consulte o Código de Conduta Perguntas frequentes ou entre em contato com [email protected] com quaisquer perguntas ou comentários adicionais.