Le processus de génération de synopsis de podcast a traditionnellement obligé des créateurs, des producteurs et / ou des écrivains pour comprendre le contenu et écrire manuellement le synopsis, résumant les points saillants et les faits saillants d'un épisode. Cette approche prend du temps et peut impliquer des séances de brainstorming qui discutent des thèmes principaux et affinez le texte jusqu'à ce qu'il transmet efficacement le message et le ton du podcast (par exemple, un podcast comique peut présenter un langage ou une hyperbole humoristique dans ses résumés).
Ce référentiel illustre comment automatiser une grande partie de ce processus manuel et long en utilisant le portefeuille de services fournis par Azure Cognitive Services, en particulier Azure Speech Service et Azure OpenAI sont utilisés pour transcrire et générer le synopsis , les balines , les mots clés SEO et la traduction en plusieurs langues. L'intégration de l'IA pour automatiser ce processus n'élimine pas le rôle de la créativité humaine ou l'importance de l'implication humaine. Au lieu de cela, il permet une accélération significative dans le temps de commercialiser en exploitant la puissance de l'IA. La validation et l'approbation finales du contenu restent la responsabilité des spécialistes humains avant la publication.

Ce référentiel met en œuvre une architecture de haut niveau qui prendra l'audio d'un podcast (étapes 1-3), transcrira l'audio en texte à l'aide des services de parole Azure (étape 4) et génére un synopsis basé sur la transcription à l'aide d'Azure Openai GPT-3.5 (étape 5). Notez que la version du modèle GPT utilisé peut être facilement mise à niveau vers, par exemple GPT-4, ou futures versions.
Il se compose d'une application Web React qui permet à un utilisateur de télécharger un fichier audio (podcast). L'application utilise une fonction Azure (webapiHttptrigger) pour télécharger le fichier audio sur un compte de stockage, c'est-à-dire le conteneur raw-files .
La fonction azure (AudioFileUploadEdBlobTrigger) est déclenché lorsqu'un nouveau fichier est ajouté au conteneur raw-files . La fonction télécharge le fichier audio et l'envoie à Azure Speech Services et transcrit l'audio au texte. Il enregistre ensuite la transcription au même compte de stockage, c'est-à-dire le conteneur transcription .
La dernière fonction Azure (TranscriptionFileuploadBlobOrgher), est déclenchée lorsque de nouveaux fichiers sont ajoutés au conteneur transcriptions . La fonction télécharge le fichier de transcription et l'envoie à quatre méthodes Azure OpenAI différentes qui remplissent les fonctions suivantes:
Il enregistre les résultats en tant que fichiers texte séparés dans le conteneur open-ai-results du compte de stockage.
Ce projet accueille les contributions et les suggestions. La plupart des contributions vous obligent à accepter un contrat de licence de contributeur (CLA) déclarant que vous avez le droit de faire et en fait, accordez-nous les droits d'utilisation de votre contribution. Pour plus de détails, visitez https://cla.opensource.microsoft.com.
Pour contribuer, veuillez commencer par créer un problème auto-attribué donnant un aperçu de haut niveau de ce que vous souhaitez faire. Une fois une discussion terminée, le suivi avec un PR.
Ce projet a adopté le code de conduite open source Microsoft. Pour plus d'informations, consultez le code de conduite FAQ ou contactez [email protected] avec toute question ou commentaire supplémentaire.