El proceso de generación de sinopsis de podcast tradicionalmente ha requerido que los creadores, productores y/o escritores comprendan el contenido y escriban manualmente la sinopsis, resumiendo los puntos sobresalientes y los aspectos más destacados de un episodio. Este enfoque requiere mucho tiempo y puede implicar sesiones de lluvia de ideas que discuten los temas principales, y refine el texto hasta que transmita efectivamente el mensaje y el tono del podcast (por ejemplo, un podcast de cómic puede presentar un lenguaje o hiperbole de humor en sus resúmenes).
Este repositorio ilustra cómo automatizar una gran parte de este proceso manual y que consumen mucho tiempo utilizando la cartera de servicios proporcionados por los servicios cognitivos Azure, específicamente el servicio de voz de Azure y Azure OpenAI se utilizan para transcribir y generar la sinopsis , las temas , las palabras clave SEO y la traducción a múltiples idiomas. La incorporación de IA para automatizar este proceso no elimina el papel de la creatividad humana o la importancia de la participación humana. En cambio, permite una aceleración significativa en el tiempo de comercialización al aprovechar el poder de la IA. La validación final y la aprobación del contenido siguen siendo responsabilidad de los especialistas humanos antes de publicar.

Este repositorio implementa una arquitectura de alto nivel que tomará el audio de un podcast (pasos 1-3), transcribirá el audio al texto utilizando los servicios de voz de Azure (paso 4) y generará una sinopsis basada en la transcripción utilizando Azure OpenAI GPT-3.5 (paso 5). Tenga en cuenta que la versión del modelo GPT utilizado se puede actualizar fácilmente a, por ejemplo, GPT-4, o versiones futuras.
Consiste en una aplicación web React que permite a un usuario cargar un archivo de audio (podcast). La aplicación utiliza un punto final de la función Azure (WebApiHTTPTRIGG) para cargar el archivo de audio en una cuenta de almacenamiento, es decir, el contenedor raw-files .
La función Azure (AudioFileUploadedBlobTrigger) se active cuando se agrega un nuevo archivo al contenedor raw-files . La función descarga el archivo de audio y lo envía a Azure Speech Services y transcribe el audio al texto. Luego guarda la transcripción a la misma cuenta de almacenamiento, es decir, el contenedor transcription .
La última función de Azure (transcriptionFileUploadedBlObtrigger) se activa cuando se agregan nuevos archivos al contenedor transcriptions . La función descarga el archivo de transcripción y lo envía a cuatro métodos Azure OpenAI diferentes que realizan las siguientes funciones:
Guarda los resultados como archivos de texto separados en la cuenta de almacenamiento open-ai-results Contenedor.
Este proyecto da la bienvenida a las contribuciones y sugerencias. La mayoría de las contribuciones requieren que acepte un Acuerdo de Licencia de Contributor (CLA) que declare que tiene derecho y realmente hacernos los derechos para utilizar su contribución. Para más detalles, visite https://cla.opensource.microsoft.com.
Para contribuir, comience creando un problema autoensignado que proporcione una descripción general de alto nivel de lo que le gustaría hacer. Una vez que cualquier discusión concluye, haga un seguimiento con un PR.
Este proyecto ha adoptado el Código de Conducta Open Open Microsoft. Para obtener más información, consulte el Código de Conducta Preguntas frecuentes o comuníquese con [email protected] con cualquier pregunta o comentario adicional.