Digestion de la parole
Cette application rationalisée permet aux utilisateurs de télécharger un fichier audio, de transcrire l'audio à l'aide de Whisper ASR d'Openai, puis de résumer la transcription à l'aide du modèle de langage GPT-3.5-turbo d'OpenAI.
Caractéristiques
- Téléchargez des fichiers audio dans des formats pris en charge (M4A, MP3, Webm, MP4, MPGA, WAV et MPEG)
- Transcrire l'audio en utilisant Openai's Whisper ASR
- Résumer l'audio transcrit à l'aide du GPT-3.5-turbo d'OpenAI
- Fournir une clé API personnalisée et sélectionner le modèle souhaité
Installation
Condition préalable
- Python 3,6 ou plus
- Rationaliser
- Openai Python Library (V0.27.0 ou plus)
Mesures
- Clone le référentiel:
git clone https://github.com/StanGirard/speechdigest
- Changer dans le répertoire du référentiel:
- Installez les packages requis:
pip install -r requirements.txt
- Définissez votre clé API OpenAI comme variable d'environnement:
export OPENAI_API_KEY="your-api-key"
- Exécutez l'application Streamlit:
L'application sera désormais accessible sur http://localhost:8501 dans votre navigateur.
Usage
- Ouvrez l'application dans votre navigateur.
- Entrez votre touche API OpenAI et sélectionnez le modèle souhaité (GPT-4 ou GPT-3.5-Turbo) à l'aide des champs d'entrée.
- Téléchargez un fichier audio dans un format pris en charge à l'aide du téléchargeur de fichiers.
- L'application transcrira l'audio à l'aide de Whisper ASR et affichera la transcription.
- L'application résumera ensuite la transcription à l'aide du modèle de langue sélectionné et affichera le résumé.
Contributif
N'hésitez pas à soumettre des problèmes, des demandes de fonctionnalités ou des demandes de traction. Nous apprécions toute contribution pour améliorer l'application.