Doctalk?
Doctalk est une application Web basée sur le rationalisation qui permet aux utilisateurs de télécharger et d'interagir avec leurs documents (PDF, DOCX, TXT) en utilisant des requêtes en langage naturel. L'application exploite le modèle GPT-4O-MINI d'OpenAI pour la validation et le chat de requête, et le texte-3-3 pour comprendre et répondre aux requêtes utilisateur en fonction du contenu des documents téléchargés.
Caractéristiques
- Téléchargez et traitez les documents : téléchargez des fichiers PDF, DOCX et TXT pour l'extraction et le traitement de texte.
- Chunking et comptage des jetons personnalisés : Chunking personnalisé des documents pour améliorer la récupération de contexte et la génération de réponse. Utilise le tokenizer de phrase de NLTK pour phraser le tokenize des documents, suivi d'un comptage de jetons à l'aide de tiktoken pour gérer les tailles de morceaux.
- Discutez avec des documents : posez des questions sur vos documents téléchargés et recevez des réponses contextuelles.
- La similitude du cosinus pour la récupération de contexte : utilise la similitude du cosinus pour trouver les morceaux de document les plus pertinents en réponse aux requêtes utilisateur.
- Validation de la requête : utilise un appel API secondaire pour valider si une requête a besoin d'un contexte de document, économisant finalement les jetons et réduisant les coûts.
- Authentification simple de code d'accès de l'APP : L'accès à l'application est protégé par un mot de passe pour s'assurer que seuls les utilisateurs autorisés peuvent interagir avec les documents.
Installation
Clone le référentiel :
git clone https://github.com/kmaurinjones/doc-talk.git
cd doc-talk
Créez un environnement virtuel (facultatif mais recommandé):
python3 -m venv env
source env/bin/activate
Installez les packages requis :
pip install -r requirements.txt
Variables d'environnement
Créez un fichier .env à la racine de votre projet et ajoutez les variables d'environnement suivantes:
SIMPLE_AUTH_PASSCODE=your_passcode
OPENAI_API_KEY=your_openai_api_key
Courir localement
Pour exécuter l'application localement, utilisez la commande suivante:
Cela démarrera le serveur Streamlit et vous pouvez accéder à l'application sur http://localhost:8501 .
Accéder à l'application déployée
La demande est également déployée et peut être accessible via l'URL suivante: Doctalk Déploiement
Usage
- Téléchargez des documents : téléchargez des fichiers PDF, DOCX ou TXT à l'aide du téléchargeur de fichiers dans l'application.
- Documents de traitement : cliquez sur le bouton "Processus Documents" pour extraire et traiter le texte à partir des fichiers téléchargés.
- Chat avec des documents : utilisez l'entrée du chat pour poser des questions sur le contenu des documents téléchargés. L'application fournira des réponses basées sur le texte traité et le contexte à partir des documents.
Exemples
Voici quelques captures d'écran de la demande Doctalk utilisées:
Authentification de l'utilisateur de code d'accès simple

Téléchargement et traitement des documents

Requête et contexte de réponse

Contributif
Les contributions sont les bienvenues! Veuillez ouvrir un problème ou soumettre une demande de traction pour toute amélioration ou correction de bogues.
Licence
Ce projet est autorisé sous la licence du MIT. Voir le fichier LICENSE pour plus de détails.
Contact
Pour toute question ou problème, veuillez me contacter à [email protected]