
Ce projet fournit une application Web pour comparer des documents PDF à l'aide de différentes analyses de similitude en cosinus et une interface chatbot pour interagir avec les PDF traités. L'application est construite à l'aide de Streamlit, Fastapi et Langchain.
Clone le référentiel :
git clone https://github.com/lakshya324/DocSense.git
cd DocSenseInstallez les packages requis :
pip install -r requirements.txt Configurer des variables d'environnement : créez un fichier .env dans le répertoire racine et ajoutez vos variables d'environnement:
GOOGLE_API_KEY=your-google-api-key
DEPLOYED=False
Configurez Llama 3 et Ollama : Installer Llama 3 (8b) et Olllama en exécutant la commande suivante:
ollama run llama3Exécutez l'application Streamlit :
streamlit run app.pyAccédez à la page d'accueil :
Accédez à la page du chatbot :
├── app.py # Main Streamlit application
├── compare.py # PDF comparison logic
├── pdf_extractor.py # PDF text extraction logic
├── text_preprocessing.py # Pre-processing of PDF text
├── LLM
│ ├── gemini.py # Google Gemini LLM integration
│ ├── llama3.py # LLAMA 3 LLM integration (OLLAMA)
│ ├── prompt.py # Prompt generation logic
├── embeddings
│ ├── CountVectorizer.py # Count Vectorization logic
│ ├── TfidfVectorizer.py # TF-IDF Vectorization logic
│ ├── all_MiniLM_L6_v2.py # All-MiniLM-L6-v2 Vectorization logic
├── result.py # Chatbot result processing
├── requirements.txt # Required Python packages
└── .env # Environment variables (not included in the repository)
Ce projet est autorisé en vertu de la licence MIT - voir le fichier de licence pour plus de détails.