
Dieses Projekt bietet eine Webanwendung zum Vergleich von PDF -Dokumenten mithilfe verschiedener Cosinus -Ähnlichkeits -Scans und einer Chatbot -Schnittstelle, um mit den verarbeiteten PDFs zu interagieren. Die Anwendung wird unter Verwendung von Stromflächen, Fastapi und Langchain erstellt.
Klonen Sie das Repository :
git clone https://github.com/lakshya324/DocSense.git
cd DocSenseInstallieren Sie die erforderlichen Pakete :
pip install -r requirements.txt Richten Sie Umgebungsvariablen ein : Erstellen Sie eine .env -Datei im Stammverzeichnis und fügen Sie Ihre Umgebungsvariablen hinzu:
GOOGLE_API_KEY=your-google-api-key
DEPLOYED=False
Richten Sie Lama 3 und Ollama ein : Installieren Sie Lama 3 (8b) und Ollama, indem Sie den folgenden Befehl ausführen:
ollama run llama3Führen Sie die Streamlit -App aus :
streamlit run app.pyNavigieren Sie zur Startseite :
Navigieren Sie zur Chatbot -Seite :
├── app.py # Main Streamlit application
├── compare.py # PDF comparison logic
├── pdf_extractor.py # PDF text extraction logic
├── text_preprocessing.py # Pre-processing of PDF text
├── LLM
│ ├── gemini.py # Google Gemini LLM integration
│ ├── llama3.py # LLAMA 3 LLM integration (OLLAMA)
│ ├── prompt.py # Prompt generation logic
├── embeddings
│ ├── CountVectorizer.py # Count Vectorization logic
│ ├── TfidfVectorizer.py # TF-IDF Vectorization logic
│ ├── all_MiniLM_L6_v2.py # All-MiniLM-L6-v2 Vectorization logic
├── result.py # Chatbot result processing
├── requirements.txt # Required Python packages
└── .env # Environment variables (not included in the repository)
Dieses Projekt ist unter der MIT -Lizenz lizenziert - Einzelheiten finden Sie in der Lizenzdatei.