DocSense Download - DocSense Source Code Download

DocSense

Anderer Quellcode

1.0.0

Herunterladen

DocSense - Smart PDF -Vergleich und -analyse

Projektbild

Dieses Projekt bietet eine Webanwendung zum Vergleich von PDF -Dokumenten mithilfe verschiedener Cosinus -Ähnlichkeits -Scans und einer Chatbot -Schnittstelle, um mit den verarbeiteten PDFs zu interagieren. Die Anwendung wird unter Verwendung von Stromflächen, Fastapi und Langchain erstellt.

Merkmale

PDF -Vergleich : Vergleichen Sie zwei PDFs unter Verwendung verschiedener Ebenen von Cosinus -Ähnlichkeits -Scans.
- Cosinus-Ähnlichkeits-Scan auf Dokumentenebene
- Satzebene Cosinus-Ähnlichkeits-Scan
- Vorverarbeitete Satzebene mit Kosinus-Ähnlichkeitsscan
Chatbot : Interagieren Sie mit dem Inhalt der PDFs mit einem Chatbot, der von benutzerdefinierten LLM -Modellen (LLAMA 3 und Google Gemini) betrieben wird.

Installation

Klonen Sie das Repository :

git clone https://github.com/lakshya324/DocSense.git
cd DocSense

Installieren Sie die erforderlichen Pakete :
```
pip install -r requirements.txt
```
Richten Sie Umgebungsvariablen ein : Erstellen Sie eine .env -Datei im Stammverzeichnis und fügen Sie Ihre Umgebungsvariablen hinzu:
```
 GOOGLE_API_KEY=your-google-api-key
DEPLOYED=False
```
Richten Sie Lama 3 und Ollama ein : Installieren Sie Lama 3 (8b) und Ollama, indem Sie den folgenden Befehl ausführen:
```
ollama run llama3
```

Verwendung

Führen Sie die Streamlit -App aus :
```
streamlit run app.py
```
Navigieren Sie zur Startseite :
- Laden Sie zwei PDFs zum Vergleichen hoch.
- Wählen Sie den Scantyp (Dokumentenebene, Satzebene, vorverarbeitete Satzebene) aus.
- Wählen Sie den Einbettungstyp (Graf Vectorizer, TF-IDF Vectorizer, All-Minilm-L6-V2).
- Klicken Sie auf "Senden", um die PDFs zu vergleichen und die Ähnlichkeitsbewertung zu erhalten.
Navigieren Sie zur Chatbot -Seite :
- Laden Sie die PDFs in die Vektor -Datenbank.
- Interagieren Sie mit den PDFs mit dem Chatbot, indem Sie ein LLM -Modell auswählen und Ihre Abfrage eingeben.

Projektstruktur

 ├── app.py                     # Main Streamlit application
├── compare.py                 # PDF comparison logic
├── pdf_extractor.py           # PDF text extraction logic
├── text_preprocessing.py      # Pre-processing of PDF text
├── LLM
│   ├── gemini.py              # Google Gemini LLM integration
│   ├── llama3.py              # LLAMA 3 LLM integration (OLLAMA)
│   ├── prompt.py              # Prompt generation logic
├── embeddings
│   ├── CountVectorizer.py     # Count Vectorization logic
│   ├── TfidfVectorizer.py     # TF-IDF Vectorization logic
│   ├── all_MiniLM_L6_v2.py    # All-MiniLM-L6-v2 Vectorization logic
├── result.py                  # Chatbot result processing
├── requirements.txt           # Required Python packages
└── .env                       # Environment variables (not included in the repository)