DocSense
1.0.0

Este proyecto proporciona una aplicación web para comparar documentos PDF utilizando diferentes escaneos de similitud de coseno y una interfaz de chatbot para interactuar con los PDF procesados. La aplicación se construye usando Streamlit, Fastapi y Langchain.
Clon el repositorio :
git clone https://github.com/lakshya324/DocSense.git
cd DocSenseInstale los paquetes requeridos :
pip install -r requirements.txt Configurar variables de entorno : cree un archivo .env en el directorio raíz y agregue sus variables de entorno:
GOOGLE_API_KEY=your-google-api-key
DEPLOYED=False
Configurar Llama 3 y Ollama : Install Llama 3 (8B) y Ollama ejecutando el siguiente comando:
ollama run llama3Ejecute la aplicación Streamlit :
streamlit run app.pyNavegue a la página de inicio :
Navegue a la página de chatbot :
├── app.py # Main Streamlit application
├── compare.py # PDF comparison logic
├── pdf_extractor.py # PDF text extraction logic
├── text_preprocessing.py # Pre-processing of PDF text
├── LLM
│ ├── gemini.py # Google Gemini LLM integration
│ ├── llama3.py # LLAMA 3 LLM integration (OLLAMA)
│ ├── prompt.py # Prompt generation logic
├── embeddings
│ ├── CountVectorizer.py # Count Vectorization logic
│ ├── TfidfVectorizer.py # TF-IDF Vectorization logic
│ ├── all_MiniLM_L6_v2.py # All-MiniLM-L6-v2 Vectorization logic
├── result.py # Chatbot result processing
├── requirements.txt # Required Python packages
└── .env # Environment variables (not included in the repository)
Este proyecto tiene licencia bajo la licencia MIT; consulte el archivo de licencia para obtener más detalles.