ดาวน์โหลด DocSense - ดาวน์โหลดซอร์สโค้ด DocSense

DocSense

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

เอกสาร - การเปรียบเทียบและการวิเคราะห์ Smart PDF

ภาพโครงการ

โครงการนี้มีเว็บแอปพลิเคชันสำหรับการเปรียบเทียบเอกสาร PDF โดยใช้การสแกนความคล้ายคลึงกันของโคไซน์ที่แตกต่างกันและอินเทอร์เฟซ Chatbot เพื่อโต้ตอบกับ PDF ที่ผ่านการประมวลผล แอปพลิเคชันถูกสร้างขึ้นโดยใช้ Streamlit, Fastapi และ Langchain

คุณสมบัติ

การเปรียบเทียบ PDF : เปรียบเทียบ PDF สองตัวโดยใช้การสแกนความคล้ายคลึงกันของโคไซน์ระดับต่าง ๆ
- การสแกนความคล้ายคลึงกันของโคไซน์ระดับเอกสาร
- การสแกนความคล้ายคลึงกันของโคไซน์ระดับประโยค
- การสแกนความคล้ายคลึงกันระดับความคล้ายคลึงกันในระดับประโยค
chatbot : โต้ตอบกับเนื้อหาของ PDF โดยใช้ chatbot ที่ขับเคลื่อนโดยรุ่น LLM ที่กำหนดเอง (Llama 3 และ Google Gemini)

การติดตั้ง

โคลนที่เก็บ :

git clone https://github.com/lakshya324/DocSense.git
cd DocSense

ติดตั้งแพ็คเกจที่ต้องการ :
```
pip install -r requirements.txt
```
ตั้งค่าตัวแปรสภาพแวดล้อม : สร้างไฟล์ .env ในไดเรกทอรีรูทและเพิ่มตัวแปรสภาพแวดล้อมของคุณ:
```
 GOOGLE_API_KEY=your-google-api-key
DEPLOYED=False
```
ตั้งค่า Llama 3 และ Ollama : ติดตั้ง Llama 3 (8B) และ Ollama โดยใช้คำสั่งต่อไปนี้:
```
ollama run llama3
```

การใช้งาน

เรียกใช้แอพ Streamlit :
```
streamlit run app.py
```
นำทางไปยังโฮมเพจ :
- อัปโหลด PDF สองตัวเพื่อเปรียบเทียบ
- เลือกประเภทของการสแกน (ระดับเอกสารระดับประโยคระดับประโยคที่ประมวลผลล่วงหน้า)
- เลือกประเภทการฝัง (นับ vectorizer, TF-IDF vectorizer, All-Minilm-L6-V2)
- คลิก "ส่ง" เพื่อเปรียบเทียบ PDFs และรับคะแนนความคล้ายคลึงกัน
นำทางไปยังหน้า chatbot :
- โหลด PDFs ลงในฐานข้อมูลเวกเตอร์
- โต้ตอบกับ PDF โดยใช้ chatbot โดยเลือกรุ่น LLM และป้อนแบบสอบถามของคุณ

โครงสร้างโครงการ

 ├── app.py                     # Main Streamlit application
├── compare.py                 # PDF comparison logic
├── pdf_extractor.py           # PDF text extraction logic
├── text_preprocessing.py      # Pre-processing of PDF text
├── LLM
│   ├── gemini.py              # Google Gemini LLM integration
│   ├── llama3.py              # LLAMA 3 LLM integration (OLLAMA)
│   ├── prompt.py              # Prompt generation logic
├── embeddings
│   ├── CountVectorizer.py     # Count Vectorization logic
│   ├── TfidfVectorizer.py     # TF-IDF Vectorization logic
│   ├── all_MiniLM_L6_v2.py    # All-MiniLM-L6-v2 Vectorization logic
├── result.py                  # Chatbot result processing
├── requirements.txt           # Required Python packages
└── .env                       # Environment variables (not included in the repository)