Flask Based API for Document Retrieval - Flask Based API for Document Retrieval

Flask Based API for Document Retrieval

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

API ที่ใช้ขวดสำหรับการดึงเอกสารด้วย pinecone, แคช, การ จำกัด อัตราและการขูดพื้นหลัง

ภาพรวมโครงการ

โครงการนี้เป็น API ที่ใช้ขวดที่ออกแบบมาเพื่อดึงเอกสารโดยใช้ Pinecone สำหรับการค้นหาเวกเตอร์ มีคุณสมบัติเช่น:

แคชสำหรับการดึงข้อมูลที่เร็วขึ้น
อัตราการ จำกัด การควบคุมการใช้ API
การขูดพื้นหลังเพื่ออัปเดตฐานข้อมูลเป็นระยะ ๆ
Dockerization เพื่อการปรับใช้และความยืดหยุ่นได้ง่าย

แอปพลิเคชันใช้:

Pinecone สำหรับการดึงเอกสารที่ใช้เวกเตอร์
Hugging Face Transformers (BERT) สำหรับการสร้างการฝังข้อความ
Flask-Sqlalchemy สำหรับการจัดการผู้ใช้และการติดตามการใช้ API
Flask-caching สำหรับการแคช API
Flask-Limiter สำหรับผู้ใช้ จำกัด อัตรา
นักเทียบท่า สำหรับบรรจุแอพในสภาพแวดล้อมที่บรรจุ

แนวทางและการไหลของโครงการ

1. การตั้งค่า Flask API

เราเริ่มต้นด้วยการตั้งค่าแอปพลิเคชัน Fasic Flask และจุดสิ้นสุด API:

/health : จุดสิ้นสุดง่าย ๆ ในการตรวจสอบว่า API กำลังทำงานอยู่หรือไม่
/search : จุดสิ้นสุดในการสืบค้น pinecone ด้วยการฝังข้อความและดึงผลลัพธ์

2. การสร้างรุ่นเบิร์ตกับเบิร์ต

สำหรับการสืบค้นแต่ละครั้งเราจะสร้าง Embeddings โดยใช้ แบบจำลอง BERT ที่ผ่านการฝึกอบรมมาก่อน (ผ่านห้องสมุด transformers ของ Hugging Face) การฝังตัวเหล่านี้ใช้เพื่อทำการค้นหาเวกเตอร์โดยใช้ pinecone

3. การรวมเข้ากับ pinecone

เรารวม Pinecone ฐานข้อมูลเวกเตอร์เพื่อจัดเก็บและสอบถามเอกสารการค้นหา สิ่งนี้ช่วยให้การดึงเอกสารที่มีประสิทธิภาพและรวดเร็วขึ้นอยู่กับการค้นหาความคล้ายคลึงกัน

4. การ จำกัด อัตราและการจัดการผู้ใช้

เราใช้ อัตราการ จำกัด โดยใช้ Flask-Limiter เพื่อ จำกัด ผู้ใช้จากการทำคำขอมากกว่า 5 ครั้งต่อนาที:

ผู้ใช้จะถูกติดตามโดยใช้ฐานข้อมูล SQLite พร้อม Flask-Sqlalchemy
หากผู้ใช้เกินขีด จำกัด อัตรา API จะส่งคืนข้อผิดพลาด HTTP 429 (คำขอมากเกินไป)

5. แคชสำหรับการดึงข้อมูลที่เร็วขึ้น

เราเพิ่ม การแคช โดยใช้ Flask-Caching การแคชช่วยให้มั่นใจได้ว่ามีการสืบค้นที่เหมือนกันนั้นมาจากหน่วยความจำลดความจำเป็นในการกดฐานข้อมูลและเครื่องมือค้นหาเวกเตอร์ซ้ำ ๆ ผลลัพธ์ที่แคชหมดอายุหลังจาก 5 นาที

6. การขูดพื้นหลัง

เราใช้เครื่องตรวจสอบพื้นหลังที่สามารถขูดเว็บไซต์ที่ผู้ใช้ให้ไว้สำหรับบทความหรือข้อมูลและอัปเดตดัชนี Pinecone ด้วยเอกสารใหม่:

การขูดถูกจัดการโดย BeautifulSoup
งานการขูดจะทำงานในพื้นหลังบนเธรดแยกต่างหากและอัปเดตดัชนี Pinecone เป็นระยะ

7. Dockerization

เราเชื่อมต่อโครงการโดยใช้ DockerFile สิ่งนี้ช่วยให้โครงการสามารถปรับใช้ได้อย่างง่ายดายในสภาพแวดล้อมใด ๆ ที่มีพฤติกรรมที่สอดคล้องกันในระบบที่แตกต่างกัน

คุณสมบัติ

การดึงเอกสาร : ดึงเอกสารขึ้นอยู่กับการค้นหาความคล้ายคลึงกันโดยใช้ EMBEDDINGS
การ จำกัด อัตรา : ป้องกันการละเมิด API โดยการ จำกัด คำขอถึง 5 ต่อนาทีต่อผู้ใช้
การแคช : แคชผลลัพธ์ของการสืบค้นที่คล้ายกันสำหรับเวลาตอบสนองที่เร็วขึ้น
การจัดการผู้ใช้ : ติดตามจำนวนการโทร API ที่ทำโดยผู้ใช้แต่ละคน
การขูดพื้นหลัง : เว็บไซต์ขูดในพื้นหลังเพื่ออัปเดตดัชนี Pinecone อย่างต่อเนื่อง
Dockerization : เรียกใช้และปรับใช้แอปพลิเคชันได้อย่างง่ายดายโดยใช้ Docker

โครงสร้างโครงการ

 project/
├── app.py               # Main Flask application
├── database.py          # Database setup for user management
├── cache.py             # Caching configuration
├── limiter.py           # Rate limiting configuration
├── utils.py             # Utility functions (embedding, Pinecone query)
├── scraping.py          # Background scraping logic
├── requirements.txt     # Python dependencies
├── Dockerfile           # Docker configuration
├── .env                 # Environment variables (not committed to version control)
├── .dockerignore        # Ignore unnecessary files in the Docker build
└── README.md            # Project documentation

ไฟล์คีย์:

app.py : มีแอปพลิเคชัน Flask และเส้นทาง API ทั้งหมด
database.py : จัดการการตั้งค่าและสคีมาสำหรับการจัดการผู้ใช้โดยใช้ SQLite
cache.py : จัดการแคชสำหรับเวลาตอบสนองที่เร็วขึ้น
limiter.py : ใช้ฟังก์ชั่น จำกัด อัตรา
utils.py : ให้ฟังก์ชั่นผู้ช่วยสำหรับการสร้าง embeddings และการสืบค้น pinecone
scraping.py : มีตรรกะสำหรับการขูดพื้นหลังและอัปเดตดัชนี Pinecone
Dockerfile : ใช้ในการสร้างและเรียกใช้แอปพลิเคชันในคอนเทนเนอร์ Docker

การตั้งค่าและการติดตั้ง

ข้อกำหนดเบื้องต้น:

Python 3.9+
นักเทียบท่า

ขั้นตอนที่ 1: โคลนที่เก็บ

 git clone <repository-url>
cd project

ขั้นตอนที่ 2: ตั้งค่าสภาพแวดล้อมเสมือนจริง (เป็นทางเลือก แต่แนะนำ)

 python -m venv venv
source venv/bin/activate  # On Windows, use venvScriptsactivate

ขั้นตอนที่ 3: ติดตั้งการพึ่งพา

 pip install -r requirements.txt

ขั้นตอนที่ 4: ตั้งค่าตัวแปรสภาพแวดล้อม

สร้างไฟล์. env ในรูทโครงการและเพิ่มคีย์ Pinecone API และสภาพแวดล้อมของคุณ:

 PINECONE_API_KEY=your_pinecone_api_key
PINECONE_ENVIRONMENT=your_pinecone_environment

ขั้นตอนที่ 5: เริ่มต้นฐานข้อมูล

ในการตั้งค่าฐานข้อมูลให้เรียกใช้รหัสต่อไปนี้:

 >>> from app import db, app
>>> with app.app_context():
>>>     db.create_all()

ขั้นตอนที่ 6: เรียกใช้แอปพลิเคชัน

 python app.py

แอพจะทำงานที่ http://localhost:5000

การตั้งค่านักเทียบท่า

ขั้นตอนที่ 1: สร้างภาพนักเทียบท่า

 docker build -t flask-app .

ขั้นตอนที่ 2: เรียกใช้คอนเทนเนอร์ Docker

 docker run -p 5000:5000 flask-app

ตอนนี้แอปของคุณจะทำงานที่ http://localhost:5000

จุดสิ้นสุด API

การตรวจสุขภาพ

URL : /health วิธีการ ด้านสุขภาพ: GET อธิบาย : ตรวจสอบว่า API กำลังทำงานอยู่หรือไม่ การตอบสนอง :

 json
Copy code
{
  "status": "API is running"
}

ค้นหา

URL : /search วิธี การค้นหา: POST คำอธิบาย : เอกสารค้นหาตามข้อความค้นหาข้อความ ขอร่าง :

 json
Copy code
{
  "query": "Your search query",
  "user_id": "user123",
  "top_k": 3
}

การตอบสนอง : ส่งคืนรายการเอกสารการจับคู่ตามแบบสอบถาม

เริ่มต้นการขูด URL : /start_scraping วิธี : POST คำอธิบาย : เริ่มกระบวนการขูดพื้นหลังสำหรับไซต์เฉพาะ ขอร่าง :

 json
Copy code
{
  "url": "https://example.com"
}

การตอบสนอง :

 json

{
  "message": "Started scraping for https://example.com"
}

การแก้ไขปัญหา

ปัญหาทั่วไป:

เกินขีด จำกัด อัตรา: หากคุณถึงขีด จำกัด อัตรา API จะส่งคืนข้อผิดพลาด 429
การแคชล่าช้า: หากผลลัพธ์แคชถูกส่งคืนคุณอาจต้องรอ 5 นาทีก่อนที่ผลลัพธ์ใหม่จะปรากฏขึ้น
บันทึก: แอปพลิเคชันบันทึกคำขอและข้อผิดพลาดทั้งหมดใน api.log บันทึกการขูดพื้นหลังถูกเขียนไปยัง Scraping.log

การปรับปรุงในอนาคต

การรับรองความถูกต้อง: การเพิ่มการรับรองความถูกต้องตามคีย์ API เพื่อความปลอดภัยที่เพิ่มเข้ามา
การจัดการข้อผิดพลาดที่ได้รับการปรับปรุง: ข้อความแสดงข้อผิดพลาดโดยละเอียดเพิ่มเติมสำหรับการสืบค้นที่ไม่ถูกต้องหรือความล้มเหลวในการขูด
รองรับไซต์ขูดหลายไซต์: ปรับปรุงมีดโกนเพื่อจัดการหลาย ๆ ไซต์แบบขนาน

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-05-30
ขนาด 15.66KB
มาจาก Github

แอปที่เกี่ยวข้อง

Youtube dl api

2024-11-05
sample node api

2024-11-05
aspera api examples

2024-11-04
Enhanced Blockchain Based Decentralized Public Auditing for Cloud Storage

2024-11-04
Retrieval based Voice Conversion WebUI

2024-11-01
jQuery 1.2 API เวอร์ชันภาษาจีน

2009-05-29

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด