Flask Based API for Document Retrieval - Flask Based API for Document Retrieval رمز المصدر

Flask Based API for Document Retrieval

شفرة المصدر الأخرى

1.0.0

تنزيل

واجهة برمجة التطبيقات المستندة إلى Flask لاسترجاع المستندات مع Pinecone ، التخزين المؤقت ، الحد من الأسعار ، وخرق الخلفية

نظرة عامة على المشروع

هذا المشروع عبارة عن واجهة برمجة تطبيقات قائمة على القارورة مصممة لاسترداد المستندات باستخدام Pinecone للبحث عن المتجهات. ويشمل ميزات مثل:

التخزين المؤقت للاسترجاع بشكل أسرع
معدل الحد من السيطرة على استخدام واجهة برمجة التطبيقات
خلفية تجريف لتحديث قاعدة البيانات بشكل دوري
التنسيق لسهولة النشر وقابلية التوسع

يستخدم التطبيق:

Pinecone لاسترجاع المستندات المستندة إلى المتجه
معانقة محولات الوجه (BERT) لتوليد تضمينات نصية
Flask-Sqlalchemy لإدارة المستخدم وتتبع استخدام API
تبخير القرة لتخزين API
قارورة محددة للمستخدمين المحددة في الأسعار
Docker لتعبئة التطبيق في بيئة الحاويات

النهج وتدفق المشروع

1. إعداد قارورة API

لقد بدأنا بإعداد تطبيق FASIC Flask ونقاط نهاية API:

/health : نقطة نهاية بسيطة للتحقق مما إذا كانت واجهة برمجة التطبيقات تعمل.
/search : نقطة نهاية للاستعلام عن pinecone مع تضمينات النص واسترداد النتائج.

2. تضمين الجيل مع بيرت

لكل استعلام ، نقوم بإنشاء التضمينات باستخدام نموذج BERT الذي تم تدريبه مسبقًا (عبر مكتبة transformers 's Hugging Face). يتم استخدام هذه التضمينات لأداء عمليات البحث المتجهات باستخدام Pinecone.

3. التكامل مع Pinecone

قمنا بدمج Pinecone ، قاعدة بيانات متجه ، لتخزين ووثائق المستندات. هذا يتيح استرجاعًا فعالًا وسريعًا للوثائق بناءً على البحث عن التشابه.

4. الحد من معدل وإدارة المستخدم

قمنا بتنفيذ الحد من المعدل باستخدام Flask-Limiter لتقييد المستخدمين من تقديم أكثر من 5 طلبات في الدقيقة:

يتم تتبع المستخدمين باستخدام قاعدة بيانات SQLite مع Flask-SqlalChemy .
إذا تجاوز المستخدم الحد الأقصى للمعدل ، فإن واجهة برمجة التطبيقات تُرجع خطأ HTTP 429 (العديد من الطلبات).

5. التخزين المؤقت لاسترجاع أسرع

أضفنا التخزين المؤقت باستخدام Flask-Caching . يضمن التخزين المؤقت أن يتم تقديم استعلامات متطابقة من الذاكرة ، مما يقلل من الحاجة إلى الوصول إلى قاعدة البيانات ومحرك البحث المتجه بشكل متكرر. تنتهي النتائج المخبأة بعد 5 دقائق.

6. خلفية الكشط

قمنا بتطبيق مكشطة خلفية يمكنها كشط موقع ويب يقدمه المستخدم للمقالات أو البيانات وتحديث فهرس Pinecone بمستندات جديدة:

يتم التعامل مع الكشط بواسطة BeautifulSoup .
تعمل مهمة Drassing في الخلفية على مؤشر ترابط منفصل وتحديث فهرس Pinecone بشكل دوري.

7. التنسيق

لقد مررنا المشروع باستخدام Dockerfile . يتيح ذلك نشر المشروع بسهولة في أي بيئة مع سلوك متسق عبر أنظمة مختلفة.

سمات

استرجاع المستند : استرداد المستندات بناءً على بحث التشابه باستخدام التضمينات.
الحد من المعدل : منع سوء معاملة API عن طريق الحد من الطلبات إلى 5 في الدقيقة لكل مستخدم.
التخزين المؤقت : ذاكرة التخزين المؤقت نتائج الاستعلامات المماثلة لأوقات الاستجابة الأسرع.
إدارة المستخدم : تتبع عدد مكالمات API التي يقوم بها كل مستخدم.
تجريف الخلفية : كشط المواقع في الخلفية لتحديث فهرس Pinecone باستمرار.
التنقيح : بسهولة تشغيل ونشر التطبيق باستخدام Docker.

هيكل المشروع

 project/
├── app.py               # Main Flask application
├── database.py          # Database setup for user management
├── cache.py             # Caching configuration
├── limiter.py           # Rate limiting configuration
├── utils.py             # Utility functions (embedding, Pinecone query)
├── scraping.py          # Background scraping logic
├── requirements.txt     # Python dependencies
├── Dockerfile           # Docker configuration
├── .env                 # Environment variables (not committed to version control)
├── .dockerignore        # Ignore unnecessary files in the Docker build
└── README.md            # Project documentation

الملفات الرئيسية:

app.py : يحتوي على تطبيق Flask وجميع طرق API.
database.py : يتولى الإعداد والمخطط لإدارة المستخدم باستخدام SQLite.
cache.py : يدير التخزين المؤقت لأوقات الاستجابة بشكل أسرع.
limiter.py : تنفذ وظائف الحد من المعدل.
utils.py : يوفر وظائف مساعد لتوليد التضمينات والاستعلام عن pinecone.
scraping.py : يحتوي على منطق تجريف الخلفية وتحديث فهرس Pinecone.
Dockerfile : يستخدم لبناء وتشغيل التطبيق في حاوية Docker.

الإعداد والتركيب

المتطلبات الأساسية:

بيثون 3.9+
عامل ميناء

الخطوة 1: استنساخ المستودع

 git clone <repository-url>
cd project

الخطوة 2: إعداد بيئة افتراضية (اختيارية ولكن موصى بها)

 python -m venv venv
source venv/bin/activate  # On Windows, use venvScriptsactivate

الخطوة 3: تثبيت التبعيات

 pip install -r requirements.txt

الخطوة 4: إعداد متغيرات البيئة

قم بإنشاء ملف .env في جذر المشروع وأضف مفتاح وبيئة API Pinecone:

 PINECONE_API_KEY=your_pinecone_api_key
PINECONE_ENVIRONMENT=your_pinecone_environment

الخطوة 5: تهيئة قاعدة البيانات

لإعداد قاعدة البيانات ، قم بتشغيل الكود التالي:

 >>> from app import db, app
>>> with app.app_context():
>>>     db.create_all()

الخطوة 6: تشغيل التطبيق

 python app.py

سيتم تشغيل التطبيق على http://localhost:5000 .

الإعداد Docker

الخطوة 1: بناء صورة Docker

 docker build -t flask-app .

الخطوة 2: قم بتشغيل حاوية Docker

 docker run -p 5000:5000 flask-app

الآن ، سيتم تشغيل تطبيقك على http://localhost:5000 .

نقاط نهاية API

فحص الصحة

عنوان URL : /health طريقة الصحة: GET الوصف : الشيكات إذا كانت واجهة برمجة التطبيقات تعمل. إجابة :

 json
Copy code
{
  "status": "API is running"
}

يبحث

عنوان URL : / طريقة /search : POST Description : مستندات البحث بناءً على استفسارات النص. طلب الجسم :

 json
Copy code
{
  "query": "Your search query",
  "user_id": "user123",
  "top_k": 3
}

الرد : إرجاع قائمة المستندات المطابقة بناءً على الاستعلام.

ابدأ في إزالة عنوان URL : /start_scraping طريقة : POST الوصف : تبدأ عملية تجريف الخلفية لموقع معين. طلب الجسم :

 json
Copy code
{
  "url": "https://example.com"
}

إجابة :

 json

{
  "message": "Started scraping for https://example.com"
}

استكشاف الأخطاء وإصلاحها

القضايا الشائعة:

تم تجاوز الحد الأقصى للمعدل: إذا وصلت إلى حد المعدل ، فسيقوم واجهة برمجة التطبيقات بإرجاع خطأ 429.
تأخير التخزين المؤقت: إذا تم إرجاع النتائج المخزنة مؤقتًا ، فقد تحتاج إلى الانتظار 5 دقائق قبل ظهور نتائج جديدة.
سجلات: يقوم التطبيق بتسجيل جميع الطلبات والأخطاء في api.log . تتم كتابة سجلات تجريف الخلفية إلى draging.log.

التحسينات المستقبلية

المصادقة: إضافة المصادقة المستندة إلى مفتاح API لمزيد من الأمان.
تحسين معالجة الأخطاء: رسائل خطأ أكثر تفصيلاً للاستعلامات غير الصالحة أو فشل الكشط.
دعم لمواقع الكشط المتعددة: عزز مكشطة للتعامل مع مواقع متعددة بالتوازي.

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-05-30
الحجم 15.66KB
من Github

تطبيقات ذات صلة

Youtube dl api

2024-11-05
sample node api

2024-11-05
aspera api examples

2024-11-04
Enhanced Blockchain Based Decentralized Public Auditing for Cloud Storage

2024-11-04
Retrieval based Voice Conversion WebUI

2024-11-01
النسخة الصينية من jQuery 1.2 API

2009-05-29

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل