Flask Based API for Document Retrieval - Flask Based API for Document Retrieval Télécharger

Flask Based API for Document Retrieval

Autre code source

1.0.0

Télécharger

API basée sur le flacon pour la récupération de documents avec poireau, mise en cache, limitation des taux et grattage d'arrière-plan

Aperçu du projet

Ce projet est une API basée sur Flask conçue pour récupérer des documents à l'aide de PineCone pour la recherche vectorielle. Il comprend des fonctionnalités comme:

Cache pour une récupération plus rapide
Tarif limite à la consommation de contrôle de l'API
Stracage de fond pour mettre à jour périodique la base de données
Docker pour un déploiement et une évolutivité faciles

L'application utilise:

Pinecone pour la récupération de documents basée sur les vecteurs
Transformers de face étreintes (Bert) pour générer des intérêts de texte
FLASK-SQLALCHEMY pour la gestion des utilisateurs et le suivi de l'utilisation de l'API
Flash-caching pour les résultats de l'API de mise en cache
Flash-Limiter pour les utilisateurs de limitation de taux
Docker pour emballer l'application dans un environnement conteneurisé

Approche et flux de projet

1. Configuration de l'API Flask

Nous avons commencé par configurer l'application Flask de base et les points de terminaison API:

/health : un simple point de terminaison pour vérifier si l'API est en cours d'exécution.
/search : un point de terminaison pour interroger le pignon avec des incorporations de texte et récupérer les résultats.

2. Génération d'intégration avec Bert

Pour chaque requête, nous générons des intégrons en utilisant un modèle Bert pré-formé (via la bibliothèque transformers de Hugging Face). Ces intérêts sont utilisés pour effectuer des recherches vectorielles à l'aide de Pinecone.

3. Intégration avec Pinecone

Nous avons intégré Pinecone , une base de données vectorielle, pour stocker et interroger les intégres de documents. Cela permet une récupération efficace et rapide des documents basés sur une recherche de similitude.

4. Limitation des taux et gestion des utilisateurs

Nous avons mis en œuvre la limitation des taux à l'aide Flask-Limiter pour empêcher les utilisateurs de faire plus de 5 demandes par minute:

Les utilisateurs sont suivis à l'aide d'une base de données SQLite avec FLASK-SQLALCHEMY .
Si un utilisateur dépasse la limite de taux, l'API renvoie une erreur HTTP 429 (trop de demandes).

5. Cache pour une récupération plus rapide

Nous avons ajouté de la mise en cache à l'aide Flask-Caching . La mise en cache garantit que des requêtes identiques sont servies à partir de la mémoire, ce qui réduit la nécessité de frapper à plusieurs reprises la base de données et le moteur de recherche vectorielle. Les résultats mis en cache expirent après 5 minutes.

6. Stracage du fond

Nous avons implémenté un grattoir d'arrière-plan qui peut gratter un site Web fourni par l'utilisateur pour des articles ou des données et mettre à jour l'index de poireau avec de nouveaux documents:

Le grattage est manipulé par BeautifulSoup .
La tâche de grattage s'exécute en arrière-plan sur un thread séparé et met à jour l'indice de poireau périodiquement.

7. Docking

Nous avons accroché le projet à l'aide d'un dockerfile . Cela permet au projet d'être facilement déployé dans n'importe quel environnement avec un comportement cohérent sur différents systèmes.

Caractéristiques

Récupération de documents : récupérer des documents basés sur la recherche de similitude à l'aide d'intégration.
Limitation des taux : empêcher les abus d'API en limitant les demandes à 5 par minute par utilisateur.
Cache : cachez les résultats de requêtes similaires pour des temps de réponse plus rapides.
Gestion des utilisateurs : suivez le nombre d'appels API passés par chaque utilisateur.
Stracage d'arrière-plan : gratter les sites Web en arrière-plan pour mettre à jour en continu l'index de Pinecone.
Docking : Exécutez et déployez facilement l'application à l'aide de Docker.

Structure du projet

 project/
├── app.py               # Main Flask application
├── database.py          # Database setup for user management
├── cache.py             # Caching configuration
├── limiter.py           # Rate limiting configuration
├── utils.py             # Utility functions (embedding, Pinecone query)
├── scraping.py          # Background scraping logic
├── requirements.txt     # Python dependencies
├── Dockerfile           # Docker configuration
├── .env                 # Environment variables (not committed to version control)
├── .dockerignore        # Ignore unnecessary files in the Docker build
└── README.md            # Project documentation

Fichiers clés:

app.py : contient l'application FLASK et toutes les routes API.
database.py : gère la configuration et le schéma pour la gestion des utilisateurs à l'aide de SQLite.
cache.py : gère la mise en cache pour les temps de réponse plus rapides.
limiter.py : implémente la fonctionnalité de limitation de débit.
utils.py : fournit des fonctions d'assistance pour générer des intérêts et interroger la poire.
scraping.py : contient la logique pour le grattage d'arrière-plan et la mise à jour de l'index de pignon.
Dockerfile : utilisé pour construire et exécuter l'application dans un conteneur docker.

Configuration et installation

Prérequis:

Python 3.9+
Docker

Étape 1: cloner le référentiel

 git clone <repository-url>
cd project

Étape 2: Configurez un environnement virtuel (facultatif mais recommandé)

 python -m venv venv
source venv/bin/activate  # On Windows, use venvScriptsactivate

Étape 3: Installez les dépendances

 pip install -r requirements.txt

Étape 4: Configurer les variables d'environnement

Créez un fichier .env dans la racine du projet et ajoutez votre clé API et votre environnement PineCone:

 PINECONE_API_KEY=your_pinecone_api_key
PINECONE_ENVIRONMENT=your_pinecone_environment

Étape 5: Initialisez la base de données

Pour configurer la base de données, exécutez le code suivant:

 >>> from app import db, app
>>> with app.app_context():
>>>     db.create_all()

Étape 6: Exécutez l'application

 python app.py

L'application s'exécutera sur http://localhost:5000 .

Configuration de Docker

Étape 1: construire l'image docker

 docker build -t flask-app .

Étape 2: Exécutez le conteneur Docker

 docker run -p 5000:5000 flask-app

Maintenant, votre application fonctionnera sur http://localhost:5000 .

Points de terminaison API

Chèque de santé

URL : Méthode /health : GET description : vérifie si l'API est en cours d'exécution. Réponse :

 json
Copy code
{
  "status": "API is running"
}

Recherche

URL : Méthode /search : POST Description : Documents de recherche basés sur les requêtes texte. Corps de demande :

 json
Copy code
{
  "query": "Your search query",
  "user_id": "user123",
  "top_k": 3
}

Réponse : Renvoie une liste de documents correspondants basés sur la requête.

Démarrer URL : /start_scraping Méthode : POST Description : Démarrage du processus de grattage d'arrière-plan pour un site spécifique. Corps de demande :

 json
Copy code
{
  "url": "https://example.com"
}

Réponse :

 json

{
  "message": "Started scraping for https://example.com"
}

Dépannage

Problèmes courants:

Limite de taux dépassée: si vous atteignez la limite de taux, l'API renvoie une erreur de 429.
Délai de mise en cache: si les résultats mis en cache sont retournés, vous devrez peut-être attendre 5 minutes avant l'apparition de nouveaux résultats.
Journaux: les applications journalisent toutes les demandes et erreurs dans api.log . Les journaux de grattage d'arrière-plan sont écrits sur gratte.log.

Améliorations futures

Authentification: ajouter une authentification basée sur les clés de l'API pour plus de sécurité.
Amélioration de la gestion des erreurs: messages d'erreur plus détaillés pour les requêtes non valides ou les défaillances de grattage.
Prise en charge de plusieurs sites de grattage: améliorez le grattoir pour gérer plusieurs sites en parallèle.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-05-30
taille 15.66KB
Provenant de Github

Applications connexes

Youtube dl api

2024-11-05
sample node api

2024-11-05
aspera api examples

2024-11-04
Enhanced Blockchain Based Decentralized Public Auditing for Cloud Storage

2024-11-04
Retrieval based Voice Conversion WebUI

2024-11-01
jQuery 1.2 API version chinoise

2009-05-29

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout