Flask Based API for Document Retrieval Flask Based API for Document Retrieval

Flask Based API for Document Retrieval

Anderer Quellcode

1.0.0

Herunterladen

Flask-basierte API für das Abrufen von Dokumenten mit Tinecone, Caching, Rate-Limiting und Hintergrundkratzer

Projektübersicht

Dieses Projekt ist eine auflösungsbasierte API, mit der Dokumente mithilfe von Pinecone für die Vektorsuche abgerufen werden sollen. Es enthält Funktionen wie:

Zwischen schnellerem Abruf zwischenstrichen
Rate begrenzt, um die API -Verwendung zu kontrollieren
Hintergrundkratzer, um die Datenbank regelmäßig zu aktualisieren
Dockerisierung für einfache Bereitstellung und Skalierbarkeit

Die Anwendung verwendet:

Tinecone für vektorbasiertes Dokumentenabruf
Umarmende Gesichtstransformatoren (Bert) zum Erzeugen von Texteinbettungen
Flask-SQLALCHEMY für Benutzerverwaltung und Verfolgung der API-Nutzung
Flask-Caching für das zwischengespeicherte API-Ergebnisse
Flask-Limiter für geschätzte Benutzer
Docker für die Verpackung der App in eine containerische Umgebung

Ansatz und Projektfluss

1. Einrichten der Flask -API

Wir haben damit begonnen, die Basis -Flask -Anwendungs- und API -Endpunkte einzurichten:

/health : Ein einfacher Endpunkt, um zu überprüfen, ob die API ausgeführt wird.
/search : Ein Endpunkt zum Abfragen von Pinecone mit Texteinbettungen und Ring der Ergebnisse.

2. Einbettung der Erzeugung in Bert

Für jede Abfrage erzeugen wir Einbettungen mit einem vorgebildeten Bert-Modell (über die transformers Library von Hugging Face). Diese Einbettungen werden verwendet, um Vektorsuche mithilfe von Pinecone durchzuführen.

3. Integration mit Tinecone

Wir haben Pinecone , eine Vektor -Datenbank, integriert, um Dokumenteneinbettungen zu speichern und abfragen. Dies ermöglicht ein effizientes und schnelles Abrufen von Dokumenten auf der Grundlage der Ähnlichkeitssuche.

4. Ratenbegrenzung und Benutzerverwaltung

Wir haben die Ratenbeschränkung mithilfe von Flask-Limiter implementiert, um Benutzer davon abzuhalten, mehr als 5 Anfragen pro Minute zu stellen:

Benutzer werden mit einer SQLite-Datenbank mit Flask-SQLAlchemy verfolgt.
Wenn ein Benutzer die Ratenlimit überschreitet, gibt die API einen HTTP 429 -Fehler zurück (zu viele Anforderungen).

5. Caching für schnelleres Abrufen

Wir haben das Caching mit Flask-Caching hinzugefügt. Das Zwischenspeichern stellt sicher, dass identische Abfragen aus dem Speicher bedient werden, was die Notwendigkeit verringert, die Datenbank- und Vektor -Suchmaschine wiederholt zu treffen. Zwischengespeicherte Ergebnisse verfallen nach 5 Minuten.

6. Hintergrundkratzer

Wir haben einen Hintergrundschaber implementiert, mit dem eine vom Benutzer bereitgestellte Website für Artikel oder Daten abgeschrocken und den Pinecone-Index mit neuen Dokumenten aktualisiert werden kann:

Scraping wird von BeautifulSoup behandelt.
Die Schatzeraufgabe wird im Hintergrund in einem separaten Thread ausgeführt und den Pinecone -Index regelmäßig aktualisiert.

7. Dockerisierung

Wir haben das Projekt mit einer DockerFile docken. Auf diese Weise kann das Projekt einfach in jeder Umgebung mit konsistentem Verhalten in verschiedenen Systemen eingesetzt werden.

Merkmale

Abrufen von Dokumenten : Dokumente basierend auf der Ähnlichkeitssuche mithilfe von Emetten abrufen.
Zinsbegrenzung : Verhindern Sie API -Missbrauch, indem Sie die Anforderungen auf 5 pro Minute pro Benutzer einschränken.
Caching : zwischen den Ergebnissen ähnlicher Abfragen für schnellere Reaktionszeiten.
Benutzerverwaltung : Verfolgen Sie die Anzahl der von jedem Benutzer getätigten API -Anrufe.
Hintergrundkratzer : Kratzen Sie Websites im Hintergrund, um den Pinecone -Index kontinuierlich zu aktualisieren.
Dockerization : Die Anwendung mit Docker einfach ausführen und bereitstellen.

Projektstruktur

 project/
├── app.py               # Main Flask application
├── database.py          # Database setup for user management
├── cache.py             # Caching configuration
├── limiter.py           # Rate limiting configuration
├── utils.py             # Utility functions (embedding, Pinecone query)
├── scraping.py          # Background scraping logic
├── requirements.txt     # Python dependencies
├── Dockerfile           # Docker configuration
├── .env                 # Environment variables (not committed to version control)
├── .dockerignore        # Ignore unnecessary files in the Docker build
└── README.md            # Project documentation

Schlüsseldateien:

app.py : Enthält die Flask -Anwendung und alle API -Routen.
database.py : Verwendet das Setup und das Schema für die Benutzerverwaltung mithilfe von SQLite.
cache.py : Verwaltet das Caching für schnellere Reaktionszeiten.
limiter.py : implementiert die rate-limitierende Funktionalität.
utils.py : Bietet Helferfunktionen für die Erzeugung von Einbettungen und Abfragen von Tinecone.
scraping.py : Enthält die Logik für Hintergrundkratze und Aktualisierung des Pinecone -Index.
Dockerfile : Wird verwendet, um die Anwendung in einem Docker -Container zu erstellen und auszuführen.

Einrichtung und Installation

Voraussetzungen:

Python 3.9+
Docker

Schritt 1: Klonen Sie das Repository

 git clone <repository-url>
cd project

Schritt 2: Richten Sie eine virtuelle Umgebung ein (optional, aber empfohlen)

 python -m venv venv
source venv/bin/activate  # On Windows, use venvScriptsactivate

Schritt 3: Installieren Sie die Abhängigkeiten

 pip install -r requirements.txt

Schritt 4: Umgebungsvariablen einrichten

Erstellen Sie eine .EnV -Datei im Projektroot und fügen Sie Ihre Pinecone -API -Taste und -umgebung hinzu:

 PINECONE_API_KEY=your_pinecone_api_key
PINECONE_ENVIRONMENT=your_pinecone_environment

Schritt 5: Initialisieren Sie die Datenbank

Führen Sie den folgenden Code aus, um die Datenbank einzurichten:

 >>> from app import db, app
>>> with app.app_context():
>>>     db.create_all()

Schritt 6: Führen Sie die Anwendung aus

 python app.py

Die App wird unter http://localhost:5000 ausgeführt.

Docker -Setup

Schritt 1: Erstellen Sie das Docker -Bild

 docker build -t flask-app .

Schritt 2: Führen Sie den Docker -Container aus

 docker run -p 5000:5000 flask-app

Jetzt wird Ihre App unter http://localhost:5000 ausgeführt.

API -Endpunkte

Gesundheitsprüfung

URL : /health -Methode : Beschreibung GET : Überprüft, ob die API ausgeführt wird. Antwort :

 json
Copy code
{
  "status": "API is running"
}

Suchen

URL : /search : POST Beschreibung : Suchdokumente basierend auf Textabfragen. Antragsbehörde :

 json
Copy code
{
  "query": "Your search query",
  "user_id": "user123",
  "top_k": 3
}

Antwort : Gibt eine Liste der übereinstimmenden Dokumente zurück, die auf der Abfrage basieren.

Starten Sie die Kratzer -URL : /start_scraping -Methode : POST Beschreibung : Startet den Hintergrundkratzvorgang für eine bestimmte Site. Antragsbehörde :

 json
Copy code
{
  "url": "https://example.com"
}

Antwort :

 json

{
  "message": "Started scraping for https://example.com"
}

Fehlerbehebung

Häufige Themen:

Ratenlimit überschritten: Wenn Sie die Ratenlimit erreichen, gibt die API einen 429 -Fehler zurück.
Zwischensperrverzögerung: Wenn zwischengespeicherte Ergebnisse zurückgegeben werden, müssen Sie möglicherweise 5 Minuten warten, bevor neue Ergebnisse angezeigt werden.
Protokolle: Die Anwendungsprotokolle alle Anforderungen und Fehler in api.log . Hintergrundkratzprotokolle werden in Scraping.log geschrieben.

Zukünftige Verbesserungen

Authentifizierung: Hinzufügen von API-basierten Authentifizierung für zusätzliche Sicherheit.
Verbesserte Fehlerbehandlung: detailliertere Fehlermeldungen für ungültige Abfragen oder Abkratzen.
Unterstützung für mehrere Scraping -Sites: Verbessern Sie den Schaber, um mehrere Stellen parallel zu verarbeiten.

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-05-30
Größe 15.66KB
Kommt von Github

Ähnliche Anwendungen

Youtube dl api

2024-11-05
sample node api

2024-11-05
aspera api examples

2024-11-04
Enhanced Blockchain Based Decentralized Public Auditing for Cloud Storage

2024-11-04
Retrieval based Voice Conversion WebUI

2024-11-01
Chinesische Version der jQuery 1.2 API

2009-05-29