Flask Based API for Document Retrieval Pengambilan Dokumen - Flask Based API for Document Retrieval

Flask Based API for Document Retrieval

Kode sumber lainnya

1.0.0

Unduh

API berbasis flask untuk pengambilan dokumen dengan pinecone, caching, pembatas laju, dan pengikisan latar belakang

Tinjauan Proyek

Proyek ini adalah API berbasis Flask yang dirancang untuk mengambil dokumen menggunakan Pinecone untuk pencarian vektor. Itu termasuk fitur seperti:

Caching untuk pengambilan lebih cepat
Tingkat pembatasan untuk mengontrol penggunaan API
Mengikis latar belakang untuk memperbarui database secara berkala
Dockerisasi untuk penempatan dan skalabilitas yang mudah

Aplikasi menggunakan:

Pinecone untuk pengambilan dokumen berbasis vektor
Memeluk transformator wajah (Bert) untuk menghasilkan embeddings teks
Flask-sqlalchemy untuk manajemen pengguna dan melacak penggunaan API
CACHING CACHING UNTUK CACHING API Hasil
Lemasan Labu untuk Pengguna yang Membatasi Tingkat
Docker untuk mengemas aplikasi ke lingkungan yang dimasukkan

Pendekatan dan Aliran Proyek

1. Menyiapkan API Flask

Kami mulai dengan mengatur aplikasi Flask dasar dan titik akhir API:

/health : Titik akhir sederhana untuk memeriksa apakah API sedang berjalan.
/search : Titik akhir untuk meminta pinecone dengan embeddings teks dan mengambil hasil.

2. Generasi yang menanamkan dengan Bert

Untuk setiap kueri, kami menghasilkan embeddings menggunakan model Bert yang sudah terlatih (melalui perpustakaan transformers Face Hugging). Embeddings ini digunakan untuk melakukan pencarian vektor menggunakan pinecone.

3. Integrasi dengan Pinecone

Kami mengintegrasikan Pinecone , database vektor, untuk menyimpan dan meminta embeddings dokumen. Ini memungkinkan pengambilan dokumen yang efisien dan cepat berdasarkan pencarian kesamaan.

4. Tingkat pembatasan dan manajemen pengguna

Kami mengimplementasikan pembatasan tingkat menggunakan Flask-Limiter untuk membatasi pengguna dari membuat lebih dari 5 permintaan per menit:

Pengguna dilacak menggunakan database SQLite dengan flask-sqlalchemy .
Jika pengguna melebihi batas tarif, API mengembalikan kesalahan HTTP 429 (terlalu banyak permintaan).

5. caching untuk pengambilan lebih cepat

Kami menambahkan caching menggunakan Flask-Caching . Caching memastikan bahwa kueri yang identik disajikan dari memori, mengurangi kebutuhan untuk menekan database dan mesin pencari vektor berulang kali. Hasil yang di -cache berakhir setelah 5 menit.

6. Mengikis latar belakang

Kami mengimplementasikan scraper latar belakang yang dapat mengikis situs web yang disediakan pengguna untuk artikel atau data dan memperbarui indeks Pinecone dengan dokumen baru:

Mengikis ditangani oleh BeautifulSoup .
Tugas pengikis berjalan di latar belakang pada utas terpisah dan memperbarui indeks Pinecone secara berkala.

7. Dockerisasi

Kami berlabuh proyek menggunakan Dockerfile . Ini memungkinkan proyek untuk dengan mudah digunakan di lingkungan apa pun dengan perilaku yang konsisten di berbagai sistem.

Fitur

Pengambilan dokumen : Ambil dokumen berdasarkan pencarian kesamaan menggunakan embeddings.
Batas Batas : Cegah penyalahgunaan API dengan membatasi permintaan hingga 5 per menit per pengguna.
Caching : Cache Hasil kueri serupa untuk waktu respons yang lebih cepat.
Manajemen Pengguna : Lacak jumlah panggilan API yang dilakukan oleh setiap pengguna.
Mengikis Latar Belakang : Mengikis situs web di latar belakang untuk terus memperbarui indeks Pinecone.
Dockerisasi : Mudah menjalankan dan menggunakan aplikasi menggunakan Docker.

Struktur proyek

 project/
├── app.py               # Main Flask application
├── database.py          # Database setup for user management
├── cache.py             # Caching configuration
├── limiter.py           # Rate limiting configuration
├── utils.py             # Utility functions (embedding, Pinecone query)
├── scraping.py          # Background scraping logic
├── requirements.txt     # Python dependencies
├── Dockerfile           # Docker configuration
├── .env                 # Environment variables (not committed to version control)
├── .dockerignore        # Ignore unnecessary files in the Docker build
└── README.md            # Project documentation

File kunci:

app.py : Berisi aplikasi Flask dan semua rute API.
database.py : Menangani pengaturan dan skema untuk manajemen pengguna menggunakan SQLite.
cache.py : Mengelola caching untuk waktu respons yang lebih cepat.
limiter.py : Mengimplementasikan fungsionalitas pembatas laju.
utils.py : Menyediakan fungsi penolong untuk menghasilkan embeddings dan menanyakan pinecone.
scraping.py : Berisi logika untuk mengikis latar belakang dan memperbarui indeks Pinecone.
Dockerfile : Digunakan untuk membangun dan menjalankan aplikasi dalam wadah Docker.

Pengaturan dan Instalasi

Prasyarat:

Python 3.9+
Buruh pelabuhan

Langkah 1: Kloning repositori

 git clone <repository-url>
cd project

Langkah 2: Siapkan lingkungan virtual (opsional tetapi direkomendasikan)

 python -m venv venv
source venv/bin/activate  # On Windows, use venvScriptsactivate

Langkah 3: Pasang dependensi

 pip install -r requirements.txt

Langkah 4: Mengatur Variabel Lingkungan

Buat file .env di root proyek dan tambahkan tombol API Pinecone Anda dan lingkungan:

 PINECONE_API_KEY=your_pinecone_api_key
PINECONE_ENVIRONMENT=your_pinecone_environment

Langkah 5: Inisialisasi database

Untuk mengatur database, jalankan kode berikut:

 >>> from app import db, app
>>> with app.app_context():
>>>     db.create_all()

Langkah 6: Jalankan aplikasi

 python app.py

Aplikasi ini akan berjalan di http://localhost:5000 .

Pengaturan Docker

Langkah 1: Bangun gambar Docker

 docker build -t flask-app .

Langkah 2: Jalankan wadah Docker

 docker run -p 5000:5000 flask-app

Sekarang, aplikasi Anda akan berjalan di http://localhost:5000 .

Titik akhir API

Pemeriksaan kesehatan

URL : / Metode /health : GET Deskripsi : Memeriksa apakah API sedang berjalan. Tanggapan :

 json
Copy code
{
  "status": "API is running"
}

Mencari

URL : / Metode /search : POST Deskripsi : Dokumen pencarian berdasarkan kueri teks. Badan Permintaan :

 json
Copy code
{
  "query": "Your search query",
  "user_id": "user123",
  "top_k": 3
}

Tanggapan : Mengembalikan daftar dokumen yang cocok berdasarkan kueri.

Mulai Mengikis URL : /start_scraping Metode : POST Deskripsi : Mulai proses pengikis latar belakang untuk situs tertentu. Badan Permintaan :

 json
Copy code
{
  "url": "https://example.com"
}

Tanggapan :

 json

{
  "message": "Started scraping for https://example.com"
}

Pemecahan masalah

Masalah Umum:

Batas tarif terlampaui: Jika Anda mencapai batas tarif, API akan mengembalikan kesalahan 429.
Caching Delay: Jika hasil yang di -cache dikembalikan, Anda mungkin perlu menunggu 5 menit sebelum hasil baru muncul.
Log: Aplikasi mencatat semua permintaan dan kesalahan di api.log . Log Latar Belakang Latar Belakang ditulis untuk Mengikis.Log.

Peningkatan di masa depan

Otentikasi: Menambahkan otentikasi berbasis kunci API untuk keamanan tambahan.
Penanganan kesalahan yang ditingkatkan: Pesan kesalahan yang lebih rinci untuk kueri yang tidak valid atau kegagalan yang menggosok.
Dukungan untuk beberapa situs pengikis: Tingkatkan scraper untuk menangani beberapa situs secara paralel.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-05-30
ukuran 15.66KB
Berasal dari Github

Aplikasi Terkait

Youtube dl api

2024-11-05
sample node api

2024-11-05
aspera api examples

2024-11-04
Enhanced Blockchain Based Decentralized Public Auditing for Cloud Storage

2024-11-04
Retrieval based Voice Conversion WebUI

2024-11-01
jQuery 1.2 API versi Cina

2009-05-29

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua