Flask Based API for Document Retrieval скачать - Flask Based API for Document Retrieval Скачать исходный код

Flask Based API for Document Retrieval

Другой исходный код

1.0.0

Скачать

API на основе колбы для поиска документов с помощью Pinecone, кэширования, ограничения скорости и скребки фона

Обзор проекта

Этот проект представляет собой API на основе колбы, предназначенный для извлечения документов с использованием PineCone для векторного поиска. Он включает в себя такие функции, как:

Кэширование для более быстрого поиска
Ограничение скорости для контроля использования API
Скора фона периодически обновлять базу данных
Докеризация для легкого развертывания и масштабируемости

Приложение использует:

Pinecone для векторного поиска документов
Объятие трансформаторов лица (BERT) для создания текстовых встроений
Flask-Sqlalchemy для управления пользователями и использования API API
Кэширование колбы для кэширования результатов API
Уточнивать колбу для пользователей ограничивающих ставок
Docker для упаковки приложения в контейнерную среду

Подход и поток проекта

1. Настройка API Flask API

Мы начали с настройки базового приложения Flask и конечных точек API:

/health : простая конечная точка, чтобы проверить, работает ли API.
/search : конечная точка, чтобы запросить Pinecone с текстовыми встроениями и получения результатов.

2. Встроение генерации с Bert

Для каждого запроса мы генерируем встраивания, используя предварительно обученную модель BERT (посредством библиотеки transformers Hearging Face). Эти встраивания используются для выполнения векторных поисков с использованием PineCone.

3. Интеграция с Pinecone

Мы интегрировали Pinecone , векторную базу данных, чтобы хранить и запросить документы. Это позволяет эффективно и быстро извлекать документы на основе поиска сходства.

4. Ограничение ставок и управление пользователями

Мы внедрили ограничение ставки с использованием Flask-Limiter чтобы ограничить пользователей от выполнения более 5 запросов в минуту:

Пользователи отслеживаются с использованием базы данных SQLite с Flask-Sqlalchemy .
Если пользователь превышает ограничение на скорость, API возвращает ошибку HTTP 429 (слишком много запросов).

5. Кэширование для более быстрого поиска

Мы добавили кэширование , используя Flask-Caching . Кэширование гарантирует, что идентичные запросы обслуживаются из памяти, что неоднократно снижает необходимость ударить базу данных и векторную поисковую систему. Кэшированные результаты истекают через 5 минут.

6. Фоновая царапина

Мы внедрили фоновый скребок, который может скрепить предоставленный пользователем веб-сайт для статей или данных и обновить индекс Pinecone с помощью новых документов:

Сокращение обрабатывается BeautifulSoup .
Задача соскоба выполняется в фоновом режиме на отдельном потоке и периодически обновляет индекс Pinecone.

7. Dockerization

Мы протолкнули проект, используя Dockerfile . Это позволяет легко развернуть проект в любой среде с последовательным поведением в разных системах.

Функции

Поиск документа : извлечь документы на основе поиска сходства с использованием внедрения.
Ограничение ставок : предотвратить злоупотребление API, ограничивая запросы до 5 в минуту на одного пользователя.
Кэширование : кэшируйте результаты аналогичных запросов для более быстрого времени отклика.
Управление пользователями : отслеживайте количество вызовов API, выполненных каждым пользователем.
Фоновое соскоба : соскребайте веб -сайты в фоновом режиме, чтобы непрерывно обновлять индекс Pinecone.
Dockerization : легко запустить и развернуть приложение с помощью Docker.

Структура проекта

 project/
├── app.py               # Main Flask application
├── database.py          # Database setup for user management
├── cache.py             # Caching configuration
├── limiter.py           # Rate limiting configuration
├── utils.py             # Utility functions (embedding, Pinecone query)
├── scraping.py          # Background scraping logic
├── requirements.txt     # Python dependencies
├── Dockerfile           # Docker configuration
├── .env                 # Environment variables (not committed to version control)
├── .dockerignore        # Ignore unnecessary files in the Docker build
└── README.md            # Project documentation

Ключевые файлы:

app.py : содержит приложение Flask и все маршруты API.
database.py : обрабатывает настройку и схему для управления пользователями с помощью SQLite.
cache.py : управляет кэшированием для более быстрого отклика.
limiter.py : реализует функциональность ограничения скорости.
utils.py : предоставляет вспомогательные функции для генерации встраиваний и запроса pinecone.
scraping.py : содержит логику для соскобки фона и обновления индекса Pinecone.
Dockerfile : используется для построения и запуска приложения в контейнере Docker.

Настройка и установка

Предварительные условия:

Python 3.9+
Докер

Шаг 1: клонировать репозиторий

 git clone <repository-url>
cd project

Шаг 2: Настройка виртуальной среды (необязательно, но рекомендуется)

 python -m venv venv
source venv/bin/activate  # On Windows, use venvScriptsactivate

Шаг 3: Установите зависимости

 pip install -r requirements.txt

Шаг 4: Настройка переменных среды

Создайте файл .env в корне проекта и добавьте свой ключ и среду API Pinecone:

 PINECONE_API_KEY=your_pinecone_api_key
PINECONE_ENVIRONMENT=your_pinecone_environment

Шаг 5: Инициализировать базу данных

Чтобы настроить базу данных, запустите следующий код:

 >>> from app import db, app
>>> with app.app_context():
>>>     db.create_all()

Шаг 6: Запустите приложение

 python app.py

Приложение будет работать по адресу http://localhost:5000 .

Настройка Docker

Шаг 1: Постройте изображение Docker

 docker build -t flask-app .

Шаг 2: Запустите контейнер Docker

 docker run -p 5000:5000 flask-app

Теперь ваше приложение будет работать по адресу http://localhost:5000 .

API конечные точки

Проверка здоровья

URL : / Метод /health : GET описание : проверяет, работает ли API. Ответ :

 json
Copy code
{
  "status": "API is running"
}

Поиск

URL : / Метод /search : POST Описание : Поисковые документы на основе текстовых запросов. Запросить тело :

 json
Copy code
{
  "query": "Your search query",
  "user_id": "user123",
  "top_k": 3
}

Ответ : возвращает список соответствующих документов на основе запроса.

Начните скрезовать URL : /start_scraping Метод : POST Описание : Запускает процесс скребки фона для конкретного сайта. Запросить тело :

 json
Copy code
{
  "url": "https://example.com"
}

Ответ :

 json

{
  "message": "Started scraping for https://example.com"
}

Поиск неисправностей

Общие проблемы:

Предел ставки превышен: если вы достигнете ограничения ставки, API вернет ошибку 429.
Задержка кэширования: если результаты кэшируются, вам, возможно, придется подождать 5 минут, прежде чем появятся новые результаты.
Журналы: приложение регистрирует все запросы и ошибки в api.log . Фонографические журналы записываются на скрасн.

Будущие улучшения

Аутентификация: добавление аутентификации на основе ключей API для дополнительной безопасности.
Улучшенная обработка ошибок: более подробные сообщения об ошибках для неверных запросов или сбоев.
Поддержка множества мест скребки: улучшить скребок для обработки нескольких сайтов параллельно.

Расширять

Дополнительная информация

Версия 1.0.0
Тип Другой исходный код
Время обновления 2025-05-30
размер 15.66KB
От Github

Связанные приложения

Youtube dl api

2024-11-05
sample node api

2024-11-05
aspera api examples

2024-11-04
Enhanced Blockchain Based Decentralized Public Auditing for Cloud Storage

2024-11-04
Retrieval based Voice Conversion WebUI

2024-11-01
API jQuery 1.2, китайская версия

2009-05-29