Flask Based API for Document Retrieval Download - Flask Based API for Document Retrieval

Flask Based API for Document Retrieval

Outro código-fonte

1.0.0

Baixar

API baseada em frascos para recuperação de documentos com pinecone, cache, limitação de taxa e raspagem de fundo

Visão geral do projeto

Este projeto é uma API baseada em frasco projetada para recuperar documentos usando o Pinecone para pesquisa de vetores. Inclui recursos como:

Cache para recuperação mais rápida
Taxa Limitadora para controlar o uso da API
Raspa de fundo para atualizar periodicamente o banco de dados
Dockerização para facilitar a implantação e a escalabilidade

O aplicativo usa:

Pinecone para recuperação de documentos baseados em vetores
Abraçando transformadores de rosto (BERT) para gerar incorporações de texto
Flask-sqlalchemy para gerenciamento de usuários e uso de API de rastreamento
CACHING DE FLÁSTICOS PARA RESULTADOS DE API DE CACHING
Limitador de Flask para usuários limitadores de taxa
Docker para empacotar o aplicativo em um ambiente de contêineres

Fluxo de abordagem e projeto

1. Configurando a API do Flask

Começamos configurando o aplicativo básico do Flask e os terminais da API:

/health : um terminal simples para verificar se a API está em execução.
/search : um terminal para consultar o pinecone com incorporação de texto e recuperar resultados.

2. Incorporação de geração com Bert

Para cada consulta, geramos incorporações usando um modelo BERT pré-treinado (através da Biblioteca transformers do Hugging Face). Essas incorporações são usadas para executar pesquisas vetoriais usando o Pinecone.

3. Integração com Pinecone

Integramos o Pinecone , um banco de dados vetorial, para armazenar e consultar o documento incorporado. Isso permite uma recuperação eficiente e rápida de documentos com base na pesquisa de similaridade.

4. Limitação da taxa e gerenciamento de usuários

Implementamos a limitação de taxas usando Flask-Limiter para restringir os usuários de fazer mais de 5 solicitações por minuto:

Os usuários são rastreados usando um banco de dados SQLite com Flask-SqlalChemy .
Se um usuário exceder o limite de taxa, a API retornará um erro HTTP 429 (muitas solicitações).

5. Cache para recuperação mais rápida

Adicionamos armazenamento em cache usando Flask-Caching . O armazenamento em cache garante que consultas idênticas sejam servidas da memória, reduzindo a necessidade de atingir o banco de dados e o mecanismo de pesquisa vetorial repetidamente. Os resultados em cache expiram após 5 minutos.

6. raspagem de fundo

Implementamos um raspador de fundo que pode raspar um site fornecido pelo usuário para artigos ou dados e atualizar o índice Pinecone com novos documentos:

A raspagem é tratada por BeautifulSoup .
A tarefa de raspagem é executada em segundo plano em um encadeamento separado e atualiza o índice Pinecone periodicamente.

7. Dockerização

Dockerizamos o projeto usando um Dockerfile . Isso permite que o projeto seja facilmente implantado em qualquer ambiente com comportamento consistente em diferentes sistemas.

Características

Recuperação de documentos : recupere documentos com base na pesquisa de similaridade usando o incorporação.
Limitação da taxa : impedir o abuso de API limitando solicitações a 5 por minuto por usuário.
Cache : cache os resultados de consultas semelhantes para tempos de resposta mais rápidos.
Gerenciamento do usuário : rastreie o número de chamadas de API feitas por cada usuário.
Raspagem em segundo plano : Raspe sites em segundo plano para atualizar continuamente o índice Pinecone.
Dockerização : execute e implante facilmente o aplicativo usando o Docker.

Estrutura do projeto

 project/
├── app.py               # Main Flask application
├── database.py          # Database setup for user management
├── cache.py             # Caching configuration
├── limiter.py           # Rate limiting configuration
├── utils.py             # Utility functions (embedding, Pinecone query)
├── scraping.py          # Background scraping logic
├── requirements.txt     # Python dependencies
├── Dockerfile           # Docker configuration
├── .env                 # Environment variables (not committed to version control)
├── .dockerignore        # Ignore unnecessary files in the Docker build
└── README.md            # Project documentation

Arquivos -chave:

app.py : contém o aplicativo de frasco e todas as rotas de API.
database.py : lida com a configuração e o esquema para gerenciamento de usuários usando o SQLite.
cache.py : gerencia o cache para os tempos de resposta mais rápidos.
limiter.py : implementa a funcionalidade limitadora da taxa.
utils.py : fornece funções auxiliares para gerar incorporações e consultar o Pinecone.
scraping.py : contém a lógica para raspar e atualizar o índice Pinecone.
Dockerfile : Usado para construir e executar o aplicativo em um contêiner do Docker.

Configuração e instalação

Pré -requisitos:

Python 3.9+
Docker

Etapa 1: clonar o repositório

 git clone <repository-url>
cd project

Etapa 2: Configure um ambiente virtual (opcional, mas recomendado)

 python -m venv venv
source venv/bin/activate  # On Windows, use venvScriptsactivate

Etapa 3: Instale as dependências

 pip install -r requirements.txt

Etapa 4: Configurar variáveis de ambiente

Crie um arquivo .env na raiz do projeto e adicione sua chave de API e ambiente da API Pinecone:

 PINECONE_API_KEY=your_pinecone_api_key
PINECONE_ENVIRONMENT=your_pinecone_environment

Etapa 5: Inicialize o banco de dados

Para configurar o banco de dados, execute o seguinte código:

 >>> from app import db, app
>>> with app.app_context():
>>>     db.create_all()

Etapa 6: execute o aplicativo

 python app.py

O aplicativo estará em execução em http://localhost:5000 .

Configuração do Docker

Etapa 1: construa a imagem do Docker

 docker build -t flask-app .

Etapa 2: Execute o contêiner do Docker

 docker run -p 5000:5000 flask-app

Agora, seu aplicativo estará em execução em http://localhost:5000 .

Endpoints da API

Verificação de saúde

URL : /health Método de saúde: GET descrição : verifica se a API está em execução. Resposta :

 json
Copy code
{
  "status": "API is running"
}

Procurar

URL : /search Método de pesquisa: POST Descrição : Pesquisar documentos com base nas consultas de texto. Solicitar corpo :

 json
Copy code
{
  "query": "Your search query",
  "user_id": "user123",
  "top_k": 3
}

Resposta : Retorna uma lista de documentos correspondentes com base na consulta.

Comece a raspar o URL : /start_scraping Método : POST Descrição : Inicia o processo de raspagem em segundo plano para um site específico. Solicitar corpo :

 json
Copy code
{
  "url": "https://example.com"
}

Resposta :

 json

{
  "message": "Started scraping for https://example.com"
}

Solução de problemas

Questões comuns:

Limite de taxa excedido: se você atingir o limite de taxa, a API retornará um erro 429.
Atraso em armazenamento em cache: Se os resultados em cache forem retornados, talvez seja necessário esperar 5 minutos antes que novos resultados apareçam.
Logs: o aplicativo registra todas as solicitações e erros no api.log . Os registros de raspagem de fundo são gravados para raspar.log.

Aprimoramentos futuros

Autenticação: Adicionando autenticação baseada em chave da API para maior segurança.
Manuseio de erro aprimorado: mensagens de erro mais detalhadas para consultas inválidas ou falhas de raspagem.
Suporte para vários sites de raspagem: aprimore o raspador para lidar com vários sites em paralelo.

Expandir

Informações adicionais