Flask Based API for Document Retrieval下载 - Flask Based API for Document Retrieval源代码下载

Flask Based API for Document Retrieval

其他源码

1.0.0

下载

基于烧瓶的API，用于使用Pinecone，缓存，费率限制和背景刮擦的文档检索

项目概述

该项目是一种基于烧瓶的API，旨在使用Pinecone进行矢量搜索检索文档。它包括以下功能：

缓存以更快的检索
限制控制API的使用
背景刮擦以定期更新数据库
停靠化，可轻松部署和可伸缩性

应用程序使用：

基于向量的文档检索的Pinecone
拥抱面孔变压器（BERT）生成文本嵌入
用于用户管理和跟踪API使用的烧瓶-Sqlalchemy
用于缓存API结果的烧瓶接触
限制用户的烧瓶限制器
将应用程序包装到容器化环境中的Docker

方法和项目流

1。设置烧瓶API

我们首先设置基本的烧瓶应用程序和API端点：

/health ：一个简单的端点，可以检查API是否正在运行。
/search ：带有文本嵌入的Pinecone查询Pinecone的端点并检索结果。

2。用伯特嵌入生成

对于每个查询，我们都会使用预训练的BERT模型（通过拥抱Face的transformers库）生成嵌入。这些嵌入用于使用Pinecone进行矢量搜索。

3。与松果集成

我们集成了Pinecone ，一个矢量数据库，以存储和查询文档嵌入。这允许根据相似性搜索有效而快速检索文档。

4。利率限制和用户管理

我们使用Flask-Limiter实施了限制费率，以限制用户每分钟提出5个以上的请求：

使用带有Blask-Sqlalchemy的SQLite数据库对用户进行跟踪。
如果用户超过速率限制，API将返回HTTP 429错误（请求太多）。

5。缓存以获取更快的检索

我们添加了使用Flask-Caching的缓存。缓存可确保从内存中提供相同的查询，从而降低重复击中数据库和矢量搜索引擎的需求。缓存结果在5分钟后到期。

6。背景刮擦

我们实施了一个背景刮刀，该刮板可以刮擦用户提供的网站以获取文章或数据，并使用新文档更新Pinecone索引：

刮擦由BeautifulSoup处理。
刮擦任务在单独的线程上运行，并定期更新Pinecone索引。

7. dockerization

我们使用Dockerfile对该项目进行了停靠。这使该项目可以轻松地在不同系统之间具有一致行为的任何环境中部署。

特征

文档检索：基于使用嵌入的相似性搜索检索文档。
费率限制：通过将请求限制为每分钟5个用户，以防止API滥用。
缓存：缓存相似查询的结果，以获取更快的响应时间。
用户管理：跟踪每个用户进行的API呼叫数量。
背景刮擦：在背景中刮擦网站，以连续更新Pinecone索引。
Dockerization ：轻松使用Docker运行并部署应用程序。

项目结构

 project/
├── app.py               # Main Flask application
├── database.py          # Database setup for user management
├── cache.py             # Caching configuration
├── limiter.py           # Rate limiting configuration
├── utils.py             # Utility functions (embedding, Pinecone query)
├── scraping.py          # Background scraping logic
├── requirements.txt     # Python dependencies
├── Dockerfile           # Docker configuration
├── .env                 # Environment variables (not committed to version control)
├── .dockerignore        # Ignore unnecessary files in the Docker build
└── README.md            # Project documentation

关键文件：

app.py ：包含烧瓶应用程序和所有API路由。
database.py ：使用SQLITE处理用于用户管理的设置和架构。
cache.py ：管理缓存的响应时间更快。
limiter.py ：实现限制速率功能。
utils.py ：提供用于生成嵌入和查询松果的辅助功能。
scraping.py ：包含用于刮擦和更新Pinecone索引的逻辑。
Dockerfile ：用于在Docker容器中构建和运行该应用程序。

设置和安装

先决条件：

Python 3.9+
Docker

步骤1：克隆存储库

 git clone <repository-url>
cd project

步骤2：设置虚拟环境（可选但建议）

 python -m venv venv
source venv/bin/activate  # On Windows, use venvScriptsactivate

步骤3：安装依赖项

 pip install -r requirements.txt

步骤4：设置环境变量

在项目root中创建.ENV文件，并添加Pinecone API密钥和环境：

 PINECONE_API_KEY=your_pinecone_api_key
PINECONE_ENVIRONMENT=your_pinecone_environment

步骤5：初始化数据库

要设置数据库，请运行以下代码：

 >>> from app import db, app
>>> with app.app_context():
>>>     db.create_all()

步骤6：运行应用程序

 python app.py

该应用程序将在http://localhost:5000上运行。

Docker设置

步骤1：构建Docker图像

 docker build -t flask-app .

步骤2：运行Docker容器

 docker run -p 5000:5000 flask-app

现在，您的应用程序将在http://localhost:5000上运行。

API端点

健康检查

URL ： /health方法： GET说明：检查API是否正在运行。回复：

 json
Copy code
{
  "status": "API is running"
}

搜索

URL ： /search方法： POST说明：基于文本查询的搜索文档。请求主体：

 json
Copy code
{
  "query": "Your search query",
  "user_id": "user123",
  "top_k": 3
}

响应：根据查询返回匹配文档的列表。

开始刮擦URL ： /start_scraping方法： POST说明：启动特定站点的背景刮擦过程。请求主体：

 json
Copy code
{
  "url": "https://example.com"
}

回复：

 json

{
  "message": "Started scraping for https://example.com"
}

故障排除

常见问题：

超过速率限制：如果达到速率限制，API将返回429误差。
缓存延迟：如果返回缓存结果，则可能需要等待5分钟才能出现新结果。
日志：应用程序日志api.log中的所有请求和错误。背景刮擦日志写入刮擦。

未来的增强

身份验证：添加基于API的基于API的身份验证以增加安全性。
改进的错误处理：用于无效查询或刮擦故障的更详细的错误消息。
支持多个刮擦位点：增强刮板以并联处理多个站点。

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-05-30
大小 15.66KB
来自于 Github