Flask Based API for Document Retrieval Flask Based API for Document Retrieval

Flask Based API for Document Retrieval

기타 소스코드

1.0.0

다운로드

Pinecone, 캐싱, 속도 제한 및 배경 스크래핑을 사용한 문서 검색을위한 플라스크 기반 API

프로젝트 개요

이 프로젝트는 벡터 검색을 위해 Pinecone을 사용하여 문서를 검색하도록 설계된 플라스크 기반 API입니다. 다음과 같은 기능이 포함되어 있습니다.

더 빠른 검색을위한 캐싱
API 사용을 제어하기위한 속도 제한
데이터베이스를 정기적으로 업데이트하기 위해 배경 스크래핑
쉽게 배치 및 확장 성을위한 도커 화

응용 프로그램은 사용합니다.

벡터 기반 문서 검색 용 피네콘
텍스트 임베딩을 생성하기위한 포옹 페이스 트랜스포머 (Bert)
사용자 관리 및 추적 API 사용을위한 Flask-Sqlalchemy
캐싱 API 결과를위한 플라스크 캐싱
속도 제한 사용자를위한 Flask-Limiter
앱을 컨테이너화 된 환경으로 포장하는 데커

접근 및 프로젝트 흐름

1. 플라스크 API 설정

기본 플라스크 애플리케이션 및 API 엔드 포인트를 설정하여 시작했습니다.

/health : API가 실행 중인지 확인하기위한 간단한 엔드 포인트.
/search : 텍스트 임베딩을 사용하여 쿼리 파인 콘에 대한 엔드 포인트 및 결과를 검색합니다.

2. Bert를 사용한 생성 생성

각 쿼리에 대해, 우리는 미리 훈련 된 Bert 모델 (Hugging Face의 transformers 라이브러리를 통해)을 사용하여 임베딩을 생성합니다. 이 내장은 Pinecone을 사용하여 벡터 검색을 수행하는 데 사용됩니다.

3. PENECONE과 통합

우리는 벡터 데이터베이스 인 Pinecone을 통합하여 문서 임베드를 저장하고 쿼리했습니다. 이를 통해 유사성 검색에 따라 효율적이고 빠른 문서 검색을 가능하게합니다.

4. 요금 제한 및 사용자 관리

Flask-Limiter 사용하여 속도 제한을 구현하여 사용자가 분당 5 개 이상의 요청을하지 않도록 제한했습니다.

사용자는 Flask-Sqlalchemy 가있는 SQLITE 데이터베이스를 사용하여 추적됩니다.
사용자가 속도 제한을 초과하면 API는 HTTP 429 오류를 반환합니다 (너무 많은 요청).

5. 더 빠른 검색을위한 캐싱

Flask-Caching 사용하여 캐싱을 추가했습니다. 캐싱은 메모리에서 동일한 쿼리가 제공되도록하여 데이터베이스와 벡터 검색 엔진을 반복적으로 누르야 할 필요성을 줄입니다. 캐시 결과는 5 분 후에 만료됩니다.

6. 배경 스크래핑

우리는 기사 나 데이터를 위해 사용자가 제공 한 웹 사이트를 긁어 내고 새로운 문서로 Pinecone 인덱스를 업데이트 할 수있는 백그라운드 스크레이퍼를 구현했습니다.

스크래핑은 BeautifulSoup 이 처리합니다.
스크래핑 작업은 별도의 스레드에서 백그라운드에서 실행되며 Pinecone 인덱스를 주기적으로 업데이트합니다.

7. Dockerization

우리는 dockerfile을 사용하여 프로젝트를 docker습니다. 이를 통해 프로젝트를 다른 시스템에서 일관된 동작으로 모든 환경에 쉽게 배포 할 수 있습니다.

특징

문서 검색 : 임베딩을 사용한 유사성 검색을 기반으로 문서를 검색합니다.
요금 제한 : 사용자 당 분당 5로 요청을 제한하여 API 남용을 방지합니다.
캐싱 : 더 빠른 응답 시간에 대한 유사한 쿼리 결과를 캐시하십시오.
사용자 관리 : 각 사용자가 작성한 API 호출 수를 추적하십시오.
배경 스크래핑 : 백그라운드에서 웹 사이트를 스크랩하여 Pinecone 인덱스를 지속적으로 업데이트하십시오.
Dockerization : Docker를 사용하여 응용 프로그램을 쉽게 실행하고 배포합니다.

프로젝트 구조

 project/
├── app.py               # Main Flask application
├── database.py          # Database setup for user management
├── cache.py             # Caching configuration
├── limiter.py           # Rate limiting configuration
├── utils.py             # Utility functions (embedding, Pinecone query)
├── scraping.py          # Background scraping logic
├── requirements.txt     # Python dependencies
├── Dockerfile           # Docker configuration
├── .env                 # Environment variables (not committed to version control)
├── .dockerignore        # Ignore unnecessary files in the Docker build
└── README.md            # Project documentation

주요 파일 :

app.py : Flask 응용 프로그램 및 모든 API 경로가 포함되어 있습니다.
database.py : SQLITE를 사용하여 사용자 관리를위한 설정 및 스키마를 처리합니다.
cache.py : 더 빠른 응답 시간 동안 캐싱을 관리합니다.
limiter.py : 속도 제한 기능을 구현합니다.
utils.py : 임베드를 생성하고 파인 콘을 쿼리하기위한 도우미 기능을 제공합니다.
scraping.py : 배경 스크래핑 및 피네콘 인덱스 업데이트에 대한 논리가 포함되어 있습니다.
Dockerfile : Docker 컨테이너에 응용 프로그램을 빌드 및 실행하는 데 사용됩니다.

설정 및 설치

전제 조건 :

파이썬 3.9+
도커

1 단계 : 저장소를 복제하십시오

 git clone <repository-url>
cd project

2 단계 : 가상 환경 설정 (선택 사항이지만 권장)

 python -m venv venv
source venv/bin/activate  # On Windows, use venvScriptsactivate

3 단계 : 종속성을 설치하십시오

 pip install -r requirements.txt

4 단계 : 환경 변수 설정

프로젝트 루트에서 .env 파일을 만들고 Pinecone API 키 및 환경을 추가하십시오.

 PINECONE_API_KEY=your_pinecone_api_key
PINECONE_ENVIRONMENT=your_pinecone_environment

5 단계 : 데이터베이스 초기화

데이터베이스를 설정하려면 다음 코드를 실행하십시오.

 >>> from app import db, app
>>> with app.app_context():
>>>     db.create_all()

6 단계 : 응용 프로그램을 실행하십시오

 python app.py

앱은 http://localhost:5000 에서 실행됩니다.

도커 설정

1 단계 : Docker 이미지를 작성하십시오

 docker build -t flask-app .

2 단계 : Docker 컨테이너를 실행하십시오

 docker run -p 5000:5000 flask-app

이제 앱은 http://localhost:5000 에서 실행됩니다.

API 엔드 포인트

건강 점검

URL : / /health MOTHER : GET : API가 실행 중인지 확인합니다. 응답 :

 json
Copy code
{
  "status": "API is running"
}

찾다

URL : /search 방법 : POST 설명 : 텍스트 쿼리를 기반으로 한 문서 검색. 요청 본문 :

 json
Copy code
{
  "query": "Your search query",
  "user_id": "user123",
  "top_k": 3
}

응답 : 쿼리를 기반으로 일치하는 문서 목록을 반환합니다.

스크래핑 URL : /start_scraping 메소드 : POST 설명 : 특정 사이트의 배경 스크래핑 프로세스를 시작합니다. 요청 본문 :

 json
Copy code
{
  "url": "https://example.com"
}

응답 :

 json

{
  "message": "Started scraping for https://example.com"
}

문제 해결

일반적인 문제 :

속도 한도 초과 : 요율 제한에 도달하면 API는 429 오류를 반환합니다.
캐싱 지연 : 캐시 된 결과가 반환되면 새로운 결과가 나타나기 전에 5 분 동안 기다려야 할 수도 있습니다.
로그 : 응용 프로그램은 api.log 의 모든 요청 및 오류를 기록합니다. 배경 스크래핑 로그는 스크래핑에 기록됩니다.

향후 향상

인증 : 추가 보안을위한 API 키 기반 인증 추가.
향상된 오류 처리 : 잘못된 쿼리 또는 스크래핑 실패에 대한 자세한 오류 메시지.
여러 스크래핑 사이트에 대한 지원 : 스크레이퍼를 강화하여 여러 사이트를 병렬로 처리합니다.

확장하다

추가 정보

버전 1.0.0
유형 기타 소스코드
업데이트 시간 2025-05-30
크기 15.66KB
출처 Github