영어 | 中文版
이 프로젝트는 SPARPI, SEARXNG 및 브라우저리스를 사용하여 검색 결과를 가져오고 마크 다운 형식으로 변환하는 강력한 웹 스크래핑 도구를 제공합니다. 여기에는 웹 스크래핑에 프록시를 사용할 수있는 기능이 포함되어 있으며 HTML 컨텐츠 변환을 마크 다운으로 효율적으로 처리합니다. 이제 검색 결과 필터링을위한 AI 통합이 특징입니다. 대안으로는 Jina.ai, Firecrawl AI, EXA AI 및 2MARKDOWN이 있으며 개발자를위한 다양한 웹 스크래핑 및 검색 엔진 솔루션을 제공합니다.
다음을 설치했는지 확인하십시오.
Docker를 사용하여 설정 프로세스를 단순화 할 수 있습니다. 다음 단계를 따르십시오.
저장소 복제 :
git clone https://github.com/essamamdani/search-result-scraper-markdown.git
cd search-result-scraper-markdownDocker Compose 실행 :
docker compose up --build 이 설정을 사용하면 .env 또는 main.py 파일을 변경하면 더 이상 Docker를 다시 시작할 필요가 없습니다. 변경 사항이 자동으로 다시로드됩니다.
수동 설정을 위해 다음 단계를 따르십시오.
저장소 복제 :
git clone https://github.com/essamamdani/search-result-scraper-markdown.git
cd search-result-scraper-markdown가상 환경 생성 및 활성화 :
virtualenv venv
source venv/bin/activate종속성 설치 :
pip install -r requirements.txt다음 내용으로 루트 디렉토리에서 .env 파일을 만듭니다 .
SEARXNG_URL=http://searxng:8080
BROWSERLESS_URL=http://browserless:3000
TOKEN=your_browserless_token_here # Replace with your actual token
# PROXY_PROTOCOL=http
# PROXY_URL=your_proxy_url
# PROXY_USERNAME=your_proxy_username
# PROXY_PASSWORD=your_proxy_password
# PROXY_PORT=your_proxy_port
REQUEST_TIMEOUT=30
# AI Integration for search result filter
FILTER_SEARCH_RESULT_BY_AI=true
AI_ENGINE=groq
# GROQ
GROQ_API_KEY=yours_groq_api_key_here
GROQ_MODEL=llama3-8b-8192
# OPENAI
# OPENAI_API_KEY=your_openai_api_key_here
# OPENAI_MODEL=gpt-3.5-turbo-0125searxng 및 브라우저리스 용 Docker 컨테이너를 실행하십시오 .
./run-services.shFastapi 응용 프로그램 시작 :
uvicorn main:app --host 0.0.0.0 --port 8000 검색 쿼리를 수행하려면 쿼리 매개 변수 q (검색 쿼리), num_results (결과 수) 및 format (JSON 또는 MarkDown에서 기본적으로 GET 응답)을 사용하여 루트 엔드 포인트 / 로 GET 요청을 보내십시오.
예:
curl " http://localhost:8000/?q=python&num_results=5&format=json " # for JSON format
curl " http://localhost:8000/?q=python&num_results=5 " # by default Markdown 특정 URL의 내용을 Markdown으로 가져 와서 변환하려면 GET 요청을 /r/{url:path} endpoint로 보내십시오.
예:
curl " http://localhost:8000/r/https://example.com&format=json " # for JSON format
curl " http://localhost:8000/r/https://example.com " # by default Markdown 이미지 검색 결과를 가져 오려면 쿼리 매개 변수 q (검색 쿼리) 및 num_results (결과 수)와 함께 /images endpoint에 GET 요청을 보내십시오.
예:
curl " http://localhost:8000/images?q=puppies&num_results=5 " 비디오 검색 결과를 가져 오려면 쿼리 매개 변수 q (검색 쿼리) 및 num_results (결과 수)와 함께 /videos 엔드 포인트에 GET 요청을 보내십시오.
예:
curl " http://localhost:8000/videos?q=cooking+recipes&num_results=5 " 이 프로젝트는 웹 스크래핑에 Geonode 프록시를 사용합니다. 내 Geonode 계열사 링크를 사용하여 프록시 서비스를 시작할 수 있습니다.
코드에 대한 자세한 설명을 보려면 여기 기사를 방문하십시오.
이 프로젝트는 MIT 라이센스에 따라 라이센스가 부여됩니다. 자세한 내용은 라이센스 파일을 참조하십시오.
Essa Mamdani -Essamamdani.com
기부금을 환영합니다! 풀 요청을 제출하십시오.