search result scraper markdown - search result scraper markdown source download

search result scraper markdown

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

jina.ai มีดโกนผลการค้นหาทางเลือกที่มีเอาต์พุต markdown โดยใช้ fastapi, searxng, browserless และการรวม AI

ภาษาอังกฤษ | 中文版

คำอธิบาย

โครงการนี้มีเครื่องมือขูดเว็บที่ทรงพลังที่ดึงผลการค้นหาและแปลงเป็นรูปแบบ markdown โดยใช้ fastapi, searxng และเบราว์เซอร์เลส ซึ่งรวมถึงความสามารถในการใช้พร็อกซีสำหรับการขูดเว็บและจัดการการแปลงเนื้อหา HTML เพื่อทำเครื่องหมายอย่างมีประสิทธิภาพ ตอนนี้มีการรวม AI สำหรับการกรองผลการค้นหา ทางเลือก ได้แก่ Jina.ai, Firecrawl AI, EXA AI และ 2MarkDown นำเสนอโซลูชั่นการขูดเว็บและเครื่องมือค้นหาที่หลากหลายสำหรับนักพัฒนา

สารบัญ

jina.ai มีดโกนผลการค้นหาทางเลือกที่มีเอาต์พุต markdown โดยใช้ fastapi, searxng, browserless และการรวม AI
- คำอธิบาย
- สารบัญ
- ทางเลือก:
- คุณสมบัติ
- ข้อกำหนดเบื้องต้น
- การตั้งค่านักเทียบท่า
- การตั้งค่าด้วยตนเอง
- การใช้งาน
  - จุดสิ้นสุดค้นหา
  - ดึงเนื้อหา URL
  - ดึงภาพ
  - ดึงวิดีโอ
- ใช้พร็อกซี
- แผนงาน
- คำอธิบายรหัส
- ใบอนุญาต
- ผู้เขียน
- การบริจาค
- กิตติกรรมประกาศ
- ประวัติดาว

ทางเลือก:

Jina.ai: เครื่องมือค้นหาที่ทรงพลังสำหรับนักพัฒนา
FireCrawl AI: เว็บขูด API สำหรับนักพัฒนา
EXA AI: เว็บขูด API สำหรับนักพัฒนา
2markdown: เครื่องมือขูดเว็บที่แปลง HTML เป็น Markdown

คุณสมบัติ

Fastapi : กรอบเว็บที่ทันสมัยและรวดเร็วสำหรับการสร้าง API ด้วย Python
SeArxng : เครื่องมือ Metasearch ทางอินเทอร์เน็ตโอเพนซอร์ซ
เบราว์เซอร์เลส : บริการเว็บเบราว์เซอร์อัตโนมัติ
เอาท์พุท Markdown : แปลงเนื้อหา HTML เป็นรูปแบบ markdown
การสนับสนุนพร็อกซี : ใช้พร็อกซีเพื่อการขูดที่ปลอดภัยและไม่ระบุชื่อ
AI Integration (Reranker AI) : ตัวกรองผลการค้นหาโดยใช้ AI เพื่อให้เนื้อหาที่เกี่ยวข้องมากที่สุด
การถอดความ YouTube : ดึงการถอดรหัสวิดีโอ YouTube
การค้นหารูปภาพและวิดีโอ : ดึงภาพและผลลัพธ์วิดีโอโดยใช้ searxng

ข้อกำหนดเบื้องต้น

ตรวจสอบให้แน่ใจว่าคุณติดตั้งดังต่อไปนี้:

Python 3.11
virtualenv
นักเทียบท่า

การตั้งค่านักเทียบท่า

คุณสามารถใช้ Docker เพื่อทำให้กระบวนการตั้งค่าง่ายขึ้น ทำตามขั้นตอนเหล่านี้:

โคลนที่เก็บ :

git clone https://github.com/essamamdani/search-result-scraper-markdown.git
cd search-result-scraper-markdown

เรียกใช้นักเทียบท่าเขียน :
```
docker compose up --build
```

ด้วยการตั้งค่านี้หากคุณเปลี่ยนไฟล์ .env หรือ main.py คุณไม่จำเป็นต้องรีสตาร์ท Docker อีกต่อไป การเปลี่ยนแปลงจะถูกโหลดใหม่โดยอัตโนมัติ

การตั้งค่าด้วยตนเอง

ทำตามขั้นตอนเหล่านี้สำหรับการตั้งค่าด้วยตนเอง:

โคลนที่เก็บ :

git clone https://github.com/essamamdani/search-result-scraper-markdown.git
cd search-result-scraper-markdown

สร้างและเปิดใช้งานสภาพแวดล้อมเสมือนจริง :
```
virtualenv venv
source venv/bin/activate
```
ติดตั้งการพึ่งพา :
```
pip install -r requirements.txt
```

สร้างไฟล์. env ในไดเรกทอรีรูทด้วยเนื้อหาต่อไปนี้:

SEARXNG_URL=http://searxng:8080
BROWSERLESS_URL=http://browserless:3000
TOKEN=your_browserless_token_here  # Replace with your actual token
# PROXY_PROTOCOL=http
# PROXY_URL=your_proxy_url
# PROXY_USERNAME=your_proxy_username
# PROXY_PASSWORD=your_proxy_password
# PROXY_PORT=your_proxy_port
REQUEST_TIMEOUT=30

# AI Integration for search result filter
FILTER_SEARCH_RESULT_BY_AI=true
AI_ENGINE=groq
# GROQ
GROQ_API_KEY=yours_groq_api_key_here
GROQ_MODEL=llama3-8b-8192
# OPENAI
# OPENAI_API_KEY=your_openai_api_key_here
# OPENAI_MODEL=gpt-3.5-turbo-0125

เรียกใช้คอนเทนเนอร์ Docker สำหรับ searxng และ browserless :
```
./run-services.sh
```
เริ่มแอปพลิเคชัน fastapi :
```
uvicorn main:app --host 0.0.0.0 --port 8000
```

การใช้งาน

จุดสิ้นสุดค้นหา

ในการดำเนินการค้นหาการค้นหาให้ส่งคำขอ GET ไปยังจุดสิ้นสุดรูท / ด้วยพารามิเตอร์การสืบค้น q (ค้นหาการค้นหา), num_results (จำนวนผลลัพธ์) และ format (รับการตอบกลับใน JSON หรือโดยค่าเริ่มต้นใน markdown)

ตัวอย่าง:

curl " http://localhost:8000/?q=python&num_results=5&format=json " # for JSON format
curl " http://localhost:8000/?q=python&num_results=5 " # by default Markdown

ดึงเนื้อหา URL

ในการดึงและแปลงเนื้อหาของ URL ที่เฉพาะเจาะจงเป็น markdown ส่งคำขอรับไปยังจุดสิ้นสุด /r/{url:path}

ตัวอย่าง:

curl " http://localhost:8000/r/https://example.com&format=json " # for JSON format
curl " http://localhost:8000/r/https://example.com " # by default Markdown

ดึงภาพ

ในการดึงผลลัพธ์การค้นหาภาพให้ส่งคำขอ GET ไปยังจุดสิ้นสุด /images ด้วยพารามิเตอร์การสืบค้น q (ค้นหาการค้นหา) และ num_results (จำนวนผลลัพธ์)

ตัวอย่าง:

curl " http://localhost:8000/images?q=puppies&num_results=5 "

ดึงวิดีโอ

ในการดึงผลลัพธ์การค้นหาวิดีโอให้ส่งคำขอ GET ไปยังจุดสิ้นสุด /videos ด้วยพารามิเตอร์แบบสอบถาม q (ค้นหาการค้นหา) และ num_results (จำนวนผลลัพธ์)

ตัวอย่าง:

curl " http://localhost:8000/videos?q=cooking+recipes&num_results=5 "

ใช้พร็อกซี

โครงการนี้ใช้พร็อกซี Geonode สำหรับการขูดเว็บ คุณสามารถใช้ลิงค์พันธมิตร Geonode ของฉันเพื่อเริ่มต้นใช้งานบริการพร็อกซีของพวกเขา

แผนงาน

Fastapi : กรอบเว็บที่ทันสมัยและรวดเร็วสำหรับการสร้าง API ด้วย Python
SeArxng : เครื่องมือ Metasearch ทางอินเทอร์เน็ตโอเพนซอร์ซ
เบราว์เซอร์เลส : บริการเว็บเบราว์เซอร์อัตโนมัติ
เอาท์พุท Markdown : แปลงเนื้อหา HTML เป็นรูปแบบ markdown
การสนับสนุนพร็อกซี : ใช้พร็อกซีเพื่อการขูดที่ปลอดภัยและไม่ระบุชื่อ
AI Integration (Reranker AI) : ตัวกรองผลการค้นหาโดยใช้ AI เพื่อให้เนื้อหาที่เกี่ยวข้องมากที่สุด
การถอดความ YouTube : ดึงการถอดรหัสวิดีโอ YouTube
การค้นหารูปภาพและวิดีโอ : ดึงภาพและผลลัพธ์วิดีโอโดยใช้ searxng