Download Download search result scraper markdown - Unduhan Kode Sumber search result scraper markdown

search result scraper markdown

Kode sumber lainnya

1.0.0

Unduh

Jina.AI Pengikis hasil pencarian alternatif dengan output markdown menggunakan fastapi, searxng, browserless, dan integrasi AI

Bahasa Inggris | 中文版

Keterangan

Proyek ini menyediakan alat pengikis web yang kuat yang mengambil hasil pencarian dan mengubahnya menjadi format markdown menggunakan FastAPI, Searxng, dan browserless. Ini termasuk kemampuan untuk menggunakan proksi untuk pengikisan web dan menangani konversi konten HTML ke markdown secara efisien. Sekarang menampilkan integrasi AI untuk memfilter hasil pencarian. Alternatif termasuk Jina.ai, Firecrawl AI, EXA AI, dan 2markdown, menawarkan berbagai solusi pengikis dan mesin pencari untuk pengembang.

Daftar isi

Jina.AI Pengikis hasil pencarian alternatif dengan output markdown menggunakan fastapi, searxng, browserless, dan integrasi AI
- Keterangan
- Daftar isi
- Alternatif:
- Fitur
- Prasyarat
- Pengaturan Docker
- Pengaturan manual
- Penggunaan
  - Cari titik akhir
  - Ambil konten URL
  - Mengambil gambar
  - Mengambil video
- Menggunakan proxy
- Peta jalan
- Penjelasan Kode
- Lisensi
- Pengarang
- Berkontribusi
- Ucapan Terima Kasih
- Sejarah Bintang

Alternatif:

Jina.ai: mesin pencari yang kuat untuk pengembang.
Firecrawl AI: API Mengikis Web untuk Pengembang.
EXA AI: API Mengikis Web untuk Pengembang.
2markdown: Alat pengikisan web yang mengubah HTML menjadi markdown.

Fitur

Fastapi : Kerangka kerja web modern dan cepat untuk membangun API dengan python.
Searxng : Mesin Metasearch Internet Sumber Terbuka.
Browserless : Layanan Otomasi Browser Web.
Output Markdown : Mengonversi konten HTML ke format Markdown.
Dukungan proxy : Memanfaatkan proxy untuk pengikisan yang aman dan anonim.
AI Integration (Reranker AI) : Menyaring hasil pencarian menggunakan AI untuk menyediakan konten yang paling relevan.
Transkripsi YouTube : Mengambil transkrip video YouTube.
Pencarian Gambar dan Video : Mengambil gambar dan hasil video menggunakan searxng.

Prasyarat

Pastikan Anda telah menginstal berikut:

Python 3.11
Virtualenv
Buruh pelabuhan

Pengaturan Docker

Anda dapat menggunakan Docker untuk menyederhanakan proses pengaturan. Ikuti langkah -langkah ini:

Klon Repositori :

git clone https://github.com/essamamdani/search-result-scraper-markdown.git
cd search-result-scraper-markdown

Jalankan Docker Compose :
```
docker compose up --build
```

Dengan pengaturan ini, jika Anda mengubah file .env atau main.py , Anda tidak perlu lagi memulai kembali Docker. Perubahan akan dimuat ulang secara otomatis.

Pengaturan manual

Ikuti langkah -langkah ini untuk pengaturan manual:

Klon Repositori :

git clone https://github.com/essamamdani/search-result-scraper-markdown.git
cd search-result-scraper-markdown

Buat dan aktifkan lingkungan virtual :

virtualenv venv
source venv/bin/activate

Instal dependensi :
```
pip install -r requirements.txt
```

Buat file .env di direktori root dengan konten berikut:

SEARXNG_URL=http://searxng:8080
BROWSERLESS_URL=http://browserless:3000
TOKEN=your_browserless_token_here  # Replace with your actual token
# PROXY_PROTOCOL=http
# PROXY_URL=your_proxy_url
# PROXY_USERNAME=your_proxy_username
# PROXY_PASSWORD=your_proxy_password
# PROXY_PORT=your_proxy_port
REQUEST_TIMEOUT=30

# AI Integration for search result filter
FILTER_SEARCH_RESULT_BY_AI=true
AI_ENGINE=groq
# GROQ
GROQ_API_KEY=yours_groq_api_key_here
GROQ_MODEL=llama3-8b-8192
# OPENAI
# OPENAI_API_KEY=your_openai_api_key_here
# OPENAI_MODEL=gpt-3.5-turbo-0125

Jalankan wadah Docker untuk searxng dan browserless :
```
./run-services.sh
```

Mulai aplikasi FASTAPI :

uvicorn main:app --host 0.0.0.0 --port 8000

Penggunaan

Cari titik akhir

Untuk melakukan kueri pencarian, kirim permintaan GET ke titik akhir root / dengan parameter kueri q (kueri pencarian), num_results (jumlah hasil), dan format (dapatkan respons di JSON atau secara default di Markdown).

Contoh:

curl " http://localhost:8000/?q=python&num_results=5&format=json " # for JSON format
curl " http://localhost:8000/?q=python&num_results=5 " # by default Markdown

Ambil konten URL

Untuk mengambil dan mengonversi konten URL tertentu ke Markdown, kirim permintaan GET ke titik akhir /r/{url:path} .

Contoh:

curl " http://localhost:8000/r/https://example.com&format=json " # for JSON format
curl " http://localhost:8000/r/https://example.com " # by default Markdown

Mengambil gambar

Untuk mengambil hasil pencarian gambar, kirim permintaan GET ke titik akhir /images dengan parameter kueri q (kueri pencarian) dan num_results (jumlah hasil).

Contoh:

curl " http://localhost:8000/images?q=puppies&num_results=5 "

Mengambil video

Untuk mengambil hasil pencarian video, kirim permintaan GET ke titik akhir /videos dengan parameter kueri q (kueri pencarian) dan num_results (jumlah hasil).

Contoh:

curl " http://localhost:8000/videos?q=cooking+recipes&num_results=5 "

Menggunakan proxy

Proyek ini menggunakan proxy geonode untuk pengikisan web. Anda dapat menggunakan tautan afiliasi geonode saya untuk memulai dengan layanan proxy mereka.

Peta jalan

Fastapi : Kerangka kerja web modern dan cepat untuk membangun API dengan python.
Searxng : Mesin Metasearch Internet Sumber Terbuka.
Tanpa Browser : Layanan Otomasi Browser Web.
Output Markdown : Mengonversi konten HTML ke format Markdown.
Dukungan proxy : Memanfaatkan proxy untuk pengikisan yang aman dan anonim.
AI Integration (Reranker AI) : Menyaring hasil pencarian menggunakan AI untuk menyediakan konten yang paling relevan.
Transkripsi YouTube : Mengambil transkrip video YouTube.
Pencarian Gambar dan Video : Mengambil gambar dan hasil video menggunakan searxng.