search result scraper markdown - search result scraper markdown Téléchargement du code source

search result scraper markdown

Autre code source

1.0.0

Télécharger

Jina.ai Scraper de résultats de recherche alternative avec sortie de marque à l'aide de Fastapi, SearXng, Browserless et Integration IA

Anglais | 中文版

Description

Ce projet fournit un puissant outil de grattage Web qui récupère les résultats de recherche et les convertit en format Markdown à l'aide de Fastapi, SearXng et sans navigation. Il inclut la capacité d'utiliser des proxys pour le grattage Web et gère efficacement la conversion de contenu HTML en Markdown. Présentant maintenant l'intégration d'IA pour filtrer les résultats de recherche. Les alternatives incluent Jina.ai, Firecrawl AI, EXA AI et 2Markdown, offrant diverses solutions de gratteries et de moteurs de recherche pour les développeurs.

Table des matières

Jina.ai Scraper de résultats de recherche alternative avec sortie de marque à l'aide de Fastapi, SearXng, Browserless et Integration IA
- Description
- Table des matières
- Alternatives:
- Caractéristiques
- Condition préalable
- Configuration de Docker
- Configuration manuelle
- Usage
  - Rechercher le point de terminaison
  - Répondre au contenu de l'URL
  - Récupérer des images
  - Rechercher des vidéos
- Utilisation des proxys
- Feuille de route
- Explication du code
- Licence
- Auteur
- Contributif
- Remerciements
- Histoire des étoiles

Alternatives:

Jina.ai: un puissant moteur de recherche pour les développeurs.
Firecrawl AI: une API de grattage Web pour les développeurs.
EXA AI: une API de grattement Web pour les développeurs.
2Markdown: un outil de grattage Web qui convertit HTML à Markdown.

Caractéristiques

Fastapi : un cadre Web moderne et rapide pour la création d'API avec Python.
SEARXNG : un moteur de métasearch Internet open source.
Browserless : un service d'automatisation du navigateur Web.
Sortie de Markdown : convertit le contenu HTML au format Markdown.
Support de proxy : utilise des proxys pour le grattage sécurisé et anonyme.
Intégration AI (RERANKER AI) : filtre les résultats de la recherche utilisant l'IA pour fournir le contenu le plus pertinent.
Transcriptions YouTube : récupère les transcriptions vidéo YouTube.
Recherche d'image et vidéo : récupére les images et les résultats vidéo à l'aide de SearXng.

Condition préalable

Assurez-vous que vous avez installé les suivants:

Python 3.11
Virtualv
Docker

Configuration de Docker

Vous pouvez utiliser Docker pour simplifier le processus de configuration. Suivez ces étapes:

Clone le référentiel :

git clone https://github.com/essamamdani/search-result-scraper-markdown.git
cd search-result-scraper-markdown

Exécutez Docker Compose :
```
docker compose up --build
```

Avec cette configuration, si vous modifiez le fichier .env ou main.py , vous n'avez plus besoin de redémarrer Docker. Les modifications seront rechargées automatiquement.

Configuration manuelle

Suivez ces étapes pour la configuration manuelle:

Clone le référentiel :

git clone https://github.com/essamamdani/search-result-scraper-markdown.git
cd search-result-scraper-markdown

Créer et activer l'environnement virtuel :

virtualenv venv
source venv/bin/activate

Installez les dépendances :
```
pip install -r requirements.txt
```

Créez un fichier .env dans le répertoire racine avec le contenu suivant:

SEARXNG_URL=http://searxng:8080
BROWSERLESS_URL=http://browserless:3000
TOKEN=your_browserless_token_here  # Replace with your actual token
# PROXY_PROTOCOL=http
# PROXY_URL=your_proxy_url
# PROXY_USERNAME=your_proxy_username
# PROXY_PASSWORD=your_proxy_password
# PROXY_PORT=your_proxy_port
REQUEST_TIMEOUT=30

# AI Integration for search result filter
FILTER_SEARCH_RESULT_BY_AI=true
AI_ENGINE=groq
# GROQ
GROQ_API_KEY=yours_groq_api_key_here
GROQ_MODEL=llama3-8b-8192
# OPENAI
# OPENAI_API_KEY=your_openai_api_key_here
# OPENAI_MODEL=gpt-3.5-turbo-0125

Exécutez des conteneurs Docker pour searXng et Browserless :
```
./run-services.sh
```

Démarrez l'application Fastapi :

uvicorn main:app --host 0.0.0.0 --port 8000

Usage

Rechercher le point de terminaison

Pour effectuer une requête de recherche, envoyez une demande GET au point de terminaison racine / avec les paramètres de requête q (Recherche de recherche), num_results (nombre de résultats) et format (obtenez une réponse dans JSON ou par défaut dans Markdown).

Exemple:

curl " http://localhost:8000/?q=python&num_results=5&format=json " # for JSON format
curl " http://localhost:8000/?q=python&num_results=5 " # by default Markdown

Répondre au contenu de l'URL

Pour récupérer et convertir le contenu d'une URL spécifique à Markdown, envoyez une demande GET au point de terminaison /r/{url:path} .

Exemple:

curl " http://localhost:8000/r/https://example.com&format=json " # for JSON format
curl " http://localhost:8000/r/https://example.com " # by default Markdown

Récupérer des images

Pour récupérer les résultats de la recherche d'images, envoyez une demande GET au point de terminaison /images avec les paramètres de requête q (Recherche de recherche) et num_results (nombre de résultats).

Exemple:

curl " http://localhost:8000/images?q=puppies&num_results=5 "

Rechercher des vidéos

Pour récupérer les résultats de la recherche vidéo, envoyez une demande GET au point de terminaison /videos avec les paramètres de requête q (Recherche de recherche) et num_results (nombre de résultats).

Exemple:

curl " http://localhost:8000/videos?q=cooking+recipes&num_results=5 "

Utilisation des proxys

Ce projet utilise des proxys Geonode pour le grattage Web. Vous pouvez utiliser mon lien d'affiliation Geonode pour démarrer avec leurs services de proxy.

Feuille de route

Fastapi : un cadre Web moderne et rapide pour la création d'API avec Python.
SEARXNG : un moteur de métasearch Internet open source.
Browserless : un service d'automatisation du navigateur Web.
Sortie de Markdown : convertit le contenu HTML au format Markdown.
Support de proxy : utilise des proxys pour le grattage sécurisé et anonyme.
Intégration AI (RERANKER AI) : filtre les résultats de la recherche utilisant l'IA pour fournir le contenu le plus pertinent.
Transcriptions YouTube : récupère les transcriptions vidéo YouTube.
Recherche d'image et vidéo : récupére les images et les résultats vidéo à l'aide de SearXng.