Téléchargement de thecrowler - Téléchargement du code source thecrowler

thecrowler

Autre code source

1.0.0

Télécharger

Le Crowler

Statut du projet: Toujours en cours de développement actif! Cependant, la plupart sont déjà utilisables. Les testeurs alpha sont les bienvenus! Statistiques complètes sur le travail quotidien ici.

Veuillez noter : Ceci est le nouveau dépôt officiel du projet, les anciens référentiels C ++ et Rust sont désormais fermés et ne sont plus disponibles / entretenus. Veuillez utiliser celui-ci pour tout nouveau développement.

Qu'est-ce que c'est?

Le Crowler est un robot Web open-source et riche en fonctionnalités conçu avec une philosophie unique en son cœur: être aussi doux et à faible bruit que possible. En d'autres termes, le Crowler essaie de se démarquer en assurant un impact minimal sur les sites Web qu'il comprene tout en maximisant la commodité pour ses utilisateurs.

De plus, le système est équipé d'une API, fournissant une interface rationalisée pour les requêtes de données. Cette fonctionnalité assure une intégration et un accès faciles aux données indexées pour diverses applications.

Le Crowler est conçu pour être basé sur des micro-services, il peut donc être facilement déployé dans un environnement conteneurisé.

Table des matières

Caractéristiques
Quel problème résout-il?
Comment prononcer le nom?
Comment l'utiliser?
- Condition préalable
- Installation
  - Installation et déploiement faciles
  - Si vous prévoyez de l'installer manuellement
  - Construire à partir de la source
Production
Entretien DB
Licence
Contributif
Code de conduite
Remerciements
Clause de non-responsabilité
Top contributeurs

Caractéristiques

Low-bruit : le Crowler est conçu pour être aussi doux que possible lorsque vous rampez. Il respecte Robots.txt, et il est conçu pour essayer d'apparaître en tant qu'utilisateur humain aux sites Web qu'il rampe.
Crawling personnalisable : adaptez votre expérience rampante comme jamais auparavant. Spécifiez les URL et configurez des paramètres de rampage individuels pour répondre à vos besoins précis. Qu'il s'agisse d'une seule page ou d'un vaste domaine, le Crowler s'adapte à votre portée avec une flexibilité inégalée.
Variabilité de la portée : définissez vos limites rampantes avec précision. Choisissez parmi:
- URL singulière rampant
- Rampant à l'échelle du domaine (combinant les domaines L3, L2 et L1)
- Domaine L2 et L1 rampant
- Domaine L1 rampant (par exemple, tout dans ".com")
- Rampant récursif complet, s'aventurer au-delà des limites initiales pour explorer les URL connectées
Capacités de détection avancées : Découvrez une multitude d'informations avec des fonctionnalités qui vont au-delà de l'exploration de base:
- Découverte d'URL et de contenu
- Contenu de la page, métadonnées et plus
- Analyse des mots clés et détection du langage
- En-têtes HTTP perspicaces, informations sur le réseau, WHOIS, DNS et données de géo-localisation
Ensemble de règles sophistiqué : pour tirer parti des activités basées sur des règles et une personnalisation logique, le Crowler propose:
- Règles de grattage: pour extraire précisément ce dont vous avez besoin sur les sites Web
- Règles d'action: interagir avec les sites Web d'une manière plus dynamique
- Règles de détection: pour identifier des modèles ou des éléments spécifiques sur une page, les technologies utilisées, etc.
- Règles rampantes: pour définir comment le robot devait se comporter dans différentes situations (par exemple, à la fois récursive et non réécursive rampant, fuzzing, etc.)
Intégration puissante du moteur de recherche : utilisez un moteur de recherche basé sur API équipé de capacités de Dorking et de recherche de contenu complète, ouvrant de nouvelles avenues pour l'analyse des données et les informations.

Pour plus d'informations sur les fonctionnalités, consultez la page des fonctionnalités.

Quel problème résout-il?

Le Crowler est conçu pour résoudre un ensemble de problèmes concernant la rampe Web, la découverte de contenu, la détection de technologie et l'extraction des données.

Bien que l'objectif principal soit de permettre aux utilisateurs privés, professionnels et d'entreprises de développer rapidement leurs solutions de découverte de contenu, il est également conçu pour être en mesure de faire en sorte que les réseaux et intranets privés, vous pouvez donc l'utiliser pour créer votre propre ou votre moteur de recherche d'entreprise.

En plus de cela, il peut également être utilisé comme "base" pour un outil de cybersécurité plus complexe, car il peut être utilisé pour recueillir des informations sur un site Web, son réseau, ses propriétaires, ses vulnérabilités, quels services sont exposés, etc.

Étant donné qu'il peut également extraire des informations, il peut être utilisé pour créer des bases de connaissances en référence aux sources, ou pour créer une base de données d'informations sur un sujet spécifique.

De toute évidence, il peut également être utilisé pour effectuer une analyse des mots clés, une détection du langage, etc., mais c'est quelque chose pour lequel chaque robot peut être utilisé. Cependant, toutes les fonctionnalités "classiques" sont implémentées / implémentées.

Comment prononcer le nom?

Le : prononcé comme / ðə / alors qu'avant un son consonne, il ressemble à "thuh".

Crow : prononcé comme / kroʊ /, rime avec "savoir" ou "neige".

Ler : La dernière partie est prononcée comme / lər /, similaire à la fin du mot "Crawler" ou au mot "ler" dans "tumbler".

Le tout ensemble, cela ressemble à " thuh kroh-lər "

Ce que Chatgpt pense du Crowler;)

"Le Crowler n'est pas seulement un outil; c'est un engagement envers l'éthique, efficace et efficace, que vous effectuiez une recherche académique, une analyse de marché ou améliorer votre posture de cybersécurité, le Crowler offre avec intégrité et précision.

Rejoignez-nous pour redéfinir les normes de la réparation du Web. Explorez plus et contribuez au voyage de Crowler vers une exploration numérique plus respectueuse et plus perspicace. "

? C'est clairement un peu exagéré, mais c'était amusant et j'ai décidé de l'inclure ici, juste pour le plaisir. BTW ça me fait tomber comme je veux ajouter:

"... et il y a encore une chose!" (Je me demande pourquoi?!?!)?

Comment l'utiliser?

Condition préalable

Le Crowler est conçu pour être basé sur des micro-services, vous devrez donc installer ce qui suit:

Docker
Docker

Pour une installation basée sur Docker Compose, c'est tout ce dont vous avez besoin. Si Docker et Docker composent installés, vous pouvez ignorer la section suivante et aller directement à la section d'installation .

Installation

1. Installation et déploiement faciles

La façon la plus simple d'installer le Crowler est d'utiliser le fichier Docker Compose. Pour ce faire, suivez les instructions ici.

Veuillez noter (1) : Si vous avez des questions sur Config.yaml ou les Env Vars, ou l'ensemble de règles, etc., vous pouvez utiliser le chatbot GPT pour vous aider. Allez simplement sur ce lien ici (il est disponible librement pour tout le monde)

Veuillez noter (2) : Si vous dirigez le Crowler sur un Raspberry Pi, vous devrez construire le Crowler pour la plate-forme arm64 . Pour ce faire, le moyen la plus facile est de construire le Crowler avec le script docker-build.sh directement sur le Raspberry Pi.

2. Si vous prévoyez de l'installer manuellement

Si, au lieu de cela, vous prévoyez d'installer le Crowler manuellement, vous devrez installer le conteneur Docker suivant:

Conteneur postgresql
- Postgres 15 (pour les deux ARM et X86) sont pris en charge pour le moment.
- Puis exécutez le script de configuration du schéma DB dessus (assurez-vous de vérifier la section du schéma DB avec les informations d'identification de l'utilisateur et définir correctement ces variables SQL)
Veuillez également noter: le Crowler aura besoin de la construction de son image VDI, vous devrez donc également construire l'image VDI.

Construire à partir de la source

Si vous utilisez le Docker Compose, tout se construire automatiquement, tout ce que vous devrez faire est de suivre les instructions de la section d'installation.

Si, à la place, vous souhaitez construire localement sur votre machine, suivez les instructions de cette section.

Pour construire le Crowler à partir de la source, vous devrez installer ce qui suit:

Aller

Ensuite, vous devrez cloner le référentiel et construire les cibles dont vous avez besoin.

Pour tout construire à la fois, exécutez la commande suivante:

./autobuild.sh

Pour construire des cibles individuelles:

Tout d'abord, vérifiez quelles cibles peuvent être construites et sont disponibles, exécutez la commande suivante:

./autobuild name-of-the-target

Cela construira votre composant demandé dans ./bin

./bin/removeSite
./bin/addSite
./bin/addCategory
./bin/api
./bin/thecrowler

Construisez-les comme vous en avez besoin, ou exécutez autobuild.sh (pas d'arguments) pour les construire tous.

En éventuellement, vous pouvez créer l'image Docker, pour ce faire exécuter la commande suivante:

docker build -t < image name > .

Remarque : Si vous construisez le conteneur Docker Crowler Engine, n'oubliez pas de l'exécuter avec la commande docker suivante (c'est requis!)

docker run -it --rm --cap-add=NET_ADMIN --cap-add=NET_RAW crowler_engine

Remarque importante : Si vous construisez à partir de Source, vous devez toujours construire une image Crowler VDI Docker, ce qui est nécessaire car le Crowler utilise un tas d'outils externes pour faire son travail et tous ces outils sont regroupés et construits dans l'image VDI (image de bureau virtuelle).

Usage

Pour instruction sur la façon de l'utiliser, voyez ici.

Production

Si vous souhaitez utiliser le Crowler en production, je recommande d'utiliser l'installation de Docker Compose. C'est le moyen le plus simple de l'installer et c'est le plus sécurisé.

Pour une meilleure sécurité, je recommande fortement de déployer l'API dans un conteneur séparé que celui de Crowler. De plus, il n'est pas nécessaire d'exposer le conteneur Crowler au monde extérieur, il faudra une réflexion sur Internet.

Entretien DB

La configuration par défaut de Crowler utilise PostgreSQL comme base de données. La base de données est stockée dans un volume Docker et est persistante.

La base de données ne doit avoir besoin de l'entretien, le Crowler s'en occupera. Chaque fois qu'il n'y a pas d'activité de rampe et qu'il est passé à 1 heure de l'activité de maintenance précédente, le Crowler nettoiera la base de données et optimisera les index.

Licence

Le Crowler est autorisé sous la licence Apache 2.0. Pour plus d'informations, consultez le fichier de licence.

Contributif

Si vous souhaitez contribuer au projet, veuillez lire le fichier contributif.

Code de conduite

Le Crowler a adopté le Code de conduite de l'alliance des contributeurs. Pour plus d'informations, consultez le fichier code_of_conduct.

Remerciements

Le Crowler est construit sur de nombreux projets open-source, et je tiens à remercier tous les développeurs qui ont contribué à ces projets. Sans eux, le Crowler ne serait pas possible.

De plus, je tiens à remercier les personnes qui m'aident avec le projet, soit en contribuant au code, en le testant, soit en fournissant des commentaires. Merci à tous!

Clause de non-responsabilité

Le Crowler est un outil conçu pour vous aider à ramper les sites Web de manière respectueuse. Cependant, c'est à vous de l'utiliser de manière respectueuse. Le Crowler n'est pas responsable de toute utilisation abusive de l'outil.

Top contributeurs

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-03-11
taille 1.41MB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout