Statut du projet: Toujours en cours de développement actif! Cependant, la plupart sont déjà utilisables. Les testeurs alpha sont les bienvenus! Statistiques complètes sur le travail quotidien ici.
Veuillez noter : Ceci est le nouveau dépôt officiel du projet, les anciens référentiels C ++ et Rust sont désormais fermés et ne sont plus disponibles / entretenus. Veuillez utiliser celui-ci pour tout nouveau développement.
Le Crowler est un robot Web open-source et riche en fonctionnalités conçu avec une philosophie unique en son cœur: être aussi doux et à faible bruit que possible. En d'autres termes, le Crowler essaie de se démarquer en assurant un impact minimal sur les sites Web qu'il comprene tout en maximisant la commodité pour ses utilisateurs.
De plus, le système est équipé d'une API, fournissant une interface rationalisée pour les requêtes de données. Cette fonctionnalité assure une intégration et un accès faciles aux données indexées pour diverses applications.
Le Crowler est conçu pour être basé sur des micro-services, il peut donc être facilement déployé dans un environnement conteneurisé.
Pour plus d'informations sur les fonctionnalités, consultez la page des fonctionnalités.
Le Crowler est conçu pour résoudre un ensemble de problèmes concernant la rampe Web, la découverte de contenu, la détection de technologie et l'extraction des données.
Bien que l'objectif principal soit de permettre aux utilisateurs privés, professionnels et d'entreprises de développer rapidement leurs solutions de découverte de contenu, il est également conçu pour être en mesure de faire en sorte que les réseaux et intranets privés, vous pouvez donc l'utiliser pour créer votre propre ou votre moteur de recherche d'entreprise.
En plus de cela, il peut également être utilisé comme "base" pour un outil de cybersécurité plus complexe, car il peut être utilisé pour recueillir des informations sur un site Web, son réseau, ses propriétaires, ses vulnérabilités, quels services sont exposés, etc.
Étant donné qu'il peut également extraire des informations, il peut être utilisé pour créer des bases de connaissances en référence aux sources, ou pour créer une base de données d'informations sur un sujet spécifique.
De toute évidence, il peut également être utilisé pour effectuer une analyse des mots clés, une détection du langage, etc., mais c'est quelque chose pour lequel chaque robot peut être utilisé. Cependant, toutes les fonctionnalités "classiques" sont implémentées / implémentées.
Le : prononcé comme / ðə / alors qu'avant un son consonne, il ressemble à "thuh".
Crow : prononcé comme / kroʊ /, rime avec "savoir" ou "neige".
Ler : La dernière partie est prononcée comme / lər /, similaire à la fin du mot "Crawler" ou au mot "ler" dans "tumbler".
Le tout ensemble, cela ressemble à " thuh kroh-lər "
"Le Crowler n'est pas seulement un outil; c'est un engagement envers l'éthique, efficace et efficace, que vous effectuiez une recherche académique, une analyse de marché ou améliorer votre posture de cybersécurité, le Crowler offre avec intégrité et précision.
Rejoignez-nous pour redéfinir les normes de la réparation du Web. Explorez plus et contribuez au voyage de Crowler vers une exploration numérique plus respectueuse et plus perspicace. "
? C'est clairement un peu exagéré, mais c'était amusant et j'ai décidé de l'inclure ici, juste pour le plaisir. BTW ça me fait tomber comme je veux ajouter:
"... et il y a encore une chose!" (Je me demande pourquoi?!?!)?
Le Crowler est conçu pour être basé sur des micro-services, vous devrez donc installer ce qui suit:
Pour une installation basée sur Docker Compose, c'est tout ce dont vous avez besoin. Si Docker et Docker composent installés, vous pouvez ignorer la section suivante et aller directement à la section d'installation .
La façon la plus simple d'installer le Crowler est d'utiliser le fichier Docker Compose. Pour ce faire, suivez les instructions ici.
Veuillez noter (1) : Si vous avez des questions sur Config.yaml ou les Env Vars, ou l'ensemble de règles, etc., vous pouvez utiliser le chatbot GPT pour vous aider. Allez simplement sur ce lien ici (il est disponible librement pour tout le monde)
Veuillez noter (2) : Si vous dirigez le Crowler sur un Raspberry Pi, vous devrez construire le Crowler pour la plate-forme arm64 . Pour ce faire, le moyen la plus facile est de construire le Crowler avec le script docker-build.sh directement sur le Raspberry Pi.
Si, au lieu de cela, vous prévoyez d'installer le Crowler manuellement, vous devrez installer le conteneur Docker suivant:
Conteneur postgresql
Veuillez également noter: le Crowler aura besoin de la construction de son image VDI, vous devrez donc également construire l'image VDI.
Si vous utilisez le Docker Compose, tout se construire automatiquement, tout ce que vous devrez faire est de suivre les instructions de la section d'installation.
Si, à la place, vous souhaitez construire localement sur votre machine, suivez les instructions de cette section.
Pour construire le Crowler à partir de la source, vous devrez installer ce qui suit:
Ensuite, vous devrez cloner le référentiel et construire les cibles dont vous avez besoin.
Pour tout construire à la fois, exécutez la commande suivante:
./autobuild.shPour construire des cibles individuelles:
Tout d'abord, vérifiez quelles cibles peuvent être construites et sont disponibles, exécutez la commande suivante:
./autobuild name-of-the-target Cela construira votre composant demandé dans ./bin
./bin/removeSite
./bin/addSite
./bin/addCategory
./bin/api
./bin/thecrowler Construisez-les comme vous en avez besoin, ou exécutez autobuild.sh (pas d'arguments) pour les construire tous.
En éventuellement, vous pouvez créer l'image Docker, pour ce faire exécuter la commande suivante:
docker build -t < image name > .Remarque : Si vous construisez le conteneur Docker Crowler Engine, n'oubliez pas de l'exécuter avec la commande docker suivante (c'est requis!)
docker run -it --rm --cap-add=NET_ADMIN --cap-add=NET_RAW crowler_engineRemarque importante : Si vous construisez à partir de Source, vous devez toujours construire une image Crowler VDI Docker, ce qui est nécessaire car le Crowler utilise un tas d'outils externes pour faire son travail et tous ces outils sont regroupés et construits dans l'image VDI (image de bureau virtuelle).
Pour instruction sur la façon de l'utiliser, voyez ici.
Si vous souhaitez utiliser le Crowler en production, je recommande d'utiliser l'installation de Docker Compose. C'est le moyen le plus simple de l'installer et c'est le plus sécurisé.
Pour une meilleure sécurité, je recommande fortement de déployer l'API dans un conteneur séparé que celui de Crowler. De plus, il n'est pas nécessaire d'exposer le conteneur Crowler au monde extérieur, il faudra une réflexion sur Internet.
La configuration par défaut de Crowler utilise PostgreSQL comme base de données. La base de données est stockée dans un volume Docker et est persistante.
La base de données ne doit avoir besoin de l'entretien, le Crowler s'en occupera. Chaque fois qu'il n'y a pas d'activité de rampe et qu'il est passé à 1 heure de l'activité de maintenance précédente, le Crowler nettoiera la base de données et optimisera les index.
Le Crowler est autorisé sous la licence Apache 2.0. Pour plus d'informations, consultez le fichier de licence.
Si vous souhaitez contribuer au projet, veuillez lire le fichier contributif.
Le Crowler a adopté le Code de conduite de l'alliance des contributeurs. Pour plus d'informations, consultez le fichier code_of_conduct.
Le Crowler est construit sur de nombreux projets open-source, et je tiens à remercier tous les développeurs qui ont contribué à ces projets. Sans eux, le Crowler ne serait pas possible.
De plus, je tiens à remercier les personnes qui m'aident avec le projet, soit en contribuant au code, en le testant, soit en fournissant des commentaires. Merci à tous!
Le Crowler est un outil conçu pour vous aider à ramper les sites Web de manière respectueuse. Cependant, c'est à vous de l'utiliser de manière respectueuse. Le Crowler n'est pas responsable de toute utilisation abusive de l'outil.