thecrowler Download - thecrowler Quellcode Download

thecrowler

Anderer Quellcode

1.0.0

Herunterladen

Der Crowler

Projektstatus: Immer noch unter aktiver Entwicklung! Das meiste davon ist jedoch bereits verwendbar. Alpha -Tester willkommen! Vollständige Statistiken zur täglichen Arbeit hier.

Bitte beachten Sie : Dies ist das neue offizielle Repo für das Projekt. Die alten C ++ und Rost -Repositories sind jetzt geschlossen und nicht mehr verfügbar/gewartet. Bitte verwenden Sie diese für jede neue Entwicklung.

Was ist das?

Der Crowler ist eine Open-Source-Feature-Rich-Web-Crawlerin mit einer einzigartigen Philosophie im Kern: so sanft und niedrig wie möglich zu sein. Mit anderen Worten, der Crowler versucht, sich herauszufinden, indem er minimale Auswirkungen auf die von ihm kriechenden Websites sicherstellt und gleichzeitig die Bequemlichkeit für seine Benutzer maximiert.

Darüber hinaus ist das System mit einer API ausgestattet und bietet eine optimierte Schnittstelle für Datenabfragen. Diese Funktion gewährleistet eine einfache Integration und den Zugriff auf indexierte Daten für verschiedene Anwendungen.

Der Crowler ist so konzipiert, dass er Mikrodienste basiert, sodass er problemlos in einer Containerumgebung eingesetzt werden kann.

Inhaltsverzeichnis

Merkmale
Welches Problem löst es?
Wie spreche ich den Namen aus?
Wie benutze ich es?
- Voraussetzungen
- Installation
  - Einfache Installation und Bereitstellung
  - Wenn Sie vorhaben, es manuell zu installieren
  - Aus der Quelle bauen
Produktion
DB -Wartung
Lizenz
Beitragen
Verhaltenskodex
Anerkennung
Haftungsausschluss
Top -Mitwirkende

Merkmale

Low-Noise : Der Crowler ist so sanft wie möglich, wenn Sie Websites kriechen. Es respektiert Robots.txt und soll versuchen, als menschlicher Benutzer auf den Websites zu erscheinen, die es kriecht.
Anpassbares Krabbeln : Schneidern Sie Ihr Kriechfahrerlebnis wie nie zuvor. Geben Sie URLs an und konfigurieren Sie einzelne Kriechparameter so, dass sie Ihren genauen Anforderungen entsprechen. Egal, ob es sich um eine einzelne Seite oder eine expansive Domäne handelt, der Crowler passt sich Ihrem Geltungsbereich mit unübertroffener Flexibilität an.
Umfangsvariabilität : Definieren Sie Ihre Krabbelgrenzen mit Präzision. Wählen Sie aus:
- Singular URL Crawling
- Domänenweites Krabbeln (Kombination von L3-, L2- und L1-Domänen)
- L2 und L1 Domain Crawling
- L1 Domain Crawling (z. B. alles innerhalb ".com")
- Voller rekursiver Krabbel, der sich über die anfänglichen Grenzen hinaus wagt, um verbundene URLs zu erkunden
Erweiterte Erkennungsfunktionen : Entdecken Sie eine Fülle von Informationen mit Funktionen, die über das grundlegende Kriechen hinausgehen:
- URL- und Inhaltsfindung
- Seiteninhalt, Metadaten und und mehr
- Schlüsselwörteranalysen und Spracherkennung
- Aufschlussreiche HTTP-Header, Netzwerkinformationen, WHOIs, DNS und Geo-Localization-Daten
Anspruchsvoller Regeln : Um Regeln basierende Aktivitäten und logische Anpassungen zu nutzen, bietet der Crowler:
- Abkratzen von Regeln: Genau extrahieren, was Sie von Websites benötigen
- Aktionsregeln: Um dynamischer mit Websites zu interagieren
- Erkennungsregeln: Identifizieren bestimmter Muster oder Elemente auf einer Seite, verwendeten Technologien usw.
- Kriechungsregeln: Definieren Sie, wie sich der Crawler in verschiedenen Situationen verhalten sollte (zum Beispiel rekursiv und nicht rekursives Krabbeln, Fuzzing usw.)
Leistungsstarke Suchmaschinenintegration : Verwenden Sie eine API-gesteuerte Suchmaschine, die mit Dorking-Funktionen und umfassender Inhaltssuche ausgestattet ist und neue Wege für die Datenanalyse und den Einblick eröffnet.

Weitere Informationen zu den Funktionen finden Sie auf der Seite Funktionen.

Welches Problem löst es?

Der Crowler wurde entwickelt, um eine Reihe von Problemen in Bezug auf Web -Crawling, Inhaltserkennung, Technologieerkennung und Datenextraktion zu lösen.

Das Hauptziel ist es, private, professionelle und Unternehmensbenutzer ihre Inhaltskommunikationslösungen schnell zu entwickeln, aber es ist auch so konzipiert, dass es in der Lage ist, private Netzwerke und Intranets zu kriechen, damit Sie sie verwenden können, um Ihre eigene oder Ihre Firmensuchmaschine zu erstellen.

Darüber hinaus kann es auch als "Basis" für ein komplexeres Cyber -Sicherheitstool verwendet werden, da es verwendet werden kann, um Informationen über eine Website, ihr Netzwerk, seine Eigentümer und Schwachstellen zu sammeln, die Dienste ausgesetzt werden usw.

Da es auch Informationen extrahieren kann, kann es verwendet werden, um Wissensbasis unter Bezugnahme auf die Quellen zu erstellen oder eine Datenbank mit Informationen zu einem bestimmten Thema zu erstellen.

Offensichtlich kann es auch verwendet werden, um Keywords -Analysen, Spracherkennung usw. durchzuführen. Dies ist jedoch etwas, für das jeder einzelne Crawler verwendet werden kann. Alle "klassischen" Funktionen werden jedoch implementiert/implementiert.

Wie spreche ich den Namen aus?

Das : ausgesprochen als / ðə / wenn vor einem Konsonanten -Sound, es klingt wie "thuh".

Krähe : ausgesprochen als /kroʊ /, reimt sich mit "wissen" oder "Schnee".

LER : Der letztere Teil wird als /lər /ausgesprochen, ähnlich wie das Ende des Wortes "Crawler" oder das Wort "ler" in "Tumbler".

Wenn Sie alles zusammenstellen, klingt es wie " Thuh kroh-lər "

Was Chatgpt über den Crowler denkt;)

"Der Crowler ist nicht nur ein Werkzeug. Es ist ein Engagement für ethische, effiziente und effektive Web -Crawling. Ob Sie akademische Forschung, Marktanalyse durchführen oder Ihre Cybersicherheitsstelle verbessern, liefert der Crowler mit Integrität und Präzision.

Definiere die Standards des Web -Crawling -Standards neu. Erforschen Sie mehr und tragen Sie zur Reise des Crowlers zu einer respektvolleren und aufschlussreicheren digitalen Erkundung bei. "

? Das ist eindeutig ein bisschen übertrieben, aber es hat Spaß gemacht und ich beschloss, es hier aufzunehmen, nur zum Spaß. Übrigens lässt mich so fallen, als ob ich hinzufügen möchte:

"... und es gibt noch etwas!" (Ich frage mich, warum?!?!)?

Wie benutze ich es?

Voraussetzungen

Der Crowler ist so konzipiert, dass Sie Mikrodienste basieren, sodass Sie Folgendes installieren müssen:

Docker
Docker komponieren

Für eine Docker -komponebasierte Installation ist dies alles, was Sie brauchen. Wenn Docker und Docker Compose installiert sind, können Sie den nächsten Abschnitt überspringen und direkt zum Installationsabschnitt gehen.

Installation

1. Einfache Installation und Bereitstellung

Der einfachste Weg , den Crowler zu installieren, besteht darin, die Docker -Komponierungsdatei zu verwenden. Befolgen Sie dazu die Anweisungen hier.

Bitte beachten Sie (1) : Wenn Sie Fragen zu config.yaml oder den Env -Vars oder dem Regeln usw. haben, können Sie den GPT -Chatbot verwenden, um Ihnen zu helfen. Gehen Sie einfach hier zu diesem Link (er ist für alle frei verfügbar)

Bitte beachten Sie (2) : Wenn Sie den Crowler auf einem Raspberry Pi laufen lassen, müssen Sie den Crowler für die arm64 -Plattform bauen. Um dies zu tun, ist es einfacher, den Crowler mit dem Skript docker-build.sh direkt auf dem Raspberry Pi aufzubauen.

2. Wenn Sie vorhaben, es manuell zu installieren

Wenn Sie stattdessen vorhaben, den Crowler manuell zu installieren, müssen Sie den folgenden Docker -Container installieren:

PostgreSQL Container
- Postgres 15 UP (für Arm und X86) werden momentan unterstützt.
- Führen Sie das DB -Schema -Setup -Skript darauf aus (überprüfen Sie den Abschnitt des DB -Schemas mit den Benutzeranmeldeinformationen und stellen Sie diese SQL -Variablen korrekt fest).
BITTE BITTE BITTE: Der Crowler muss sein VDI -Bild erstellen, sodass Sie auch das VDI -Bild erstellen müssen.

Aus der Quelle bauen

Wenn Sie den Docker -Komponieren verwenden, wird automatisch alles erstellt. Sie müssen lediglich den Anweisungen im Installationsabschnitt folgen.

Wenn Sie stattdessen lokal auf Ihrer Maschine bauen möchten, befolgen Sie die Anweisungen in diesem Abschnitt.

Um den Crowler aus der Quelle zu bauen, müssen Sie Folgendes installieren:

Gehen

Dann müssen Sie das Repository klonen und die von Ihnen benötigten Ziele erstellen.

Um alles auf einmal zu erstellen, führen Sie den folgenden Befehl aus:

./autobuild.sh

Einzelne Ziele aufbauen:

Überprüfen Sie zunächst, welche Ziele erstellt und verfügbar sind. Führen Sie den folgenden Befehl aus:

./autobuild name-of-the-target

Dadurch wird Ihre angeforderte Komponente in ./bin aufgebaut

./bin/removeSite
./bin/addSite
./bin/addCategory
./bin/api
./bin/thecrowler

Erstellen Sie sie so, wie Sie sie brauchen, oder führen Sie das autobuild.sh (keine Argumente) aus, um sie alle zu bauen.

Optional können Sie das Docker -Bild erstellen, um den folgenden Befehl auszuführen:

docker build -t < image name > .

Hinweis : Wenn Sie den Crowler Engine -Docker -Container bauen, denken Sie daran, ihn mit dem folgenden Docker -Befehl auszuführen (es ist erforderlich!)

docker run -it --rm --cap-add=NET_ADMIN --cap-add=NET_RAW crowler_engine

Wichtiger Hinweis : Wenn Sie aus der Quelle erstellen, müssen Sie weiterhin ein Crowler -VDI -Docker -Bild erstellen, das benötigt wird, da der Crowler eine Reihe externer Tools verwendet, um seinen Job zu erledigen, und all diese Tools werden in VDI -Bild (virtuelles Desktop -Bild) gruppiert und integriert.

Verwendung

Für Anweisungen zum Gebrauch hier siehe hier.

Produktion

Wenn Sie den Crowler in der Produktion verwenden möchten, empfehle ich, die Docker Compose -Installation zu verwenden. Es ist der einfachste Weg, es zu installieren, und es ist das sicherste.

Für eine bessere Sicherheit empfehle ich dringend, die API in einem separaten Container als der Crowler -Einsatz bereitzustellen. Außerdem besteht nicht erforderlich, den Crowler -Container der Außenwelt auszusetzen, es muss Internetzugang zugänglich sein.

DB -Wartung

Die Crowler -Standardkonfiguration verwendet PostgreSQL als Datenbank. Die Datenbank ist in einem Docker -Volumen gespeichert und ist hartnäckig.

Die DB sollte keine Wartung benötigen, der Crowler wird sich darum kümmern. Jedes Mal, wenn es keine Krabbelaktivität gibt und es 1 Stunden nach der vorherigen Wartungsaktivität überholt wird, wird der Crowler die Datenbank bereinigt und die Indizes optimieren.

Lizenz

Der Crowler ist unter der Apache 2.0 -Lizenz lizenziert. Weitere Informationen finden Sie in der Lizenzdatei.

Beitragen

Wenn Sie zum Projekt beitragen möchten, lesen Sie bitte die beitragende Datei.

Verhaltenskodex

Der Crowler hat den Verhaltenskodex von Mitwirkenden übernommen. Weitere Informationen finden Sie in der Datei code_of_conduct.

Anerkennung

Der Crowler basiert auf vielen Open-Source-Projekten, und ich möchte allen Entwicklern danken, die zu diesen Projekten beigetragen haben. Ohne sie wäre der Crowler nicht möglich.

Außerdem möchte ich mich bei den Leuten danken, die mir beim Projekt helfen, entweder durch den Beitrag zu Code, durch Testen oder durch Feedback. Vielen Dank!

Haftungsausschluss

Der Crowler ist ein Tool, das Ihnen dabei helfen soll, Websites auf respektvolle Weise zu kriechen. Es liegt jedoch an Ihnen, es respektvoll zu verwenden. Der Crowler ist nicht für den Missbrauch des Werkzeugs verantwortlich.

Top -Mitwirkende

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-03-11
Größe 1.41MB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

thecrowler

Der Crowler

Was ist das?

Inhaltsverzeichnis

Merkmale

Welches Problem löst es?

Wie spreche ich den Namen aus?

Was Chatgpt über den Crowler denkt;)

Wie benutze ich es?

Voraussetzungen

Installation

1. Einfache Installation und Bereitstellung

2. Wenn Sie vorhaben, es manuell zu installieren

Aus der Quelle bauen

Verwendung

Produktion

DB -Wartung

Lizenz

Beitragen

Verhaltenskodex

Anerkennung

Haftungsausschluss

Top -Mitwirkende

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express