Projektstatus: Immer noch unter aktiver Entwicklung! Das meiste davon ist jedoch bereits verwendbar. Alpha -Tester willkommen! Vollständige Statistiken zur täglichen Arbeit hier.
Bitte beachten Sie : Dies ist das neue offizielle Repo für das Projekt. Die alten C ++ und Rost -Repositories sind jetzt geschlossen und nicht mehr verfügbar/gewartet. Bitte verwenden Sie diese für jede neue Entwicklung.
Der Crowler ist eine Open-Source-Feature-Rich-Web-Crawlerin mit einer einzigartigen Philosophie im Kern: so sanft und niedrig wie möglich zu sein. Mit anderen Worten, der Crowler versucht, sich herauszufinden, indem er minimale Auswirkungen auf die von ihm kriechenden Websites sicherstellt und gleichzeitig die Bequemlichkeit für seine Benutzer maximiert.
Darüber hinaus ist das System mit einer API ausgestattet und bietet eine optimierte Schnittstelle für Datenabfragen. Diese Funktion gewährleistet eine einfache Integration und den Zugriff auf indexierte Daten für verschiedene Anwendungen.
Der Crowler ist so konzipiert, dass er Mikrodienste basiert, sodass er problemlos in einer Containerumgebung eingesetzt werden kann.
Weitere Informationen zu den Funktionen finden Sie auf der Seite Funktionen.
Der Crowler wurde entwickelt, um eine Reihe von Problemen in Bezug auf Web -Crawling, Inhaltserkennung, Technologieerkennung und Datenextraktion zu lösen.
Das Hauptziel ist es, private, professionelle und Unternehmensbenutzer ihre Inhaltskommunikationslösungen schnell zu entwickeln, aber es ist auch so konzipiert, dass es in der Lage ist, private Netzwerke und Intranets zu kriechen, damit Sie sie verwenden können, um Ihre eigene oder Ihre Firmensuchmaschine zu erstellen.
Darüber hinaus kann es auch als "Basis" für ein komplexeres Cyber -Sicherheitstool verwendet werden, da es verwendet werden kann, um Informationen über eine Website, ihr Netzwerk, seine Eigentümer und Schwachstellen zu sammeln, die Dienste ausgesetzt werden usw.
Da es auch Informationen extrahieren kann, kann es verwendet werden, um Wissensbasis unter Bezugnahme auf die Quellen zu erstellen oder eine Datenbank mit Informationen zu einem bestimmten Thema zu erstellen.
Offensichtlich kann es auch verwendet werden, um Keywords -Analysen, Spracherkennung usw. durchzuführen. Dies ist jedoch etwas, für das jeder einzelne Crawler verwendet werden kann. Alle "klassischen" Funktionen werden jedoch implementiert/implementiert.
Das : ausgesprochen als / ðə / wenn vor einem Konsonanten -Sound, es klingt wie "thuh".
Krähe : ausgesprochen als /kroʊ /, reimt sich mit "wissen" oder "Schnee".
LER : Der letztere Teil wird als /lər /ausgesprochen, ähnlich wie das Ende des Wortes "Crawler" oder das Wort "ler" in "Tumbler".
Wenn Sie alles zusammenstellen, klingt es wie " Thuh kroh-lər "
"Der Crowler ist nicht nur ein Werkzeug. Es ist ein Engagement für ethische, effiziente und effektive Web -Crawling. Ob Sie akademische Forschung, Marktanalyse durchführen oder Ihre Cybersicherheitsstelle verbessern, liefert der Crowler mit Integrität und Präzision.
Definiere die Standards des Web -Crawling -Standards neu. Erforschen Sie mehr und tragen Sie zur Reise des Crowlers zu einer respektvolleren und aufschlussreicheren digitalen Erkundung bei. "
? Das ist eindeutig ein bisschen übertrieben, aber es hat Spaß gemacht und ich beschloss, es hier aufzunehmen, nur zum Spaß. Übrigens lässt mich so fallen, als ob ich hinzufügen möchte:
"... und es gibt noch etwas!" (Ich frage mich, warum?!?!)?
Der Crowler ist so konzipiert, dass Sie Mikrodienste basieren, sodass Sie Folgendes installieren müssen:
Für eine Docker -komponebasierte Installation ist dies alles, was Sie brauchen. Wenn Docker und Docker Compose installiert sind, können Sie den nächsten Abschnitt überspringen und direkt zum Installationsabschnitt gehen.
Der einfachste Weg , den Crowler zu installieren, besteht darin, die Docker -Komponierungsdatei zu verwenden. Befolgen Sie dazu die Anweisungen hier.
Bitte beachten Sie (1) : Wenn Sie Fragen zu config.yaml oder den Env -Vars oder dem Regeln usw. haben, können Sie den GPT -Chatbot verwenden, um Ihnen zu helfen. Gehen Sie einfach hier zu diesem Link (er ist für alle frei verfügbar)
Bitte beachten Sie (2) : Wenn Sie den Crowler auf einem Raspberry Pi laufen lassen, müssen Sie den Crowler für die arm64 -Plattform bauen. Um dies zu tun, ist es einfacher, den Crowler mit dem Skript docker-build.sh direkt auf dem Raspberry Pi aufzubauen.
Wenn Sie stattdessen vorhaben, den Crowler manuell zu installieren, müssen Sie den folgenden Docker -Container installieren:
PostgreSQL Container
BITTE BITTE BITTE: Der Crowler muss sein VDI -Bild erstellen, sodass Sie auch das VDI -Bild erstellen müssen.
Wenn Sie den Docker -Komponieren verwenden, wird automatisch alles erstellt. Sie müssen lediglich den Anweisungen im Installationsabschnitt folgen.
Wenn Sie stattdessen lokal auf Ihrer Maschine bauen möchten, befolgen Sie die Anweisungen in diesem Abschnitt.
Um den Crowler aus der Quelle zu bauen, müssen Sie Folgendes installieren:
Dann müssen Sie das Repository klonen und die von Ihnen benötigten Ziele erstellen.
Um alles auf einmal zu erstellen, führen Sie den folgenden Befehl aus:
./autobuild.shEinzelne Ziele aufbauen:
Überprüfen Sie zunächst, welche Ziele erstellt und verfügbar sind. Führen Sie den folgenden Befehl aus:
./autobuild name-of-the-target Dadurch wird Ihre angeforderte Komponente in ./bin aufgebaut
./bin/removeSite
./bin/addSite
./bin/addCategory
./bin/api
./bin/thecrowler Erstellen Sie sie so, wie Sie sie brauchen, oder führen Sie das autobuild.sh (keine Argumente) aus, um sie alle zu bauen.
Optional können Sie das Docker -Bild erstellen, um den folgenden Befehl auszuführen:
docker build -t < image name > .Hinweis : Wenn Sie den Crowler Engine -Docker -Container bauen, denken Sie daran, ihn mit dem folgenden Docker -Befehl auszuführen (es ist erforderlich!)
docker run -it --rm --cap-add=NET_ADMIN --cap-add=NET_RAW crowler_engineWichtiger Hinweis : Wenn Sie aus der Quelle erstellen, müssen Sie weiterhin ein Crowler -VDI -Docker -Bild erstellen, das benötigt wird, da der Crowler eine Reihe externer Tools verwendet, um seinen Job zu erledigen, und all diese Tools werden in VDI -Bild (virtuelles Desktop -Bild) gruppiert und integriert.
Für Anweisungen zum Gebrauch hier siehe hier.
Wenn Sie den Crowler in der Produktion verwenden möchten, empfehle ich, die Docker Compose -Installation zu verwenden. Es ist der einfachste Weg, es zu installieren, und es ist das sicherste.
Für eine bessere Sicherheit empfehle ich dringend, die API in einem separaten Container als der Crowler -Einsatz bereitzustellen. Außerdem besteht nicht erforderlich, den Crowler -Container der Außenwelt auszusetzen, es muss Internetzugang zugänglich sein.
Die Crowler -Standardkonfiguration verwendet PostgreSQL als Datenbank. Die Datenbank ist in einem Docker -Volumen gespeichert und ist hartnäckig.
Die DB sollte keine Wartung benötigen, der Crowler wird sich darum kümmern. Jedes Mal, wenn es keine Krabbelaktivität gibt und es 1 Stunden nach der vorherigen Wartungsaktivität überholt wird, wird der Crowler die Datenbank bereinigt und die Indizes optimieren.
Der Crowler ist unter der Apache 2.0 -Lizenz lizenziert. Weitere Informationen finden Sie in der Lizenzdatei.
Wenn Sie zum Projekt beitragen möchten, lesen Sie bitte die beitragende Datei.
Der Crowler hat den Verhaltenskodex von Mitwirkenden übernommen. Weitere Informationen finden Sie in der Datei code_of_conduct.
Der Crowler basiert auf vielen Open-Source-Projekten, und ich möchte allen Entwicklern danken, die zu diesen Projekten beigetragen haben. Ohne sie wäre der Crowler nicht möglich.
Außerdem möchte ich mich bei den Leuten danken, die mir beim Projekt helfen, entweder durch den Beitrag zu Code, durch Testen oder durch Feedback. Vielen Dank!
Der Crowler ist ein Tool, das Ihnen dabei helfen soll, Websites auf respektvolle Weise zu kriechen. Es liegt jedoch an Ihnen, es respektvoll zu verwenden. Der Crowler ist nicht für den Missbrauch des Werkzeugs verantwortlich.