Elasticsearch Cluster besteht aus 2 Elasticsearch -Instanz für HA und Lastausgleich. Die verschrotteten Seitendaten werden gespeichert und gesucht.
Es wird auf Port 5601 ausgeführt und kann verwendet werden, um die Daten in Elasticsearch zu überprüfen
Die Webschnittstelle für Domänensuchmaschine. Es läuft auf Port 7000
Es speichert die Domänen, Seiten -URLs, Bitcoin -Adressen usw.
Wird verwendet, um auf die Zwiebelseiten zuzugreifen. Es sind 10 Proxy -Container bereitgestellt und Haproxy wird verwendet, um den Verkehr zu verteilen.
Es wird die Domänenliste von MySQL DB, Harvest Pages und neuen Domänen von Zwiebeldomänen über TOR -Proxies erhalten und speichert die Domänen und Seitendaten in Elasticsearch und MySQL. Basierend auf Python Scrapy Framework.
Klonen Sie das Projekt und erstellen Sie Docker-Bilder, die an Docker-Compose beteiligt sind.
docker-compose build
docker-compose up -d
Bauen und führen Sie den Schaber aus.
docker build --tag scraper_crawler ./
Führen Sie den Schaber aus.
docker run -d --name darkweb-search-engine-onion-crawler --network=darkweb-search-engine_default scraper_crawler /opt/torscraper/scripts/start_onion_scrapy.sh
Nach der ersten Bereitstellung müssen die Indizes für Elasticsearch initialisieren.
docker exec darkweb-search-engine-onion-crawler /opt/torscraper/scripts/elasticsearch_migrate.sh
Importieren Sie die erste Domänenliste
docker exec darkweb-search-engine-onion-crawler /opt/torscraper/scripts/push_list.sh /opt/torscraper/onions_list/onions.txt &