Elasticsearch Cluster состоит из 2 экземпляра Elasticsearch для балансировки HA и нагрузки. Сброшенные данные страницы хранятся и ищют.
Он работает на порту 5601 и может использоваться для проверки данных в Elasticsearch
Веб -интерфейс для поисковой системы домена. Он работает на порту 7000
Он хранит домены, URL -адреса страниц, адреса биткойнов и т. Д.
Используется для доступа к страницам лука. Развертывается 10 контейнеров по доверенности, и HAPROXY используется для распределения трафика.
Он получает список доменов от MySQL DB, страниц сбора урожая и новых доменов из луковых доменов через прокси TOR и хранит домены и данные страниц в Elasticsearch и MySQL. На основе рамки скраски Python.
Клонировать проект и построить изображения Docker, участвующие в Docker-Compose.
docker-compose build
docker-compose up -d
Стройте и запустите скребок.
docker build --tag scraper_crawler ./
Запустить скребок.
docker run -d --name darkweb-search-engine-onion-crawler --network=darkweb-search-engine_default scraper_crawler /opt/torscraper/scripts/start_onion_scrapy.sh
После первого развертывания необходимо инициализировать индексы на Elasticsearch.
docker exec darkweb-search-engine-onion-crawler /opt/torscraper/scripts/elasticsearch_migrate.sh
Импорт начальный список доменов
docker exec darkweb-search-engine-onion-crawler /opt/torscraper/scripts/push_list.sh /opt/torscraper/onions_list/onions.txt &