Elasticsearch Cluster consiste em 2 instância de pesquisa de elasticse para HA e balanceamento de carga. Os dados da página descartada são armazenados e pesquisados.
Ele é executado na porta 5601 e pode ser usado para verificar os dados no Elasticsearch
A interface da web para mecanismo de pesquisa de domínio. É executado na porta 7000
Ele armazena os domínios, URLs de página, endereços de bitcoin, etc.
Usado para acessar as páginas de cebola. Existem 10 contêineres de proxy implantados e o Haproxy é usado para distribuir o tráfego.
Ele obtém a lista de domínio de MySQL DB, páginas de colheita e novos domínios de domínios de cebola através de proxies e armazena os domínios e dados da página no Elasticsearch e MySQL. Com base na estrutura de scrapy Python.
Clone o projeto e construa imagens do Docker envolvidas no Docker-Comppose.
docker-compose build
docker-compose up -d
Construa e execute o raspador.
docker build --tag scraper_crawler ./
Execute o raspador.
docker run -d --name darkweb-search-engine-onion-crawler --network=darkweb-search-engine_default scraper_crawler /opt/torscraper/scripts/start_onion_scrapy.sh
Após a primeira implantação, precisa inicializar os índices no Elasticsearch.
docker exec darkweb-search-engine-onion-crawler /opt/torscraper/scripts/elasticsearch_migrate.sh
Importar lista de domínio inicial
docker exec darkweb-search-engine-onion-crawler /opt/torscraper/scripts/push_list.sh /opt/torscraper/onions_list/onions.txt &