Elasticsearch Cluster terdiri dari 2 contoh Elasticsearch untuk HA dan balancing beban. Data halaman yang dihapus disimpan dan dicari.
Ini berjalan di port 5601 dan dapat digunakan untuk memeriksa data di Elasticsearch
Antarmuka web untuk mesin pencari domain. Itu berjalan di port 7000
Ini menyimpan domain, URL halaman, alamat bitcoin, dll.
Digunakan untuk mengakses halaman bawang. Ada 10 wadah proxy yang digunakan dan Haproxy digunakan untuk mendistribusikan lalu lintas.
Ini mendapatkan daftar domain dari MySQL DB, halaman panen dan domain baru dari domain Onion melalui proxy Tor dan menyimpan domain dan data halaman di Elasticsearch dan MySQL. Berdasarkan kerangka kerja Python Scrapy.
Klon proyek dan membangun gambar Docker yang terlibat dalam komposisi Docker.
docker-compose build
docker-compose up -d
Bangun dan jalankan scraper.
docker build --tag scraper_crawler ./
Jalankan scraper.
docker run -d --name darkweb-search-engine-onion-crawler --network=darkweb-search-engine_default scraper_crawler /opt/torscraper/scripts/start_onion_scrapy.sh
Setelah penyebaran pertama, perlu menginisialisasi indeks pada Elasticsearch.
docker exec darkweb-search-engine-onion-crawler /opt/torscraper/scripts/elasticsearch_migrate.sh
Impor Daftar Domain Awal
docker exec darkweb-search-engine-onion-crawler /opt/torscraper/scripts/push_list.sh /opt/torscraper/onions_list/onions.txt &