Status Proyek: Masih dalam Pengembangan Aktif! Namun, sebagian besar sudah dapat digunakan. Penguji Alpha Selamat datang! Statistik lengkap tentang pekerjaan sehari -hari di sini.
Harap dicatat : Ini adalah repo resmi baru untuk proyek ini, repositori C ++ dan karat lama sekarang ditutup dan tidak lagi tersedia/dipelihara. Harap gunakan yang ini untuk pengembangan baru.
The Crowler adalah perayap web yang kaya open-source, kaya fitur yang dirancang dengan filosofi unik pada intinya: agar selembut dan noise serendah mungkin. Dengan kata lain, Crowler mencoba menonjol dengan memastikan dampak minimal pada situs web yang dirayapi sambil memaksimalkan kenyamanan bagi penggunanya.
Selain itu, sistem ini dilengkapi dengan API, menyediakan antarmuka yang ramping untuk kueri data. Fitur ini memastikan integrasi yang mudah dan akses ke data yang diindeks untuk berbagai aplikasi.
Crowler dirancang untuk berbasis layanan mikro, sehingga dapat dengan mudah digunakan di lingkungan yang berkontak.
Untuk informasi lebih lanjut tentang fitur, lihat halaman fitur.
Crowler dirancang untuk memecahkan serangkaian masalah tentang merangkak web, penemuan konten, deteksi teknologi, dan ekstraksi data.
Meskipun tujuan utama adalah untuk memungkinkan pengguna pribadi, profesional, dan perusahaan untuk dengan cepat mengembangkan solusi penemuan konten mereka, itu juga dirancang untuk dapat merangkak jaringan pribadi dan intranet, sehingga Anda dapat menggunakannya untuk membuat mesin pencari perusahaan Anda atau perusahaan Anda.
Selain itu, ini juga dapat digunakan sebagai "basis" untuk alat keamanan cyber yang lebih kompleks, karena dapat digunakan untuk mengumpulkan informasi tentang situs web, jaringannya, pemiliknya, kerentanan, layanan mana yang diekspos dll.
Mengingat itu juga dapat mengekstraksi informasi, dapat digunakan untuk membuat basis pengetahuan dengan mengacu pada sumber, atau untuk membuat database informasi tentang topik tertentu.
Jelas, ini juga dapat digunakan untuk melakukan analisis kata kunci, deteksi bahasa, dll. Tapi ini adalah sesuatu yang dapat digunakan setiap perayap. Namun semua fitur "klasik" diimplementasikan/diimplementasikan.
: Diucapkan sebagai / ðə / ketika sebelum suara konsonan, kedengarannya seperti "thuh."
Crow : Diucapkan sebagai /Kroʊ /, sajak dengan "tahu" atau "salju."
Ler : Bagian terakhir diucapkan sebagai /lər /, mirip dengan akhir kata "crawler" atau kata "ler" dalam "tumbler."
Menyatukan semuanya, kedengarannya seperti " Thuh Kroh-lər "
"Crowler bukan hanya alat; ini adalah komitmen untuk merangkak web etis, efisien, dan efektif. Apakah Anda melakukan penelitian akademik, analisis pasar, atau meningkatkan postur cybersecurity Anda, Crowler memberikan dengan integritas dan presisi.
Bergabunglah dengan kami dalam mendefinisikan kembali standar perayapan web. Jelajahi lebih banyak dan berkontribusi pada perjalanan Crowler menuju eksplorasi digital yang lebih hormat dan berwawasan luas. "
? Itu jelas sedikit di atas, tapi itu menyenangkan dan saya memutuskan untuk memasukkannya ke sini, hanya untuk bersenang -senang. BTW itu membuat saya jatuh seperti yang ingin saya tambahkan:
"... dan ada satu hal lagi!" (Kenapa ya?!?!) ?
Crowler dirancang untuk berbasis layanan mikro, jadi Anda harus menginstal yang berikut:
Untuk instalasi berbasis Docker Compose, hanya itu yang Anda butuhkan. Jika Anda memiliki Docker dan Docker Compose terpasang, Anda dapat melewatkan bagian berikutnya dan langsung ke bagian pemasangan .
Cara termudah untuk menginstal Crowler adalah dengan menggunakan file Docker Compose. Untuk melakukannya, ikuti instruksi di sini.
Harap dicatat (1) : Jika Anda memiliki pertanyaan tentang config.yaml atau vars env, atau aturan dll, Anda dapat menggunakan chatbot GPT untuk membantu Anda. Buka saja tautan ini di sini (tersedia secara bebas untuk semua orang)
Harap dicatat (2) : Jika Anda menjalankan Crowler di Raspberry Pi, Anda harus membangun Crowler untuk platform arm64 . Untuk melakukannya, cara yang lebih mudah adalah membangun Crowler dengan skrip docker-build.sh langsung di Raspberry Pi.
Jika, sebaliknya, Anda berencana untuk memasang Crowler secara manual, Anda harus memasang wadah Docker berikut:
Wadah PostgreSQL
Juga harap dicatat: Crowler akan membutuhkan gambar VDI -nya untuk dibangun, jadi Anda harus membangun gambar VDI juga.
Jika Anda menggunakan Docker Compose maka semuanya akan dibangun secara otomatis, yang perlu Anda lakukan adalah mengikuti instruksi di bagian instalasi.
Jika, sebaliknya Anda ingin membangun secara lokal di mesin Anda, kemudian ikuti instruksi di bagian ini.
Untuk membangun Crowler dari sumber, Anda harus menginstal yang berikut:
Maka Anda harus mengkloning repositori dan membangun target yang Anda butuhkan.
Untuk membangun semuanya sekaligus jalankan perintah berikut:
./autobuild.shUntuk membangun target individu:
Pertama, periksa target mana yang dapat dibangun dan tersedia, jalankan perintah berikut:
./autobuild name-of-the-target Ini akan membangun komponen yang Anda minta di ./bin
./bin/removeSite
./bin/addSite
./bin/addCategory
./bin/api
./bin/thecrowler Bangun mereka sesuai kebutuhan, atau jalankan autobuild.sh (tidak ada argumen) untuk membangun semuanya.
Secara opsional Anda dapat membangun gambar Docker, untuk menjalankan perintah berikut:
docker build -t < image name > .Catatan : Jika Anda membangun wadah Docker Engine Crowler, ingatlah untuk menjalankannya dengan perintah Docker berikut (diperlukan!)
docker run -it --rm --cap-add=NET_ADMIN --cap-add=NET_RAW crowler_engineCatatan Penting : Jika Anda membangun dari sumber, Anda masih perlu membangun citra Crowler VDI Docker, yang diperlukan karena Crowler menggunakan banyak alat eksternal untuk melakukan pekerjaannya dan semua alat tersebut dikelompokkan dan dibangun dalam gambar VDI (gambar desktop virtual).
Untuk instruksi tentang cara menggunakannya lihat di sini.
Jika Anda ingin menggunakan Crowler dalam produksi, saya sarankan untuk menggunakan instalasi Docker Compose. Ini cara termudah untuk menginstalnya dan ini yang paling aman.
Untuk keamanan yang lebih baik, saya sangat merekomendasikan untuk menggunakan API dalam wadah terpisah dari yang Crowler. Juga, tidak perlu mengekspos wadah Crowler ke dunia luar, itu akan membutuhkan pemikiran akses internet.
Konfigurasi default Crowler menggunakan PostgreSQL sebagai basis data. Basis data disimpan dalam volume Docker dan persisten.
DB seharusnya tidak membutuhkan pemeliharaan, Crowler akan mengurusnya. Setiap kali tidak ada aktivitas merangkak dan berlalu 1 jam dari aktivitas pemeliharaan sebelumnya, Crowler akan membersihkan database dan mengoptimalkan indeks.
Crowler dilisensikan di bawah lisensi Apache 2.0. Untuk informasi lebih lanjut, lihat file lisensi.
Jika Anda ingin berkontribusi pada proyek, silakan baca file yang berkontribusi.
Crowler telah mengadopsi Kode Perilaku Perjanjian Kontributor. Untuk informasi lebih lanjut, lihat file code_of_conduct.
Crowler dibangun di atas banyak proyek open-source, dan saya ingin mengucapkan terima kasih kepada semua pengembang yang berkontribusi pada proyek-proyek tersebut. Tanpa mereka, Crowler tidak akan mungkin.
Juga, saya ingin berterima kasih kepada orang -orang yang membantu saya dengan proyek ini, baik dengan menyumbangkan kode, dengan mengujinya, atau dengan memberikan umpan balik. Terima kasih semuanya!
Crowler adalah alat yang dirancang untuk membantu Anda merangkak dengan cara yang penuh hormat. Namun, terserah Anda untuk menggunakannya dengan cara yang penuh hormat. Crowler tidak bertanggung jawab atas penyalahgunaan alat ini.