Xxl-crawler
XXL-CRAWLER, kerangka crawler web terdistribusi.
-Halaman Beranda-
Perkenalan
XXL-Crawler adalah kerangka perayap web terdistribusi. Satu baris kode mengembangkan crawler terdistribusi. Fitur-fitur seperti "multithreaded, asynchronous, proxy IP dinamis, terdistribusi, javascript-rendering".
XXL-Crawler adalah kerangka crawler terdistribusi. Mengembangkan crawler terdistribusi dengan satu baris kode, yang memiliki karakteristik "multi-threading, asinkron, proxy dinamis IP, terdistribusi, rendering JS" dan fitur lainnya;
Dokumentasi
Fitur
- 1. Ringkas: API intuitif dan ringkas, dan dapat dengan cepat dimulai;
- 2. Ringan: Implementasi yang mendasarinya hanya bergantung pada JSoup, yang sederhana dan efisien;
- 3. Modular: Desain Struktural Modular, mudah diperluas
- 4. Berorientasi objek: Mendukung pemetaan data halaman yang mudah ke objek pagevo melalui anotasi, dan lapisan yang mendasarinya secara otomatis melengkapi ekstraksi data dan pengembalian enkapsulasi objek pagevo; Satu halaman mendukung ekstraksi satu atau lebih pagevos.
- 5. Multi-Threading: Jalankan dalam kumpulan utas untuk meningkatkan efisiensi pengumpulan;
- 6. Dukungan Terdistribusi: Terdistribusi dapat dicapai dengan memperluas modul "Rundata" dan menggabungkan data berjalan bersama Redis atau DB. Crawler yang berdiri sendiri localrundata disediakan secara default.
- 7. JS Rendering: Dengan memperluas modul "Pageloader", ia mendukung akuisisi data rendering dinamis JS. Secara alami, ini menyediakan JSoup (rendering non-JS, lebih cepat), htmlunit (rendering JS), selenium+phantomjs (rendering JS, kompatibilitas tinggi), dan implementasi lainnya, mendukung ekspansi bebas implementasi lainnya.
- 8. Gagal coba lagi: coba lagi setelah permintaan gagal, dan dukungan mengatur jumlah kali coba lagi;
- 9. Agen IP: Aturan Kebijakan Anti-Acquisition WAF;
- 10. Dinamis Proxy: Mendukung penyesuaian dinamis kumpulan proxy saat runtime dan menyesuaikan kebijakan perutean proxy pool;
- 11. Asynchronous: mendukung dua cara untuk menjalankan secara serempak dan asinkron;
- 12. Menyebarkan seluruh situs: mendukung difusi dan merangkak seluruh situs dari URL yang ada sebagai titik awal;
- 13. Deduplikasi: Cegah merangkak berulang;
- 14. URL Whitelist: mendukung pengaturan aturan daftar putih dan pemfilteran URL;
- 15. Informasi Permintaan Kustom, seperti: Parameter Permintaan, Cookie, Header, Polling UserAgent, Referrer, dll.;
- 16. Parameter Dinamis: Dukungan penyesuaian dinamis parameter permintaan selama runtime;
- 17. Kontrol Timeout: Pengaturan Dukungan Waktu batas waktu permintaan crawler;
- 18. Jeda Aktif: Benang crawler secara aktif berhenti setelah memproses halaman untuk menghindari dicegat terlalu sering;
Komunikasi
Berkontribusi
Kontribusi dipersilakan! Buka permintaan tarik untuk memperbaiki bug, atau buka masalah untuk membahas fitur baru atau perubahan.
Selamat datang untuk berpartisipasi dalam kontribusi proyek! Misalnya, kirimkan PR untuk memperbaiki bug, atau membuat masalah baru untuk membahas fitur atau perubahan baru.
Pendaftaran akses
Untuk lebih banyak perusahaan yang mengakses, silakan mendaftar di alamat pendaftaran. Pendaftaran hanya untuk promosi produk.
Hak Cipta dan Lisensi
Produk ini adalah open source dan gratis, dan akan terus memberikan dukungan teknis komunitas gratis. Pengguna individu atau perusahaan bebas untuk diakses dan digunakan.
- Lisensi di bawah lisensi Apache, versi 2.0.
- Hak Cipta (C) 2015-sekarang, Xuxueli.
Produk ini open source dan gratis, dan dukungan teknis komunitas gratis akan terus diberikan. Akses dan penggunaan gratis dalam individu atau perusahaan.
Menyumbangkan
Tidak peduli berapa jumlah yang cukup untuk mengungkapkan pemikiran Anda, terima kasih banyak :) untuk menyumbang
Tidak peduli berapa jumlahnya, cukup untuk mengungkapkan perasaan Anda. Terima kasih banyak :) Pergi untuk menyumbang