Pengembangan repositori ini tidak akan mungkin terjadi tanpa dukungan dari banyak mitra dan sponsor. Salah satu mitra ini adalah ScrapingBee, yang merupakan layanan pengikis web cloud dengan beberapa fitur deteksi anti-bot bawaan yang rapi.
ScrapingBee - Mendaftar untuk uji coba gratis dan dapatkan -10% pada faktur pertama dengan kode "Niespodd"
Apakah Anda baru saja mulai membangun pengikis web dari awal dan bertanya -tanya apa yang Anda lakukan salah karena solusi Anda tidak berfungsi, atau Anda sudah bekerja dengan crawler untuk sementara waktu dan terjebak pada halaman yang memberi Anda kesalahan yang mengatakan bahwa Anda adalah bot, Anda tidak dapat melangkah lebih jauh, terus membaca.
Solusi anti-bot telah berkembang dalam beberapa tahun terakhir. Semakin banyak situs web memperkenalkan langkah-langkah keamanan: dari yang sederhana, seperti memfilter alamat IP sesuai dengan geolokasi mereka, hingga yang canggih berdasarkan analisis mendalam dari parameter browser dan analisis perilaku. Semua ini membuat konten mengikis web lebih sulit dan mahal daripada beberapa tahun yang lalu. Namun demikian, itu masih mungkin. Di sini saya menyoroti beberapa tips yang mungkin Anda temukan bermanfaat.
Di bawah ini Anda dapat menemukan daftar layanan kurasi yang saya gunakan untuk berkeliling berbagai perlindungan anti-bot. Tergantung pada kasus penggunaan Anda, Anda mungkin memerlukan salah satu dari yang berikut:
| Skenario/kasus penggunaan | Larutan | Contoh |
|---|---|---|
| Sesi berumur pendek tanpa auth | Kumpulan alamat IP yang berputar | Itu berguna ketika Anda mengikis situs web seperti Amazon, Walmart atau Public LinkedIn Pages. Itu adalah situs web mana pun di mana tidak diperlukan masuk. Anda berencana untuk membuat sejumlah besar sesi berumur pendek dan mampu diblokir setiap saat. |
| Situs web yang dibatasi secara geografis | Kumpulan alamat IP khusus wilayah | Ini berguna ketika situs web menggunakan firewall yang mirip dengan yang dari CloudFlare untuk memblokir seluruh geografi dari mengaksesnya. |
| Sesi berumur panjang setelah masuk | Kumpulan alamat IP yang berulang dan set sidik jari browser yang stabil | Skenario yang paling umum di sini adalah otomatisasi media sosial misalnya Anda membangun alat untuk mengotomatiskan akun media sosial untuk mengelola iklan secara lebih efisien. |
| Deteksi berbasis Javascript | Penggunaan perpustakaan penggelapan populer, mirip dengan dalang-ekstra-plugin-stealth | Ada sejumlah situs web yang menggunakan sidik jari yang dapat dengan mudah dilewati saat Anda menggunakan plugin open-source seperti plugin Stealth dalang yang disebutkan di atas untuk bekerja dengan perangkat lunak Anda yang ada. |
| Deteksi dengan teknik sidik jari browser | Sidik jari browser yang terlihat alami. Artinya, setelah menutupi seluruh permukaan yang sedang divalidasi oleh solusi JavaScript yang diinstal di situs web target. | Ini adalah salah satu kasus paling lanjut. Contoh utama adalah prosesor kartu kredit seperti Adyen atau Stripe. Sidik jari browser yang sangat canggih sedang dibuat untuk mendeteksi penipuan kredit, atau meminta otorisasi tambahan dari pengguna. |
| Set teknik deteksi yang unik | Perangkat lunak bot khusus yang menargetkan permukaan deteksi unik dari situs web target. | Contoh yang baik adalah situs web Sneakers Marketplace dan toko-toko e-commerce, dilaporkan sedang serangan berat dari perangkat lunak bot yang dibuat khusus. |
| Teknik Deteksi Buatan Kustom Sederhana | Sebelum menyelam ke salah satu di atas, jika Anda menargetkan situs web yang lebih kecil, sangat mungkin yang Anda butuhkan hanyalah skrip scrapy dengan tweak, proxy pusat data yang murah, dan Anda baik untuk melakukannya. | - |
Setelah Anda memutuskan jenis penghindaran apa yang akan dibutuhkan dalam proyek Anda, Anda dapat menggunakan daftar di bawah ini untuk memilih penyedia terbaik untuk proyek Anda:
| Jenis | Melayani | Catatan |
|---|---|---|
| Proxy | Proxy Sosial ![]() | Sangat disarankan? ✔️ Pro : Pool IP secara konsisten baik, bertentangan dengan "hiu besar" yang ada dari industri proxy yang mengenakan biaya per GB, di sini Anda mendapatkan lalu lintas tanpa batas dalam titik akhir yang berputar. Model Bisnis Transparan. Cons: Cakupan GEO terbatas pada negara -negara yang tercantum di situs web. IP tidak langsung diputar, tetapi Anda lebih suka menunggu 10-15 detik. |
BrightData (sebelumnya Luminati Networks)![]() | Salah satu yang paling populer, tetapi mungkin juga penyedia proxy yang paling mahal. IP Pool terutama bersumber dari pengguna HOLAVPN dan SDK monetisasi APP. | |
Oxylabs![]() | Pesaing ke BrightData dengan lebih banyak produk pengikis kode/kode rendah. | |
| Mengikis sebagai layanan | Scrapingbee![]() | Sangat disarankan? Salah satu goresan tersembunyi paling canggih sebagai layanan. Kadang -kadang mungkin lebih murah daripada membangun solusi pengikis khusus - mereka tidak mengenakan biaya untuk jumlah lalu lintas yang digunakan. |
Apify.com![]() | Apify telah berkembang menjadi platform SaaS pengikis dan otomatisasi lengkap, dengan alat siap pakai, proxy terintegrasi, dan solusi khusus untuk mengikis pada skala apa pun. Pengembang juga dapat membuat pencakar di platform dan menyewakannya kepada pengguna lain. | |
| De-captcha sebagai layanan | Anti Captcha: Layanan Pemecahan Captcha. Bypass recaptcha, funcaptcha (...)![]() | Cukup jelas. Bitcoin diterima ❤️. |
Ini adalah daftar perusahaan yang tidak lengkap yang memberikan solusi anti-bot paling canggih untuk bisnis mulai dari situs e-commerce yang lebih kecil hingga perusahaan Fortune 500:

Bergabunglah dengan Extra.Community. Di sana menjalankan tester otomatis Botty McBotface yang menggunakan beberapa teknik rumit untuk menentukan perlindungan apa yang digunakan situs web yang diuji (kredit ke Berstend dan lainnya dari #Insiders).
Penting Anda menggunakan perangkat lunak ini dengan risiko Anda sendiri. Beberapa dari mereka berisi malwares hanya FYI. Saya tidak merekomendasikan menggunakannya.
| Browser Stealth | Dalang | Selenium | Evasi | SDK/Tooling | Asal |
|---|---|---|---|---|---|
| GOLOGIN | ✔️ | ✔️ | ? | ? | ?? + ?? |
| Penyamaran | ✔️ | ✔️ | ? | ✔️ | ?? ❓ |
| Clonbrowser | ✔️ | ✔️ | ? | ✔️ | ?? |
| Multilogin | ✔️ | ✔️ | ? | ✔️ | ?? + ?? |
| Browser Indigo | ✔️ | ✔️ | ? | ✔️ | ?? |
| Ghostbrowser | ? | ?? | |||
| Kameleo | ✔️ | ✔️ | ? | ✔️ | ?? |
| Antbrowser | ?? | ||||
| Chebrowser | ?/✔️ | ? | ?? |
Legenda: ? - Penghindaran berdasarkan kebisingan. - Tidak. ✔️ - Dapat diterima (dengan pustaka dukungan atau tidak). ? - Bagus sekali.
A pada repo ini akan dihargai !
Di sini saya mempelajari berbagai aspek teknik penghindaran yang digunakan untuk mengatasi sistem deteksi bot yang digunakan oleh situs web online utama. Saya membahas masalah teknis dan non-teknis, termasuk rekomendasi, referensi untuk makalah ilmiah dan banyak lagi.
Temuan teknis yang saya bagikan di bawah ini didasarkan pada pengamatan menjalankan skrip pengikis web selama beberapa bulan terhadap situs web yang dilindungi oleh vendor solusi anti-bot utama.
Saya terus -menerus menambahkan barang ke bagian ini. Seiring waktu saya akan mencoba membuatnya terlihat & merasa lebih terstruktur.
✔️ menang / gagal /? Mengikat :
navigator Umum dan Properti windowUser-Agent ). Ada penjelasan terperinci tentang masalah ini. Penghindaran yang paling dapat diandalkan tampaknya sama sekali bukan spoofing host OS, atau menggunakan osfooler-ng.window.outerdimensions penghindaran, itu tidak akan berfungsi tanpa konfigurasi yang benar pada OS non -default dalam mode tanpa kepala; Hampir selalu gagal saat viewport size >= screen resolution (Tampilan Resolusi Layar Rendah pada Host).ServiceWorker / WebWorker melalui API yang ada.navigator dan window Properties - Sesuai dengan dokumentasi multilogin Browser Custom Builds biasanya tertinggal dari penambahan terbaru yang ditambahkan oleh vendor browser. Dalam hal ini, Chromium M7X yang dimodifikasi digunakan (hampir 10 versi di belakang saat menulis ini).puppeteer-extra-plugin-stealth seperti ML dan Kameleo menyediakan paling banyak override untuk plugin asli dan ekstensi yang dikirimkan dengan Google Chrome.TBD (jika Anda memiliki langganan aktif di salah satu layanan ini dan tidak keberatan berbagi akun, kirimi saya email ❤️)
Situs web ini mungkin berguna untuk menguji teknik sidik jari terhadap perangkat lunak pengikis web
| Halaman Uji | Catatan |
|---|---|
| https://bot.incolumitas.com/ | Koleksi tes yang sangat membantu dan bermanfaat |
| https://plaperdr.github.io/morellian-canvas/prototype/webpage/picassauth.html | Sidik jari kanvas pada steroid |
| https://pixelscan.net/ | Tidak 100% dapat diatur karena sering menampilkan "tidak konsisten" ke chrome setelah pembaruan baru, tetapi layak untuk diperiksa karena penulis menambahkan fitur deteksi baru yang menarik sesekali |
| https://browserleaks.com/ | Tidak perlu diperkenalkan |
| https://f.vision/ | Halaman uji berkualitas baik dari beberapa ?? Teman-teman |
| https://www.ipqualityscore.com/ip-reputation-check | Layanan komersial dengan cek reputasi gratis terhadap daftar hitam populer |
| https://antcpt.com/eng/information/demo-form/recaptcha-3-test-score.html | Skor recaptcha serta beberapa catatan menarik tentang cara mengoptimalkan biaya pemecahan captcha |
| https://ja3er.com/ | Sidik jari SSL/TLS |
| https://fingerprintjs.com/demo/ | Bagus untuk tes dasar - dari orang yang percaya dan mengklaim dapat membuat sidik jari unik "99,5%" dari waktu itu |
| https://coveryourtracks.eff.org/ | - |
| https://www.deviceinfo.me/ | - |
| https://amiunique.org/ | - |
| http://uniquemachine.org/ | - |
| http://dnscookie.com/ | - |
| https://whatleaks.com/ | - |
| https://antcpt.com/eng/information/demo-form/recaptcha-3-test-score.html | Periksa skor recaptcha Anda |
| https://antoinevastel.com/bots/ | - |
| https://antoinevastel.com/bots/datadome | - |
| https://iphey.com/ | - |
| https://bot.sannysoft.com/ | - |
| https://webbrowsertools.com/canvas-fingerprint/ | - |
| https://webbrowsertools.com/webgl-fingerprint/ | - |
| https://fingerprint.com/products/bot-detection/ | - |
| https://abrahamjuliot.github.io/creepjs/ | Sangat menyeramkan, yang terkuat |
Saya perlu membuat komentar umum kepada orang-orang yang mengevaluasi (dan/atau) berencana untuk memperkenalkan perangkat lunak anti-bot di situs web mereka. Perangkat lunak anti-bot adalah omong kosong. Minyak ular dijual kepada orang -orang tanpa pengetahuan teknis untuk banyak uang.
Memblokir lalu lintas bot didasarkan pada premis bahwa Anda (atau penyedia teknologi Anda) dapat membedakan bot dari pengguna nyata . Untuk mewujudkan hal ini, berbagai teknik privasi-invasif diterapkan. Sampai saat ini tidak ada dari mereka yang terbukti berhasil melawan alat pengikis web khusus. Perangkat lunak anti-bot adalah tentang mengurangi lalu lintas bot murah. Itu membuat proses mengikis lebih mahal dan rumit, tetapi tidak membuatnya sepenuhnya mustahil .
Vendor perangkat lunak anti-bot menggunakan teknik deteksi yang termasuk dalam salah satu dari dua kategori ini:
Tidak ada perangkat lunak pengikis web khusus yang digunakan. Vendor dapat mendeteksi lalu lintas yang buruk berdasarkan informasi yang diungkapkan secara terbuka oleh scraper mis. Header User-Agent , parameter koneksi dll.
Akibatnya hanya bot yang tidak ditargetkan untuk mengikis situs web tertentu yang diblokir . Ini akan membuat sebagian besar manajer senang, karena jumlah keseluruhan lalu lintas yang buruk turun dan mungkin hampir tidak ada lagi lalu lintas bot di situs web. Salah.
Pengikis web yang lebih canggih memanfaatkan proksi perumahan dan mengimplementasikan teknik penghindaran yang kompleks untuk membodohi perangkat lunak anti-bot untuk berpikir bahwa pengikis web adalah pengguna nyata. Tidak ada mekanisme deteksi untuk mengatasi hal ini karena keterbatasan teknis browser web.
Dalam hal ini, sebagian besar waktu vendor hanya akan dapat mengelompokkan lalu lintas yang buruk dengan menemukan pola dalam lalu lintas dan perilaku bot. Di sinilah sidik jari browser ikut bermain. Masalah dengan melarang lalu lintas di sini adalah bahwa itu mungkin berubah menjadi operasi yang berisiko ketika bot berhasil meniru pengguna nyata. Ada kemungkinan bahwa dengan memblokir bot, situs web tidak akan tersedia bagi pengunjung sungguhan .
Jika Anda pikir ini adalah cara untuk pergi Google "Captcha Resolve API".
Jika Anda memiliki masalah dengan mengikis situs web tertentu, tulis saya email singkat di [email protected] . Mari kita konsultasi cepat tête-à-tête melalui Skype ?.
Sudahkah saya menyebutkan A akan dihargai? :-)
➡️ Alamat Ethereum 0x380a4b41fB5e0e1EB8c616eBD56f62f8F934Bab6