learning_spider
1.0.0
โครงการนี้ส่วนใหญ่แบ่งออกเป็นสามส่วน
| ความยากลำบาก | เนื้อหา | ข้อมูล | ทาง | ความยากลำบาก |
|---|---|---|---|---|
| ฐาน | การใช้ห้องสมุดต่าง ๆ อย่างง่าย | วิธีการใช้งานขั้นพื้นฐาน | ดูการสาธิตการเขียนเอกสาร | |
| เริ่มต้น | การจัดอันดับภาพยนตร์ Maoyan อันดับ 100 | หน้าเว็บคงที่ | การร้องขอ | |
| หน้าค้นหาห้างสรรพสินค้า Amazon China Mall | หน้าเว็บคงที่ | การร้องขอ | ||
| ผลการค้นหาหัวข้อข่าววันนี้ | หน้าเว็บแบบไดนามิก | การร้องขอ | ||
| ข้อมูลไดนามิกของผู้ใช้ Weibo Mobile | หน้าเว็บแบบไดนามิก | การร้องขอ | ตำแหน่งของพารามิเตอร์ตั้งแต่ _id | |
| ผู้สังเกตการณ์ Bilibili เห็นดัชนีเดียวกัน | หน้าเว็บแบบไดนามิก | การร้องขอ | กู้คืนข้อมูลเอ็กซ์โปเนนเชียลที่บีบอัด | |
| รหัสตรวจสอบตัวเลื่อนที่ง่ายที่สุด | หน้าเว็บแบบไดนามิก | ซีลีเนียม | เลื่อนเลื่อน | |
| เรียบง่าย | วิธีการเข้ารหัสรหัสผ่านของเราเตอร์บางตัว | ไฟล์ js เดี่ยว | กำลังมองหาฟังก์ชั่นการเข้ารหัส | |
| การประมวลผลดีบักเกอร์ไม่ จำกัด | หน้าเว็บแบบไดนามิก | การอ่าน | การต่อต้าน | |
| การถอดรหัส aaencode | หน้าเว็บแบบไดนามิก | เดฟทูล | การเข้ารหัสการเข้ารหัส | |
| CSS Element การวางตำแหน่งสัมบูรณ์การคลานย้อนกลับ | หน้าเว็บคงที่ | ผู้เล่น Pyppeteer | กู้คืนลำดับองค์ประกอบ | |
| CSS pseudo-class anti-crawling | หน้าเว็บคงที่ | การร้องขอ | กู้คืนเนื้อหาระดับหลอก | |
| อพาร์ทเมนต์แบรนด์ 58.com | หน้าเว็บคงที่ | การร้องขอ | การเข้ารหัสแบบอักษรคงที่ | |
| การศึกษาลายนิ้วมือ Anjuke | ไฟล์ js เดี่ยว | เดฟทูล | การวิจัยและทำความเข้าใจความสำคัญของข้อมูลที่รวบรวม | |
| โดยทั่วไป | ข้อมูลบทความ Zhihu | หน้าเว็บแบบไดนามิก | การร้องขอ | ส่วนหัว `x-zse-86` การเข้ารหัสพารามิเตอร์การต่อต้านการลดเวลาตามเวลา |
| การประมวลผลการเข้ารหัสแบบอักษร China_CN | หน้าเว็บแบบไดนามิก | ฟอนทูล | การประมวลผลการเข้ารหัสแบบอักษรแบบไดนามิก | |
| การประมวลผลรหัสที่ทำให้งงงวย Baidu | ไฟล์ js เดี่ยว | @bebel | การเขียนปลั๊กอินคืนค่าต่างๆ | |
| เร่งการประมวลผลรหัสการทำให้งงงวย | การปิดกั้นการตั้งค่าคุกกี้ | @bebel | การฟื้นฟูรหัส OB | |
| ยาก | Carbosynch จับภาพ | ลายนิ้วมือ TLS ง่ายๆ | แก้ไขการกำหนดค่าส่วนประกอบความปลอดภัยเริ่มต้น | เข้าใจ TLS |
URL เว็บไซต์ (บันทึก): http://learnspider.evilreclose.top/
| พิมพ์ | ความยากลำบาก | ชื่อ | ข้อมูล |
|---|---|---|---|
| การตรวจสอบแถบเลื่อน | เริ่มต้น | การตรวจสอบตัวเลื่อนที่ง่ายที่สุด | เพียงแค่ลากตัวเลื่อนและเลื่อนไปที่จุดสิ้นสุดและคุณสามารถผ่านได้โดยไม่ต้องตรวจจับ |
| เรียบง่าย | Slidercaptcha | การตั้งค่าเริ่มต้นจะถูกปรับใช้การตรวจสอบเครื่องจักรมนุษย์ขั้นพื้นฐานมีอยู่การดึงความเร็วคงที่/การดึงเชิงเส้นคงที่จะไม่ผ่านการตรวจสอบ | |
| CSS Anti-Crawl | เริ่มต้น | การตั้งค่าการคลานย้อนกลับอย่างแน่นอน | การใช้คุณสมบัติของการวางตำแหน่งสัมบูรณ์หลังจากกระจายข้อมูลไปยัง HTML มุมมองจะถูกกู้คืนผ่านพิกัด |
| เรียบง่าย | การตีหลอก | การใช้คุณสมบัติของเนื้อหา pseudo-class ที่สามารถแสดงข้อมูลแสดงข้อมูลบางอย่างในเนื้อหา | |
| โดยทั่วไป | การเข้ารหัสแบบอักษรที่เหลือ | ปล่อยให้ข้อความ Unicode ใช้การแยกวิเคราะห์แบบอักษรที่กำหนดเองเพื่อให้ผู้ที่ใช้การแยกวิเคราะห์ Unicode มาตรฐานไม่สามารถไต่ข้อมูลได้และตัวอักษรจะไม่เปลี่ยนแปลงในระหว่างกระบวนการเข้าถึงเพียงครั้งเดียว | |
| JS Anti-Crawl | เริ่มต้น | การต่อต้าน | ใช้ดีบักเกอร์เริ่มต้น/คอเพื่อให้เบราว์เซอร์อยู่ในสถานะดีบั๊กที่ไม่สามารถออกได้ |
| เรียบง่าย | ปิดใช้งานการดีบัก | การเขียนรหัสห้ามเปิดคอนโซลเบราว์เซอร์ | |
| เรียบง่าย | aaencode | แทนที่อักขระทั่วไปด้วยอักขระอิโมติคอนทำให้อ่านยาก | |
| เรียบง่าย | jsfuck | แทนที่อักขระที่พบบ่อยที่สุดด้วยอักขระพื้นฐานหลายตัวทำให้อ่านยาก | |
| การเข้ารหัสข้อมูล | โดยทั่วไป | การเข้ารหัส AES Symmetric | เข้ารหัสข้อมูลที่ส่ง |
| โดยทั่วไป | การเข้ารหัสตารางรหัส Base64 ที่กำหนดเอง | เข้ารหัสข้อมูลที่ส่ง | |
| การคลานย้อนกลับลายนิ้วมือ | เรียบง่าย | การรับรู้ซีลีเนียมที่ง่ายที่สุด | ตรวจสอบเพื่อสร้างตัวแปรสองตัวโดยอัตโนมัติ |
| ใช้ | ข้อมูล | |
|---|---|---|
| ข้อมูลจำเพาะ | พักผ่อน | API มาตรฐานการตอบสนองมาตรฐาน |
| CDN | bootcdn.cn | บริการเร่งความเร็วแบบโอเพนซอร์ส Front-End ฟรี CDN |
| ส่วนหน้า | jQuery 2.2.4 | กรอบ JavaScript ที่รวดเร็วและรัดกุม |
| ทำให้เป็นจริง | เฟรมเวิร์กตอบสนองส่วนหน้าตามการออกแบบวัสดุ | |
| Twitter-Bootstrap 3.4.1 | ชุดเครื่องมือโอเพนซอร์สสำหรับการพัฒนาส่วนหน้าโดย Twitter | |
| FONT-JORSODE 4.7.0 | ชุดของไอคอนฟอนต์ไลบรารีและเฟรมเวิร์ก CSS | |
| Metismenu 3.0.6 | ปลั๊กอินเมนูยุบวานิลลา-JS | |
| พร็อกซีเซิร์ฟเวอร์ | nginx | HTTP/Reverse Proxy Server |
| เว็บเซิร์ฟเวอร์ | Uwsgi | เว็บเซิร์ฟเวอร์ |
| ปลายด้านหลัง | ขวด 1.1.2 | Framework Web Lightweight Python |
| Flask-Restful 0.3.8 | ปลั๊กอินขวดที่รองรับการสร้าง REST API อย่างรวดเร็ว |
| เครื่องมือ/การผลิตสคริปต์ | |||
|---|---|---|---|
| เนื้อหา | ข้อมูล | ||
| Auto DL ChromeWebDriver | ใน Windows ให้ดาวน์โหลดสคริปต์ Selenium ChromeWebDriver โดยอัตโนมัติเพื่อรับข้อมูลเวอร์ชัน Chrome จากรีจิสทรีและดาวน์โหลดเว็บไดรเวอร์เวอร์ชันที่สอดคล้องกันมากที่สุดจาก Google เพื่อให้ซีลีเนียมสามารถทำงานได้ตามปกติ (อันที่จริงขอแนะนำให้ปรับใช้ Docker บนเซิร์ฟเวอร์ดึงรูปภาพของ Selenium แล้วปรับใช้และเรียกมันจากระยะไกล) | ||
| เรื่อย ๆ | เลเยอร์ถูกห่อหุ้มด้วยซีลีเนียมเพื่อจัดการกับปัญหาทั่วไปที่คุณจะพบเมื่อใช้ซีลีเนียมในการรวบรวมข้อมูล | ||
| @Babel/Traverse API เอกสาร | เนื้อหาของเอกสาร Babel/Traverse API และกรณีการใช้งานที่เขียนด้วยตัวเองได้ถูกโอนไปยังคลังสินค้าอื่น เนื่องจาก Babel Official ไม่ได้จัดเตรียมเอกสาร Babel/Traverse จึงสามารถบันทึกเนื้อหาและเข้าใจ/เขียนด้วยตัวเองตามเนื้อหาซอร์สโค้ดเท่านั้น อาจมีข้อผิดพลาด โปรดแก้ไข | ||
| นักสืบการเข้ารหัสแบบอักษร | สคริปต์การเข้ารหัสแบบชุ่มชื่นขึ้นอยู่กับ OCR | ||
7 พฤศจิกายน 2564