xxl-crawler
XXL-Crawler กรอบการรวบรวมข้อมูลเว็บแบบกระจาย
-หน้าแรก-
การแนะนำ
XXL-Crawler เป็นกรอบการรวบรวมข้อมูลเว็บแบบกระจาย รหัสหนึ่งบรรทัดพัฒนาตัวรวบรวมข้อมูลแบบกระจาย คุณสมบัติเช่น "มัลติเธรด, อะซิงโครนัส, พร็อกซี IP แบบไดนามิก, แจกจ่าย, การเรนเดอร์จาวาสคริปต์"
XXL-Crawler เป็นกรอบการรวบรวมข้อมูลแบบกระจาย พัฒนาตัวรวบรวมข้อมูลแบบกระจายด้วยรหัสหนึ่งบรรทัดซึ่งมีลักษณะของ "มัลติเธรด, อะซิงโครนัส, พร็อกซีแบบไดนามิก IP, แจกจ่าย, การเรนเดอร์ JS" และคุณสมบัติอื่น ๆ ;
เอกสาร
คุณสมบัติ
- 1. กระชับ: API นั้นใช้งานง่ายและกระชับและสามารถเริ่มต้นได้อย่างรวดเร็ว
- 2. น้ำหนักเบา: การใช้งานพื้นฐานนั้นขึ้นอยู่กับ JSOUP เท่านั้นซึ่งง่ายและมีประสิทธิภาพ
- 3. โมดูล: การออกแบบโครงสร้างแบบแยกส่วนง่ายต่อการขยาย
- 4. วัตถุที่มุ่งเน้น: รองรับการทำแผนที่ง่าย ๆ ของข้อมูลหน้าเว็บไปยังวัตถุ PageVo ผ่านคำอธิบายประกอบและเลเยอร์พื้นฐานจะเสร็จสิ้นการสกัดข้อมูลและการห่อหุ้มของวัตถุ PageVo โดยอัตโนมัติ หน้าเดียวรองรับการสกัดหนึ่งหรือมากกว่านั้น
- 5. มัลติเธรด: เรียกใช้ในพูลเธรดเพื่อปรับปรุงประสิทธิภาพการรวบรวม
- 6. การสนับสนุนแบบกระจาย: การกระจายสามารถทำได้โดยการขยายโมดูล "rundata" และการรวมข้อมูลการทำงานที่ใช้ร่วมกันของ REDIS หรือ DB Localrundata Stand-Alone Crawler มีให้โดยค่าเริ่มต้น
- 7. การเรนเดอร์ JS: โดยการขยายโมดูล "PageLoader" มันรองรับการได้มาของข้อมูลการเรนเดอร์ JS แบบไดนามิก โดยธรรมชาติแล้วมันให้ JSOUP (การเรนเดอร์ที่ไม่ใช่ JS, เร็วขึ้น), HTMLUNIT (การเรนเดอร์ JS), Selenium+PhantomJS (การเรนเดอร์ JS, ความเข้ากันได้สูง) และการใช้งานอื่น ๆ รองรับการขยายการใช้งานอื่น ๆ ฟรี
- 8. Failed retry: ลองอีกครั้งหลังจากคำขอล้มเหลวและรองรับการตั้งค่าจำนวนเวลาลองใหม่
- 9. ตัวแทน IP: กฎนโยบายต่อต้านการซื้อกิจการ WAF;
- 10. พร็อกซีแบบไดนามิก: รองรับการปรับแบบไดนามิกของพูลพร็อกซีที่รันไทม์และปรับแต่งนโยบายการกำหนดเส้นทางพูลพร็อกซี
- 11. อะซิงโครนัส: รองรับสองวิธีในการทำงานแบบซิงโครนัสและแบบอะซิงโครนัส;
- 12. การแพร่กระจายทั้งไซต์: สนับสนุนการแพร่กระจายและรวบรวมข้อมูลทั้งหมดจาก URL ที่มีอยู่เป็นจุดเริ่มต้น
- 13. การซ้ำซ้อน: ป้องกันการคลานซ้ำ
- 14. URL Whitelist: รองรับการตั้งค่ากฎการอนุญาตให้ใช้งานและการกรอง URL;
- 15. ข้อมูลการร้องขอที่กำหนดเองเช่น: พารามิเตอร์การร้องขอ, คุกกี้, ส่วนหัว, การเลือกตั้งผู้ใช้, ผู้อ้างอิง, ฯลฯ ;
- 16. พารามิเตอร์แบบไดนามิก: รองรับการปรับพารามิเตอร์การร้องขอแบบไดนามิกระหว่างรันไทม์
- 17. การควบคุมการหมดเวลา: สนับสนุนการตั้งค่าเวลาหมดเวลาของการร้องขอการรวบรวมข้อมูล;
- 18. หยุดชั่วคราวที่ใช้งานอยู่: เธรดตัวรวบรวมข้อมูลหยุดชั่วคราวหลังจากประมวลผลหน้าเพื่อหลีกเลี่ยงการถูกดักจับบ่อยเกินไป;
การสื่อสาร
การบริจาค
ยินดีต้อนรับ! เปิดคำขอดึงเพื่อแก้ไขข้อผิดพลาดหรือเปิดปัญหาเพื่อหารือเกี่ยวกับคุณสมบัติใหม่หรือการเปลี่ยนแปลง
ยินดีต้อนรับสู่การมีส่วนร่วมในการบริจาคโครงการ! ตัวอย่างเช่นส่ง PR เพื่อแก้ไขข้อผิดพลาดหรือสร้างปัญหาใหม่เพื่อหารือเกี่ยวกับคุณสมบัติหรือการเปลี่ยนแปลงใหม่
เข้าถึงการลงทะเบียน
สำหรับ บริษัท อื่น ๆ ที่เข้าถึงได้โปรดลงทะเบียนตามที่อยู่การลงทะเบียน การลงทะเบียนมีไว้สำหรับการส่งเสริมผลิตภัณฑ์เท่านั้น
ลิขสิทธิ์และใบอนุญาต
ผลิตภัณฑ์นี้เป็นโอเพ่นซอร์สและฟรีและจะยังคงให้การสนับสนุนทางเทคนิคชุมชนฟรี ผู้ใช้รายบุคคลหรือองค์กรมีอิสระในการเข้าถึงและใช้งาน
- ได้รับใบอนุญาตภายใต้ใบอนุญาต Apache เวอร์ชัน 2.0
- ลิขสิทธิ์ (c) 2015- ปัจจุบัน Xuxueli
ผลิตภัณฑ์เป็นโอเพ่นซอร์สและฟรีและการสนับสนุนทางเทคนิคของชุมชนฟรีจะยังคงมีให้ การเข้าถึงและการใช้งานฟรีภายในบุคคลหรือองค์กร
บริจาค
ไม่ว่าจำนวนเงินจะเพียงพอที่จะแสดงความคิดของคุณขอบคุณมาก :) ที่จะบริจาค
ไม่ว่าจำนวนเงินเท่าไหร่มันก็เพียงพอที่จะแสดงความรู้สึกของคุณ ขอบคุณมาก :) ไปบริจาค