xxl crawler 다운로드 xxl crawler 소스 코드 다운로드

xxl crawler

웹사이트 데이터

v1.3.0，分布式爬虫框架

다운로드

XXL 크롤러

XXL-Crawler, 분산 웹 크롤러 프레임 워크.
-홈페이지-

소개

XXL-Crawler는 분산 된 웹 크롤러 프레임 워크입니다. 한 줄의 코드는 분산 크롤러를 개발합니다. "멀티 스레드, 비동기, 동적 IP 프록시, 분산, JavaScript 렌더링"과 같은 기능.

XXL-Crawler는 분산 크롤러 프레임 워크입니다. "멀티 스레딩, 비동기식, IP 동적 프록시, 분산, JS 렌더링"및 기타 기능의 특성을 갖는 한 줄의 코드로 분산 크롤러를 개발합니다.

선적 서류 비치

중국어 문서

특징

1. 간결한 : API는 직관적이고 간결하며 신속하게 시작할 수 있습니다.
2. Lightweight : 기본 구현은 JSOUP에만 의존하며, 이는 간단하고 효율적입니다.
3. 모듈 식 : 모듈 식 구조 설계, 확장이 쉬운
4. 객체 지향 : 주석을 통해 페이지 데이터를 PageVO 객체에 쉽게 매핑하고 기본 레이어는 자동으로 PageVO 객체의 데이터 추출 및 캡슐화 리턴을 완료합니다. 단일 페이지는 하나 이상의 pagevos의 추출을 지원합니다.
5. 멀티 스레딩 : 실 풀에서 실행하여 수집 효율성을 향상시킵니다.
6. 분산 지원 : "rundata"모듈을 확장하고 Redis 또는 DB 공유 실행 데이터를 결합하여 분산을 달성 할 수 있습니다. LocalRundata 독립형 크롤러는 기본적으로 제공됩니다.
7. JS 렌더링 : "Pageloader"모듈을 확장하여 JS 동적 렌더링 데이터의 획득을 지원합니다. 기본적으로 JSOUP (비 JS 렌더링, 더 빠른), htmlunit (JS 렌더링), 셀레늄+phantomjs (JS 렌더링, 높은 호환성) 및 기타 구현을 제공하여 기타 구현의 무료 확장을 지원합니다.
8. 재시도 실패 : 요청이 실패한 후 재 시도하고 재시도 시간 수 설정을 지원합니다.
9. 대리인 IP : 획득 방지 정책 규칙 WAF;
10. 동적 프록시 : 런타임시 프록시 풀의 동적 조정을 지원하고 프록시 풀 라우팅 정책을 사용자 정의합니다.
11. 비동기식 : 동기식으로 비동기식으로 실행하는 두 가지 방법을 지원합니다.
12. 전체 사이트 확산 : 확산을지지하고 기존 URL에서 전체 사이트를 시작점으로 크롤링합니다.
13. 중복 제거 : 반복적 인 크롤링 방지;
14. URL Whitelist : 지원 페이지 설정 페이지 화이트리스트 규칙 및 필터링 URL;
15. 요청 매개 변수, 쿠키, 헤더, 사용자 기관 폴링, 추천자 등과 같은 사용자 정의 요청 정보;
16. 동적 매개 변수 : 런타임 중 요청 매개 변수의 동적 조정 지원;
17. 시간 초과 제어 : Crawler 요청의 시간 초과 시간 설정 지원;
18. 활성 일시 중지 : 크롤러 스레드는 너무 자주 가로 채지 않도록 페이지를 처리 한 후 적극적으로 일시 중지됩니다.