XXL 크롤러
XXL-Crawler, 분산 웹 크롤러 프레임 워크.
-홈페이지-
소개
XXL-Crawler는 분산 된 웹 크롤러 프레임 워크입니다. 한 줄의 코드는 분산 크롤러를 개발합니다. "멀티 스레드, 비동기, 동적 IP 프록시, 분산, JavaScript 렌더링"과 같은 기능.
XXL-Crawler는 분산 크롤러 프레임 워크입니다. "멀티 스레딩, 비동기식, IP 동적 프록시, 분산, JS 렌더링"및 기타 기능의 특성을 갖는 한 줄의 코드로 분산 크롤러를 개발합니다.
선적 서류 비치
특징
- 1. 간결한 : API는 직관적이고 간결하며 신속하게 시작할 수 있습니다.
- 2. Lightweight : 기본 구현은 JSOUP에만 의존하며, 이는 간단하고 효율적입니다.
- 3. 모듈 식 : 모듈 식 구조 설계, 확장이 쉬운
- 4. 객체 지향 : 주석을 통해 페이지 데이터를 PageVO 객체에 쉽게 매핑하고 기본 레이어는 자동으로 PageVO 객체의 데이터 추출 및 캡슐화 리턴을 완료합니다. 단일 페이지는 하나 이상의 pagevos의 추출을 지원합니다.
- 5. 멀티 스레딩 : 실 풀에서 실행하여 수집 효율성을 향상시킵니다.
- 6. 분산 지원 : "rundata"모듈을 확장하고 Redis 또는 DB 공유 실행 데이터를 결합하여 분산을 달성 할 수 있습니다. LocalRundata 독립형 크롤러는 기본적으로 제공됩니다.
- 7. JS 렌더링 : "Pageloader"모듈을 확장하여 JS 동적 렌더링 데이터의 획득을 지원합니다. 기본적으로 JSOUP (비 JS 렌더링, 더 빠른), htmlunit (JS 렌더링), 셀레늄+phantomjs (JS 렌더링, 높은 호환성) 및 기타 구현을 제공하여 기타 구현의 무료 확장을 지원합니다.
- 8. 재시도 실패 : 요청이 실패한 후 재 시도하고 재시도 시간 수 설정을 지원합니다.
- 9. 대리인 IP : 획득 방지 정책 규칙 WAF;
- 10. 동적 프록시 : 런타임시 프록시 풀의 동적 조정을 지원하고 프록시 풀 라우팅 정책을 사용자 정의합니다.
- 11. 비동기식 : 동기식으로 비동기식으로 실행하는 두 가지 방법을 지원합니다.
- 12. 전체 사이트 확산 : 확산을지지하고 기존 URL에서 전체 사이트를 시작점으로 크롤링합니다.
- 13. 중복 제거 : 반복적 인 크롤링 방지;
- 14. URL Whitelist : 지원 페이지 설정 페이지 화이트리스트 규칙 및 필터링 URL;
- 15. 요청 매개 변수, 쿠키, 헤더, 사용자 기관 폴링, 추천자 등과 같은 사용자 정의 요청 정보;
- 16. 동적 매개 변수 : 런타임 중 요청 매개 변수의 동적 조정 지원;
- 17. 시간 초과 제어 : Crawler 요청의 시간 초과 시간 설정 지원;
- 18. 활성 일시 중지 : 크롤러 스레드는 너무 자주 가로 채지 않도록 페이지를 처리 한 후 적극적으로 일시 중지됩니다.
의사소통
기여
기부금을 환영합니다! 풀 요청을 엽니 버그를 수정하거나 새로운 기능이나 변경 사항을 논의하기 위해 문제를 열십시오.
프로젝트 기여에 참여하는 데 오신 것을 환영합니다! 예를 들어, PR을 제출하여 버그를 수정하거나 새로운 기능이나 변경 사항을 논의하기 위해 새로운 문제를 만듭니다.
액세스 등록
액세스하는 더 많은 회사는 등록 주소에 등록하십시오. 등록은 제품 프로모션을위한 것입니다.
저작권 및 라이센스
이 제품은 오픈 소스이며 무료이며 무료 커뮤니티 기술 지원을 계속 제공 할 것입니다. 개인 또는 기업 사용자는 자유롭게 액세스하고 사용할 수 있습니다.
- Apache 라이센스, 버전 2.0에 따라 라이센스.
- 저작권 (C) 2015- 프레젠트, Xuxueli.
이 제품은 오픈 소스이며 무료이며 무료 커뮤니티 기술 지원이 계속 제공됩니다. 개인 또는 기업 내에서 무료 액세스 및 사용.
기부
당신의 생각을 표현하기에 충분한 금액이 아무리 충분하더라도 대단히 감사합니다 :) 기부해야합니다
금액이 아무리 많더라도 감정을 표현하는 것으로 충분합니다. 대단히 감사합니다 :) 기부하러 가십시오