Beanbun은 배포, 데몬 모드 및 일반 모드를 지원하는 간단하고 확장 가능한 크롤러 프레임워크입니다. 데몬 모드는 Workerman을 기반으로 하고 다운로더는 Guzzle을 기반으로 합니다.
https://github.com/kidyuchina/Beanbun/blob/master/docs/chs/README.md
최근에 발견한 매우 유용한 글로벌 프록시를 추천하고 싶습니다: SmartProxy
Gao An은 전 세계 1억 개의 실제 주거용 IP 자원을 보유한 해외 http 전문 에이전트입니다. Gao An은 100% 네이티브 주거용 IP를 안정적으로 제공하고 소셜 계정, 전자상거래 플랫폼, 네트워크 데이터 수집 및 기타 서비스를 지원합니다.
익명성이 매우 좋고 위장 정도가 매우 높으며 IP 제한 문제가 쉽게 해결됩니다.
테스트 후 기분이 매우 좋아졌습니다.
이제 봄에는 가격이 할인됩니다. Dynamic Residential Agency는 35%만 할인됩니다!

데몬 모드와 일반 모드 모두 지원(데몬 모드는 Linux 서버만 지원)
기본적으로 guzzle은 크롤링에 사용됩니다.
지원 분산
메모리, Redis 등 다양한 대기열 방식 지원
사용자 정의 URI 필터링 지원
너비 우선 및 깊이 우선 크롤링 방법 지원
PSR-4 표준 준수
웹 페이지 크롤링은 여러 단계로 나누어지며 각 단계는 사용자 지정 작업(예: 에이전트 추가, 사용자 에이전트 수정 등)을 지원합니다.
유연한 확장 메커니즘을 통해 프레임워크용 플러그인(사용자 정의 대기열, 사용자 정의 크롤링 방법 등)을 쉽게 생성할 수 있습니다.
빈분은 작곡가를 통해 설치할 수 있습니다.
$ composer require kiddyu/beanbun
다음 내용으로 start.php 파일을 만듭니다.
<?phpuse BeanbunBeanbun;$beanbun = new Beanbun;$beanbun->seed = [ 'http://www.950d.com/', 'http://www.950d.com/list-1.html', ' http://www.950d.com/list-2.html',
];$beanbun->afterDownloadPage = function($beanbun) { file_put_contents(__DIR__ . '/' . md5($beanbun->url), $beanbun->page);
};$beanbun->start();명령줄에서 실행
$ php start.php
다음으로 캡처된 로그를 볼 수 있습니다.
beanbun-parser 데이터 추출 플러그인 https://github.com/kidyuchina/beanbun-parser
자세한 내용은 설명서를 확인하세요.