프로젝트 상태 : 여전히 적극적인 개발 중입니다! 그러나 대부분은 이미 사용할 수 있습니다. 알파 테스터를 환영합니다! 매일 작업에 대한 전체 통계.
참고 : 이것은 프로젝트의 새로운 공식 리포지토리이며, 이전 C ++ 및 Rust Repositories는 이제 폐쇄되어 더 이상 사용할 수 있고 유지 관리되지 않습니다. 새로운 개발에 이것을 사용하십시오.
Crowler는 핵심적인 철학으로 설계된 오픈 소스의 기능이 풍부한 웹 크롤러입니다. 다시 말해, Crowler는 웹 사이트에 미치는 영향을 최소화하면서 사용자의 편의를 극대화함으로써 눈에 띄게 노력합니다.
또한 시스템에는 API가 장착되어있어 데이터 쿼리에 대한 간소화 된 인터페이스를 제공합니다. 이 기능은 다양한 응용 프로그램에 대한 인덱스 데이터에 대한 쉽게 통합 및 액세스를 보장합니다.
Crowler는 마이크로 서비스 기반으로 설계되었으므로 컨테이너화 된 환경에 쉽게 배치 할 수 있습니다.
기능에 대한 자세한 내용은 기능 페이지를 참조하십시오.
Crowler는 웹 크롤링, 컨텐츠 발견, 기술 감지 및 데이터 추출에 대한 일련의 문제를 해결하도록 설계되었습니다.
주요 목표는 민간, 전문 및 엔터프라이즈 사용자가 컨텐츠 검색 솔루션을 신속하게 개발할 수 있도록하는 것이지만 개인 네트워크 및 인트라넷을 크롤링 할 수 있도록 설계되었으므로이를 사용하여 직접 또는 회사 검색 엔진을 만들 수 있습니다.
또한 웹 사이트, 네트워크, 소유자, 취약점, 서비스가 노출되는 등에 대한 정보를 수집하는 데 사용될 수 있으므로보다 복잡한 사이버 보안 도구의 "기본"으로도 사용할 수 있습니다.
정보를 추출 할 수 있으면 소스를 참조하여 지식 기반을 만들거나 특정 주제에 대한 정보 데이터베이스를 작성하는 데 사용될 수 있습니다.
분명히 키워드 분석, 언어 탐지 등을 수행하는 데 사용될 수도 있지만 이것은 모든 크롤러가 사용할 수있는 것입니다. 그러나 모든 "클래식"기능은 구현/구현됩니다.
: / ðə /로 발음되어 자음 소리가 들리기 전에 "Thuh"처럼 들립니다.
Crow : /kroʊ /, "Know"또는 "Snow"로 운율로 발음합니다.
LER : 후자의 부분은 /lər /로 발음되며, "크롤러"라는 단어의 끝이나 "텀블러"의 "Ler"라는 단어와 유사합니다.
모든 것을 합치면 " thuh kroh-lər "처럼 들립니다.
"Crowler는 단순한 도구가 아닙니다. 그것은 윤리적이고 효율적이며 효과적인 웹 크롤링에 대한 헌신입니다. 학업 연구, 시장 분석을 수행하거나 사이버 보안 자세를 강화하든 Crowler는 무결성과 정밀도를 제공합니다.
웹 크롤링 표준을 재정의하는 데 참여하십시오. 더 많은 것을 탐색하고 더 존경적이고 통찰력있는 디지털 탐사를 향한 Crowler의 여정에 기여하십시오. "
? 그것은 분명히 약간 위에 있었지만 재미 있었고 재미를 위해 여기에 포함시키기로 결정했습니다. btw 그것은 내가 추가하고 싶은 것처럼 나를 쓰러 뜨 렸습니다.
"... 그리고 한 가지 더 있습니다!" (왜 궁금해?!?!)?
Crowler는 마이크로 서비스 기반으로 설계되었으므로 다음을 설치해야합니다.
Docker Compose 기반 설치의 경우 필요한 전부입니다. Docker와 Docker Compose가 설치된 경우 다음 섹션을 건너 뛰고 설치 섹션으로 바로 이동할 수 있습니다.
Crowler를 설치하는 가장 쉬운 방법은 Docker Compose 파일을 사용하는 것입니다. 그렇게하려면 여기에서 지침을 따르십시오.
참고 : (1) : config.yaml 또는 env vars 또는 규칙 세트 등에 대해 궁금한 점이 있으면 GPT 챗봇을 사용하여 도움을 줄 수 있습니다. 이 링크로 이동하십시오 (모든 사람이 자유롭게 사용할 수 있습니다)
참고 : (2) : Raspberry Pi에서 Crowler를 실행하는 경우 arm64 플랫폼 용 Crowler를 구축해야합니다. 그렇게하려면 더 쉬운 방법은 Raspberry Pi에서 docker-build.sh 스크립트로 Crowler를 구축하는 것입니다.
대신 Crowler를 수동으로 설치할 계획이라면 다음 Docker 컨테이너를 설치해야합니다.
Postgresql 컨테이너
또한 참고 : Crowler는 VDI 이미지를 빌드해야하므로 VDI 이미지도 빌드해야합니다.
Docker Compose를 사용하면 모든 것이 자동으로 빌드되며 설치 섹션의 지침을 따르기 만하면됩니다.
대신 컴퓨터에 로컬로 빌드하려면이 섹션의 지침을 따르십시오.
소스에서 Crowler를 구축하려면 다음을 설치해야합니다.
그런 다음 저장소를 복제하고 필요한 대상을 구축해야합니다.
한 번에 모든 것을 구축하려면 다음 명령을 실행하십시오.
./autobuild.sh개별 목표를 구축하려면 :
먼저, 어떤 대상을 구축하고 사용할 수 있는지 확인하고 다음 명령을 실행하십시오.
./autobuild name-of-the-target 요청 된 구성 요소가 ./bin 에 구축됩니다
./bin/removeSite
./bin/addSite
./bin/addCategory
./bin/api
./bin/thecrowler 필요한대로 구축하거나 autobuild.sh (인수 없음)를 실행하여 모두를 구축하십시오.
선택적으로 Docker 이미지를 작성하여 다음 명령을 실행할 수 있습니다.
docker build -t < image name > .참고 : Crowler Engine Docker 컨테이너를 제작하는 경우 다음 Docker 명령으로 실행하십시오 (필요합니다!)
docker run -it --rm --cap-add=NET_ADMIN --cap-add=NET_RAW crowler_engine중요 참고 사항 : 소스에서 빌드하는 경우 Crowler VDI Docker 이미지를 빌드해야합니다. Crowler는 작업을 수행하기 위해 많은 외부 도구를 사용하고 모든 도구가 VDI 이미지 (Virtual Desktop Image)에 그룹화되어 내장되어 있기 때문에 필요합니다.
사용 방법에 대한 지시는 여기를 참조하십시오.
프로덕션에서 Crowler를 사용하려면 Docker Compose 설치를 사용하는 것이 좋습니다. 설치하는 가장 쉬운 방법이며 가장 안전한 방법입니다.
더 나은 보안을 위해 Crowler와 별도의 컨테이너에 API를 배포하는 것이 좋습니다. 또한 Crowler 컨테이너를 외부 세계에 노출시킬 필요가 없으며 인터넷 액세스 생각이 필요합니다.
Crowler 기본 구성은 PostgreSQL을 데이터베이스로 사용합니다. 데이터베이스는 Docker 볼륨에 저장되며 영구적입니다.
DB는 유지 보수가 필요하지 않아야하며 Crowler는이를 처리합니다. 크롤링 활동이없고 이전 유지 보수 활동에서 1 시간이 지나면 Crowler는 데이터베이스를 정리하고 인덱스를 최적화합니다.
Crowler는 Apache 2.0 라이센스에 따라 라이센스가 부여됩니다. 자세한 내용은 라이센스 파일을 참조하십시오.
프로젝트에 기여하려면 기여 파일을 읽으십시오.
Crowler는 기고자 계약 규범을 채택했습니다. 자세한 내용은 code_of_conduct 파일을 참조하십시오.
Crowler는 많은 오픈 소스 프로젝트를 기반으로 구축되었으며 이러한 프로젝트에 기여한 모든 개발자에게 감사의 말씀을 전합니다. 그들 없이는 크로울러가 불가능할 것입니다.
또한 코드를 기고하거나 테스트하거나 피드백을 제공함으로써 프로젝트를 도와주는 사람들에게 감사의 말씀을 전합니다. 모두 감사합니다!
Crowler는 웹 사이트를 존중하는 방식으로 크롤링하는 데 도움이되는 도구입니다. 그러나 정중 한 방식으로 사용하는 것은 당신에게 달려 있습니다. Crowler는 도구의 오용에 대해 책임을지지 않습니다.