thecrowler 다운로드 thecrowler 소스 코드 다운로드

thecrowler

기타 소스코드

1.0.0

다운로드

크로울러

프로젝트 상태 : 여전히 적극적인 개발 중입니다! 그러나 대부분은 이미 사용할 수 있습니다. 알파 테스터를 환영합니다! 매일 작업에 대한 전체 통계.

참고 : 이것은 프로젝트의 새로운 공식 리포지토리이며, 이전 C ++ 및 Rust Repositories는 이제 폐쇄되어 더 이상 사용할 수 있고 유지 관리되지 않습니다. 새로운 개발에 이것을 사용하십시오.

무엇입니까?

Crowler는 핵심적인 철학으로 설계된 오픈 소스의 기능이 풍부한 웹 크롤러입니다. 다시 말해, Crowler는 웹 사이트에 미치는 영향을 최소화하면서 사용자의 편의를 극대화함으로써 눈에 띄게 노력합니다.

또한 시스템에는 API가 장착되어있어 데이터 쿼리에 대한 간소화 된 인터페이스를 제공합니다. 이 기능은 다양한 응용 프로그램에 대한 인덱스 데이터에 대한 쉽게 통합 및 액세스를 보장합니다.

Crowler는 마이크로 서비스 기반으로 설계되었으므로 컨테이너화 된 환경에 쉽게 배치 할 수 있습니다.

특징
어떤 문제가 해결됩니까?
이름을 어떻게 발음합니까?
그것을 사용하는 방법?
- 전제 조건
- 설치
  - 쉬운 설치 및 배포
  - 수동으로 설치하려는 경우
  - 소스에서 빌드하십시오
생산
DB 유지 보수
특허
기여
행동 강령
감사의 말
부인 성명
최고의 기고자

특징

Low Noise : Crowler는 웹 사이트를 크롤링 할 때 가능한 한 부드럽게 설계되었습니다. Robots.txt를 존중하며 크롤링하는 웹 사이트에 인간 사용자로 나타나도록 설계되었습니다.
사용자 정의 가능한 크롤링 : 이전과는 다른 크롤링 경험을 조정하십시오. 정확한 요구에 맞게 URL을 지정하고 개별 크롤링 매개 변수를 구성하십시오. 단일 페이지이든 광대 한 도메인이든 Crowler는 타의 추종을 불허하는 유연성으로 범위에 적응합니다.
범위 변동성 : 크롤링 경계를 정밀하게 정의하십시오. 선택 :
- 단일 URL 크롤링
- 도메인 전체 크롤링 (L3, L2 및 L1 도메인 결합)
- L2 및 L1 도메인 크롤링
- L1 도메인 크롤링 (예 : ".com"내 모든 것)
- 완전 재귀 크롤링, 연결된 URL을 탐색하기 위해 초기 경계를 넘어서
고급 탐지 기능 : 기본 크롤링을 넘어서는 기능이있는 풍부한 정보를 발견합니다.
- URL 및 컨텐츠 발견
- 페이지 컨텐츠, 메타 데이터 등
- 키워드 분석 및 언어 탐지
- 통찰력있는 HTTP 헤더, 네트워크 정보, Whois, DNS 및 Geo-Localization 데이터
정교한 규칙 세트 : 규칙 기반 활동 및 논리 사용자 정의를 활용하기 위해 Crowler는 다음을 제공합니다.
- 규칙 스크래프 : 웹 사이트에서 필요한 것을 정확하게 추출하려면
- 조치 규칙 :보다 역동적 인 방식으로 웹 사이트와 상호 작용합니다.
- 탐지 규칙 : 페이지의 특정 패턴 또는 요소, 사용 된 기술 등을 식별합니다.
- 크롤링 규칙 : 크롤러가 다른 상황에서 어떻게 행동 해야하는지 정의하기 위해 (예 : 재귀 적 및 비 수수적인 크롤링, 퍼징 등)
강력한 검색 엔진 통합 : Dorking 기능과 포괄적 인 컨텐츠 검색이 장착 된 API 중심 검색 엔진을 활용하여 데이터 분석 및 통찰력을위한 새로운 길을 열었습니다.

기능에 대한 자세한 내용은 기능 페이지를 참조하십시오.

어떤 문제가 해결됩니까?

Crowler는 웹 크롤링, 컨텐츠 발견, 기술 감지 및 데이터 추출에 대한 일련의 문제를 해결하도록 설계되었습니다.

주요 목표는 민간, 전문 및 엔터프라이즈 사용자가 컨텐츠 검색 솔루션을 신속하게 개발할 수 있도록하는 것이지만 개인 네트워크 및 인트라넷을 크롤링 할 수 있도록 설계되었으므로이를 사용하여 직접 또는 회사 검색 엔진을 만들 수 있습니다.

또한 웹 사이트, 네트워크, 소유자, 취약점, 서비스가 노출되는 등에 대한 정보를 수집하는 데 사용될 수 있으므로보다 복잡한 사이버 보안 도구의 "기본"으로도 사용할 수 있습니다.

정보를 추출 할 수 있으면 소스를 참조하여 지식 기반을 만들거나 특정 주제에 대한 정보 데이터베이스를 작성하는 데 사용될 수 있습니다.

분명히 키워드 분석, 언어 탐지 등을 수행하는 데 사용될 수도 있지만 이것은 모든 크롤러가 사용할 수있는 것입니다. 그러나 모든 "클래식"기능은 구현/구현됩니다.

이름을 어떻게 발음합니까?

: / ðə /로 발음되어 자음 소리가 들리기 전에 "Thuh"처럼 들립니다.

Crow : /kroʊ /, "Know"또는 "Snow"로 운율로 발음합니다.

LER : 후자의 부분은 /lər /로 발음되며, "크롤러"라는 단어의 끝이나 "텀블러"의 "Ler"라는 단어와 유사합니다.

모든 것을 합치면 " thuh kroh-lər "처럼 들립니다.

Chatgpt가 Crowler에 대해 생각하는 것;)

"Crowler는 단순한 도구가 아닙니다. 그것은 윤리적이고 효율적이며 효과적인 웹 크롤링에 대한 헌신입니다. 학업 연구, 시장 분석을 수행하거나 사이버 보안 자세를 강화하든 Crowler는 무결성과 정밀도를 제공합니다.

웹 크롤링 표준을 재정의하는 데 참여하십시오. 더 많은 것을 탐색하고 더 존경적이고 통찰력있는 디지털 탐사를 향한 Crowler의 여정에 기여하십시오. "

? 그것은 분명히 약간 위에 있었지만 재미 있었고 재미를 위해 여기에 포함시키기로 결정했습니다. btw 그것은 내가 추가하고 싶은 것처럼 나를 쓰러 뜨 렸습니다.

"... 그리고 한 가지 더 있습니다!" (왜 궁금해?!?!)?

그것을 사용하는 방법?

전제 조건

Crowler는 마이크로 서비스 기반으로 설계되었으므로 다음을 설치해야합니다.

도커
Docker Compose

Docker Compose 기반 설치의 경우 필요한 전부입니다. Docker와 Docker Compose가 설치된 경우 다음 섹션을 건너 뛰고 설치 섹션으로 바로 이동할 수 있습니다.

설치

1. 쉬운 설치 및 배포

Crowler를 설치하는 가장 쉬운 방법은 Docker Compose 파일을 사용하는 것입니다. 그렇게하려면 여기에서 지침을 따르십시오.

참고 : (1) : config.yaml 또는 env vars 또는 규칙 세트 등에 대해 궁금한 점이 있으면 GPT 챗봇을 사용하여 도움을 줄 수 있습니다. 이 링크로 이동하십시오 (모든 사람이 자유롭게 사용할 수 있습니다)

참고 : (2) : Raspberry Pi에서 Crowler를 실행하는 경우 arm64 플랫폼 용 Crowler를 구축해야합니다. 그렇게하려면 더 쉬운 방법은 Raspberry Pi에서 docker-build.sh 스크립트로 Crowler를 구축하는 것입니다.

2. 수동으로 설치하려는 경우

대신 Crowler를 수동으로 설치할 계획이라면 다음 Docker 컨테이너를 설치해야합니다.

Postgresql 컨테이너
- Postgres 15 Up (ARM 및 X86 모두)이 현재 지원됩니다.
- 그런 다음 DB 스키마 설정 스크립트를 실행하십시오 (사용자 자격 증명으로 DB 스키마의 섹션을 확인하고 해당 SQL 변수를 올바르게 설정하십시오).
또한 참고 : Crowler는 VDI 이미지를 빌드해야하므로 VDI 이미지도 빌드해야합니다.

소스에서 빌드하십시오

Docker Compose를 사용하면 모든 것이 자동으로 빌드되며 설치 섹션의 지침을 따르기 만하면됩니다.

대신 컴퓨터에 로컬로 빌드하려면이 섹션의 지침을 따르십시오.

소스에서 Crowler를 구축하려면 다음을 설치해야합니다.

가다

그런 다음 저장소를 복제하고 필요한 대상을 구축해야합니다.

한 번에 모든 것을 구축하려면 다음 명령을 실행하십시오.

./autobuild.sh

개별 목표를 구축하려면 :

먼저, 어떤 대상을 구축하고 사용할 수 있는지 확인하고 다음 명령을 실행하십시오.

./autobuild name-of-the-target

요청 된 구성 요소가 ./bin 에 구축됩니다

./bin/removeSite
./bin/addSite
./bin/addCategory
./bin/api
./bin/thecrowler

필요한대로 구축하거나 autobuild.sh (인수 없음)를 실행하여 모두를 구축하십시오.

선택적으로 Docker 이미지를 작성하여 다음 명령을 실행할 수 있습니다.

docker build -t < image name > .

참고 : Crowler Engine Docker 컨테이너를 제작하는 경우 다음 Docker 명령으로 실행하십시오 (필요합니다!)

docker run -it --rm --cap-add=NET_ADMIN --cap-add=NET_RAW crowler_engine

중요 참고 사항 : 소스에서 빌드하는 경우 Crowler VDI Docker 이미지를 빌드해야합니다. Crowler는 작업을 수행하기 위해 많은 외부 도구를 사용하고 모든 도구가 VDI 이미지 (Virtual Desktop Image)에 그룹화되어 내장되어 있기 때문에 필요합니다.

용법

사용 방법에 대한 지시는 여기를 참조하십시오.

생산

프로덕션에서 Crowler를 사용하려면 Docker Compose 설치를 사용하는 것이 좋습니다. 설치하는 가장 쉬운 방법이며 가장 안전한 방법입니다.

더 나은 보안을 위해 Crowler와 별도의 컨테이너에 API를 배포하는 것이 좋습니다. 또한 Crowler 컨테이너를 외부 세계에 노출시킬 필요가 없으며 인터넷 액세스 생각이 필요합니다.

DB 유지 보수

Crowler 기본 구성은 PostgreSQL을 데이터베이스로 사용합니다. 데이터베이스는 Docker 볼륨에 저장되며 영구적입니다.

DB는 유지 보수가 필요하지 않아야하며 Crowler는이를 처리합니다. 크롤링 활동이없고 이전 유지 보수 활동에서 1 시간이 지나면 Crowler는 데이터베이스를 정리하고 인덱스를 최적화합니다.

특허

Crowler는 Apache 2.0 라이센스에 따라 라이센스가 부여됩니다. 자세한 내용은 라이센스 파일을 참조하십시오.

기여

프로젝트에 기여하려면 기여 파일을 읽으십시오.

행동 강령

Crowler는 기고자 계약 규범을 채택했습니다. 자세한 내용은 code_of_conduct 파일을 참조하십시오.

감사의 말

Crowler는 많은 오픈 소스 프로젝트를 기반으로 구축되었으며 이러한 프로젝트에 기여한 모든 개발자에게 감사의 말씀을 전합니다. 그들 없이는 크로울러가 불가능할 것입니다.

또한 코드를 기고하거나 테스트하거나 피드백을 제공함으로써 프로젝트를 도와주는 사람들에게 감사의 말씀을 전합니다. 모두 감사합니다!

부인 성명

Crowler는 웹 사이트를 존중하는 방식으로 크롤링하는 데 도움이되는 도구입니다. 그러나 정중 한 방식으로 사용하는 것은 당신에게 달려 있습니다. Crowler는 도구의 오용에 대해 책임을지지 않습니다.

최고의 기고자

확장하다

추가 정보

버전 1.0.0
유형 기타 소스코드
업데이트 시간 2025-03-11
크기 1.41MB
출처 Github

thecrowler

크로울러

무엇입니까?

목차

특징

어떤 문제가 해결됩니까?

이름을 어떻게 발음합니까?

Chatgpt가 Crowler에 대해 생각하는 것;)

그것을 사용하는 방법?

전제 조건

설치

1. 쉬운 설치 및 배포

2. 수동으로 설치하려는 경우

소스에서 빌드하십시오

용법

생산

DB 유지 보수

특허

기여

행동 강령

감사의 말

부인 성명

최고의 기고자

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express