hydra link checker
1.0.0
파이썬 프로그램 크롤링 슬리 터? 링크 및 인쇄 용 웹 사이트는 깨진 링크의 Yaml 보고서를 인쇄합니다.
파이썬 3.6 이상.
외부 의존성은 없습니다, NEO.
$ python hydra.py -h
usage: hydra.py [-h] [--config CONFIG] URL위치 논쟁 :
URL : 웹 사이트의 URL이 크롤링됩니다. 스키마 (예 : https://example.com 를 포함하여 URL 절대적으로 있는지 확인하십시오.선택적 인수 :
-h , --help : 도움말 메시지와 종료--config CONFIG , -c CONFIG : 구성 파일로의 경로깨진 링크 보고서는 stdout에 출력되므로 파일로 리디렉션 할 수 있습니다.
보고서는 YAML 형식이 될 것입니다. 출력을 파일에 저장하려면 다음을 실행하십시오.
python hydra.py [URL] > [PATH/TO/FILE.yaml]다음과 같은 명령 대체를 사용하여 현재 날짜를 파일 이름에 추가 할 수 있습니다.
python hydra.py [URL] > /path/to/ $( date ' +%Y_%m_%d ' ) _report.yaml Hydra가 사이트를 확인하는 데 걸리는 시간을 보려면 time 추가하십시오.
time python hydra.py [URL]Link-Snitch 동작을 사용하여 자동화 된 프로세스의 일부로 Hydra를 쉽게 통합 할 수 있습니다.
Hydra는 특정 매개 변수에 대한 선택적 JSON 구성 파일을 수용 할 수 있습니다.
{
"OK" : [
200 ,
999 ,
403
],
"attrs" : [
" href "
],
"exclude_scheme_prefixes" : [
" tel "
],
"tags" : [
" a " ,
" img "
],
"threads" : 25 ,
"timeout" : 30 ,
"graceful_exit" : " True "
}구성 파일을 사용하려면 파일 이름을 공급하십시오.
python hydra.py https://example.com --config ./hydra-config.json가능한 설정 :
OK -HTTP 응답 코드는 성공적인 링크 점검으로 고려합니다. 기본값으로 [200, 999] .attrs 링크를 확인할 HTML 태그의 속성. 기본값은 ["href", "src"] 로 나타납니다.exclude_scheme_prefixes -http scheme prefixes는 확인에서 제외합니다. 기본값으로 ["tel:", "javascript:"] .tags - 링크를 확인할 HTML 태그. 기본값은 ["a", "link", "img", "script"] 에 대한 기본값입니다.threads - 실행할 최대 작업자. 기본값은 50 입니다.timeout - HTTP 응답을 기다리는 데 최대 초. 기본값은 60 입니다.graceful_exit True 로 설정되고 깨진 링크가있는 경우 exit code 0 ELET exit code 1 . 달리다:
python -m unittest tests/test.py