spidr 다운로드 - spidr 소스 코드 다운로드

spidr

웹사이트 데이터

1.0.0

다운로드

Spidr

홈페이지
원천
문제
메일 링리스트

설명

SPIDR은 사이트, 다중 도메인, 특정 링크 또는 무한대를 거부 할 수있는 다목적 Ruby Web Spidering Library입니다. SPIDR은 빠르고 사용하기 쉬운 것으로 설계되었습니다.

특징

다음 :
- a .
- iframe 태그.
- frame 태그.
- 쿠키 보호 링크.
- HTTP 300, 301, 302, 303 및 307 리디렉션.
- 메타 리프레시 리디렉션.
- HTTP 기본 인증 보호 링크.
다음에 기반한 흑인 목록 또는 흰색 목록 URL.
- URL 체계.
- 호스트 이름
- 포트 번호
- 전체 링크
- URL 확장
- 옵션 /robots.txt 지원.
콜백을 제공합니다.
- 방문한 모든 페이지.
- 모든 방문 URL.
- 지정된 패턴과 일치하는 모든 방문 URL.
- 링크의 모든 원점과 목적지 우리.
- 방문하지 않은 모든 URL.
작업 방법을 제공합니다.
- 거미를 일시 중지하십시오.
- 페이지 처리를 건너 뜁니다.
- 링크 처리를 건너 뜁니다.
이전 세션에서 거미 줄기와 역사를 복원하십시오.
사용자 정의 사용자 에이전트 문자열.
사용자 정의 프록시 설정.
HTTPS 지원.

예

URL에서 거미를 시작하십시오.

 Spidr . start_at ( 'http://tenderlovemaking.com/' ) do | agent |
  # ...
end

거미 A 호스트 :

 Spidr . host ( 'solnic.eu' ) do | agent |
  # ...
end

스파이더 A 도메인 (및 하위 도메인) :

 Spidr . domain ( 'ruby-lang.org' ) do | agent |
  # ...
end

Spider A 사이트 :

 Spidr . site ( 'http://www.rubyflow.com/' ) do | agent |
  # ...
end

스파이더 다중 호스트 :

 Spidr . start_at ( 'http://company.com/' , hosts : [ 'company.com' , /host[ d ]+ . company . com/ ] ) do | agent |
  # ...
end

특정 링크를 거미하지 마십시오.

 Spidr . site ( 'http://company.com/' , ignore_links : [ %{^/blog/} ] ) do | agent |
  # ...
end

특정 포트에서 링크를 거미하지 마십시오.

 Spidr . site ( 'http://company.com/' , ignore_ports : [ 8000 , 8010 , 8080 ] ) do | agent |
  # ...
end

Robots.txt에서 블랙리스트에 스파이더 링크를하지 마십시오.

 Spidr . site ( 'http://company.com/' , robots : true ) do | agent |
  # ...
end

방문한 URL 인쇄 :

 Spidr . site ( 'http://www.rubyinside.com/' ) do | spider |
  spider . every_url { | url | puts url }
end

사이트의 URL 맵을 작성하십시오.

 url_map = Hash . new { | hash , key | hash [ key ] = [ ] }

Spidr . site ( 'http://intranet.com/' ) do | spider |
  spider . every_link do | origin , dest |
    url_map [ dest ] << origin
  end
end

요청할 수없는 URL을 인쇄하십시오.

 Spidr . site ( 'http://company.com/' ) do | spider |
  spider . every_failed_url { | url | puts url }
end

링크가 부러진 모든 페이지를 찾습니다.

 url_map = Hash . new { | hash , key | hash [ key ] = [ ] }

spider = Spidr . site ( 'http://intranet.com/' ) do | spider |
  spider . every_link do | origin , dest |
    url_map [ dest ] << origin
  end
end

spider . failures . each do | url |
  puts "Broken link #{ url } found in:"

  url_map [ url ] . each { | page | puts "  #{ page } " }
end

HTML 및 XML 페이지 검색 :

 Spidr . site ( 'http://company.com/' ) do | spider |
  spider . every_page do | page |
    puts ">>> #{ page . url } "

    page . search ( '//meta' ) . each do | meta |
      name = ( meta . attributes [ 'name' ] || meta . attributes [ 'http-equiv' ] )
      value = meta . attributes [ 'content' ]

      puts "  #{ name } = #{ value } "
    end
  end
end

모든 페이지에서 제목을 인쇄하십시오.

 Spidr . site ( 'https://www.ruby-lang.org/' ) do | spider |
  spider . every_html_page do | page |
    puts page . title
  end
end

모든 HTTP 리디렉션을 인쇄하십시오.

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_redirect_page do | page |
    puts " #{ page . url } -> #{ page . headers [ 'Location' ] } "
  end
end

헤더에 액세스하여 호스트가 사용하는 웹 서버의 종류를 찾으십시오.

 servers = Set [ ]

Spidr . host ( 'company.com' ) do | spider |
  spider . all_headers do | headers |
    servers << headers [ 'server' ]
  end
end

금지 된 페이지에서 거미를 일시 중지하십시오.

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_forbidden_page do | page |
    spider . pause!
  end
end

페이지 처리를 건너 뜁니다.

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_missing_page do | page |
    spider . skip_page!
  end
end

링크 처리를 건너 뜁니다.

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_url do | url |
    if url . path . split ( '/' ) . find { | dir | dir . to_i > 1000 }
      spider . skip_link!
    end
  end
end