spidr下載 - spidr源代碼下載

spidr

網站數據

1.0.0

下載

蜘蛛

首頁
來源
問題
郵件列表

描述

Spidr是一個多功能的紅寶石網絡蜘蛛庫，可以蜘蛛站點，多個域，某些鏈接或無限的鏈接。 SPIDR設計為快速易於使用。

特徵

以下內容：
- a標籤。
- iframe標籤。
- frame標籤。
- Cookie受保護的鏈接。
- HTTP 300、301、302、303和307重定向。
- meta-refresh重定向。
- HTTP基本AUTH受保護的鏈接。
基於以下方式的黑名單或白名單URL：
- URL方案。
- 主機名
- 端口號
- 完整鏈接
- URL擴展
- 可選/robots.txt支持。
提供回調：
- 每個訪問的頁面。
- 每個訪問的URL。
- 每個訪問的URL都匹配指定模式。
- 鏈接的每個來源和目的地URI。
- 每個未能訪問的URL。
提供行動方法：
- 暫停蜘蛛。
- 跳過頁面處理。
- 跳過鏈接處理。
恢復上一個會話中的蜘蛛排隊和歷史記錄。
自定義用戶代理字符串。
自定義代理設置。
HTTPS支持。

例子

從URL開始蜘蛛：

 Spidr . start_at ( 'http://tenderlovemaking.com/' ) do | agent |
  # ...
end

蜘蛛宿主：

 Spidr . host ( 'solnic.eu' ) do | agent |
  # ...
end

蜘蛛域（以及任何子域）：

 Spidr . domain ( 'ruby-lang.org' ) do | agent |
  # ...
end

蜘蛛站點：

 Spidr . site ( 'http://www.rubyflow.com/' ) do | agent |
  # ...
end

蜘蛛多個主機：

 Spidr . start_at ( 'http://company.com/' , hosts : [ 'company.com' , /host[ d ]+ . company . com/ ] ) do | agent |
  # ...
end

不要蜘蛛某些鏈接：

 Spidr . site ( 'http://company.com/' , ignore_links : [ %{^/blog/} ] ) do | agent |
  # ...
end

請勿在某些端口上蜘蛛鏈接：

 Spidr . site ( 'http://company.com/' , ignore_ports : [ 8000 , 8010 , 8080 ] ) do | agent |
  # ...
end

請勿在Robots.txt中列入黑名單的蜘蛛鏈接：

 Spidr . site ( 'http://company.com/' , robots : true ) do | agent |
  # ...
end

打印出訪問的URL：

 Spidr . site ( 'http://www.rubyinside.com/' ) do | spider |
  spider . every_url { | url | puts url }
end

構建網站的URL圖：

 url_map = Hash . new { | hash , key | hash [ key ] = [ ] }

Spidr . site ( 'http://intranet.com/' ) do | spider |
  spider . every_link do | origin , dest |
    url_map [ dest ] << origin
  end
end

打印出無需要求的URL：

 Spidr . site ( 'http://company.com/' ) do | spider |
  spider . every_failed_url { | url | puts url }
end

找到所有斷開鏈接的頁面：

 url_map = Hash . new { | hash , key | hash [ key ] = [ ] }

spider = Spidr . site ( 'http://intranet.com/' ) do | spider |
  spider . every_link do | origin , dest |
    url_map [ dest ] << origin
  end
end

spider . failures . each do | url |
  puts "Broken link #{ url } found in:"

  url_map [ url ] . each { | page | puts "  #{ page } " }
end

搜索HTML和XML頁面：

 Spidr . site ( 'http://company.com/' ) do | spider |
  spider . every_page do | page |
    puts ">>> #{ page . url } "

    page . search ( '//meta' ) . each do | meta |
      name = ( meta . attributes [ 'name' ] || meta . attributes [ 'http-equiv' ] )
      value = meta . attributes [ 'content' ]

      puts "  #{ name } = #{ value } "
    end
  end
end

從每個頁面打印出標題：

 Spidr . site ( 'https://www.ruby-lang.org/' ) do | spider |
  spider . every_html_page do | page |
    puts page . title
  end
end

打印出每個HTTP重定向：

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_redirect_page do | page |
    puts " #{ page . url } -> #{ page . headers [ 'Location' ] } "
  end
end

通過訪問標題：查找主機正在使用的哪種Web服務器：

 servers = Set [ ]

Spidr . host ( 'company.com' ) do | spider |
  spider . all_headers do | headers |
    servers << headers [ 'server' ]
  end
end

在禁止頁面上暫停蜘蛛：

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_forbidden_page do | page |
    spider . pause!
  end
end

跳過頁面的處理：

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_missing_page do | page |
    spider . skip_page!
  end
end

跳過鏈接的處理：

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_url do | url |
    if url . path . split ( '/' ) . find { | dir | dir . to_i > 1000 }
      spider . skip_link!
    end
  end
end