spidrダウンロードspidrソースコードのダウンロード

spidr

ウェブサイトデータ

1.0.0

ダウンロード

spidr

ホームページ
ソース
問題
メーリングリスト

説明

SPIDRは、サイト、複数のドメイン、特定のリンク、または無限にクモをクモにできる多用途のRuby Web Spideringライブラリです。 SPIDRは、高速で使いやすいように設計されています。

特徴

フォロー：
- a 。
- iframeタグ。
- frameタグ。
- Cookieが保護されたリンク。
- HTTP 300、301、302、303、および307リダイレクト。
- メタリフレッシュリダイレクト。
- HTTP Basic Auth Protected Links。
以下に基づくブラックリストまたはホワイトリストURL
- URLスキーム。
- ホスト名
- ポート番号
- フルリンク
- URL拡張
- Optional /robots.txtサポート。
のコールバックを提供します：
- 訪問されたすべてのページ。
- 訪問したすべてのURL。
- 指定されたパターンに一致するすべての訪問URL。
- リンクのすべての起源と目的地のURI。
- 訪問に失敗したすべてのURL。
アクションメソッドを提供します。
- 一時停止します。
- ページの処理をスキップします。
- リンクの処理をスキップします。
前のセッションからクモのキューと履歴を復元します。
カスタムユーザーエージェント文字列。
カスタムプロキシ設定。
HTTPSサポート。

例

URLからクモを開始します：

 Spidr . start_at ( 'http://tenderlovemaking.com/' ) do | agent |
  # ...
end

ホストをクモ：

 Spidr . host ( 'solnic.eu' ) do | agent |
  # ...
end

ドメイン（および任意のサブドメイン）をクモにする：

 Spidr . domain ( 'ruby-lang.org' ) do | agent |
  # ...
end

Spider aサイト：

 Spidr . site ( 'http://www.rubyflow.com/' ) do | agent |
  # ...
end

複数のホストをクモ：

 Spidr . start_at ( 'http://company.com/' , hosts : [ 'company.com' , /host[ d ]+ . company . com/ ] ) do | agent |
  # ...
end

特定のリンクをクモにしないでください：

 Spidr . site ( 'http://company.com/' , ignore_links : [ %{^/blog/} ] ) do | agent |
  # ...
end

特定のポートのリンクをクモにしないでください：

 Spidr . site ( 'http://company.com/' , ignore_ports : [ 8000 , 8010 , 8080 ] ) do | agent |
  # ...
end

robots.txtにブラックリストに登録されているクモのリンクはありません：

 Spidr . site ( 'http://company.com/' , robots : true ) do | agent |
  # ...
end

訪問したURLを印刷：

 Spidr . site ( 'http://www.rubyinside.com/' ) do | spider |
  spider . every_url { | url | puts url }
end

サイトのURLマップを作成します。

 url_map = Hash . new { | hash , key | hash [ key ] = [ ] }

Spidr . site ( 'http://intranet.com/' ) do | spider |
  spider . every_link do | origin , dest |
    url_map [ dest ] << origin
  end
end

要求できなかったURLを印刷します：

 Spidr . site ( 'http://company.com/' ) do | spider |
  spider . every_failed_url { | url | puts url }
end

リンクが壊れているすべてのページを見つけます：

 url_map = Hash . new { | hash , key | hash [ key ] = [ ] }

spider = Spidr . site ( 'http://intranet.com/' ) do | spider |
  spider . every_link do | origin , dest |
    url_map [ dest ] << origin
  end
end

spider . failures . each do | url |
  puts "Broken link #{ url } found in:"

  url_map [ url ] . each { | page | puts "  #{ page } " }
end

HTMLおよびXMLページを検索します。

 Spidr . site ( 'http://company.com/' ) do | spider |
  spider . every_page do | page |
    puts ">>> #{ page . url } "

    page . search ( '//meta' ) . each do | meta |
      name = ( meta . attributes [ 'name' ] || meta . attributes [ 'http-equiv' ] )
      value = meta . attributes [ 'content' ]

      puts "  #{ name } = #{ value } "
    end
  end
end

すべてのページからタイトルを印刷します：

 Spidr . site ( 'https://www.ruby-lang.org/' ) do | spider |
  spider . every_html_page do | page |
    puts page . title
  end
end

すべてのHTTPリダイレクトを印刷します：

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_redirect_page do | page |
    puts " #{ page . url } -> #{ page . headers [ 'Location' ] } "
  end
end

ヘッダーにアクセスして、ホストが使用しているWebサーバーの種類を見つけてください。

 servers = Set [ ]

Spidr . host ( 'company.com' ) do | spider |
  spider . all_headers do | headers |
    servers << headers [ 'server' ]
  end
end

禁じられたページでクモを一時停止します：

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_forbidden_page do | page |
    spider . pause!
  end
end

ページの処理をスキップします。

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_missing_page do | page |
    spider . skip_page!
  end
end

リンクの処理をスキップします。

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_url do | url |
    if url . path . split ( '/' ) . find { | dir | dir . to_i > 1000 }
      spider . skip_link!
    end
  end
end