Download spidr - Download do código fonte spidr

spidr

Dados do site

1.0.0

Baixar

Spidr

Página inicial
Fonte
Problemas
Lista de correspondência

Descrição

O SPIDR é uma biblioteca versátil da Ruby Web Spiders que pode ardir um site, vários domínios, certos links ou infinitamente. O SPIDR foi projetado para ser rápido e fácil de usar.

Características

Segue:
- a tags.
- tags iframe .
- Tags frame .
- Links protegidos por biscoitos.
- HTTP 300, 301, 302, 303 e 307 Redireciona.
- Redirecionamentos de meta-refrescam.
- Links protegidos por autenticação básica HTTP.
URLs de lista preta ou lista branca com base em:
- Esquema de URL.
- Nome do host
- Número da porta
- Link completo
- Extensão de URL
- Suporte opcional /robots.txt .
Fornece retornos de chamada para:
- Cada página visitada.
- Todo URL visitado.
- Todo URL visitado que corresponde a um padrão especificado.
- Cada origem e destino Uri de um link.
- Todo URL que não foi visitado.
Fornece métodos de ação para:
- Pausar arremessos.
- Pule o processamento de páginas.
- Pule o processamento de links.
Restaure a fila e a história de aranha de uma sessão anterior.
Strings de agente de usuário personalizados.
Configurações de proxy personalizadas.
Suporte HTTPS.

Exemplos

Comece a arremessar a partir de um URL:

 Spidr . start_at ( 'http://tenderlovemaking.com/' ) do | agent |
  # ...
end

Aranha um anfitrião:

 Spidr . host ( 'solnic.eu' ) do | agent |
  # ...
end

Aranha um domínio (e quaisquer subdomínios):

 Spidr . domain ( 'ruby-lang.org' ) do | agent |
  # ...
end

Aranha um site:

 Spidr . site ( 'http://www.rubyflow.com/' ) do | agent |
  # ...
end

Spider vários hosts:

 Spidr . start_at ( 'http://company.com/' , hosts : [ 'company.com' , /host[ d ]+ . company . com/ ] ) do | agent |
  # ...
end

Não aranha certos links:

 Spidr . site ( 'http://company.com/' , ignore_links : [ %{^/blog/} ] ) do | agent |
  # ...
end

Não aranha links em determinadas portas:

 Spidr . site ( 'http://company.com/' , ignore_ports : [ 8000 , 8010 , 8080 ] ) do | agent |
  # ...
end

Não o Spider vincule a lista negra em robots.txt:

 Spidr . site ( 'http://company.com/' , robots : true ) do | agent |
  # ...
end

Imprimir URLs visitados:

 Spidr . site ( 'http://www.rubyinside.com/' ) do | spider |
  spider . every_url { | url | puts url }
end

Construa um mapa de URL de um site:

 url_map = Hash . new { | hash , key | hash [ key ] = [ ] }

Spidr . site ( 'http://intranet.com/' ) do | spider |
  spider . every_link do | origin , dest |
    url_map [ dest ] << origin
  end
end

Imprima os URLs que não puderam ser solicitados:

 Spidr . site ( 'http://company.com/' ) do | spider |
  spider . every_failed_url { | url | puts url }
end

Encontra todas as páginas que têm links quebrados:

 url_map = Hash . new { | hash , key | hash [ key ] = [ ] }

spider = Spidr . site ( 'http://intranet.com/' ) do | spider |
  spider . every_link do | origin , dest |
    url_map [ dest ] << origin
  end
end

spider . failures . each do | url |
  puts "Broken link #{ url } found in:"

  url_map [ url ] . each { | page | puts "  #{ page } " }
end

Pesquise as páginas HTML e XML:

 Spidr . site ( 'http://company.com/' ) do | spider |
  spider . every_page do | page |
    puts ">>> #{ page . url } "

    page . search ( '//meta' ) . each do | meta |
      name = ( meta . attributes [ 'name' ] || meta . attributes [ 'http-equiv' ] )
      value = meta . attributes [ 'content' ]

      puts "  #{ name } = #{ value } "
    end
  end
end

Imprima os títulos de todas as páginas:

 Spidr . site ( 'https://www.ruby-lang.org/' ) do | spider |
  spider . every_html_page do | page |
    puts page . title
  end
end

Imprima todos os redirecionamentos HTTP:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_redirect_page do | page |
    puts " #{ page . url } -> #{ page . headers [ 'Location' ] } "
  end
end

Encontre que tipos de servidores da web um host está usando, acessando os cabeçalhos:

 servers = Set [ ]

Spidr . host ( 'company.com' ) do | spider |
  spider . all_headers do | headers |
    servers << headers [ 'server' ]
  end
end

Pause a aranha em uma página proibida:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_forbidden_page do | page |
    spider . pause!
  end
end

Pule o processamento de uma página:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_missing_page do | page |
    spider . skip_page!
  end
end

Pule o processamento de links:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_url do | url |
    if url . path . split ( '/' ) . find { | dir | dir . to_i > 1000 }
      spider . skip_link!
    end
  end
end