Descargar spidr - spidr el código fuente SPIDR

spidr

Datos del sitio web

1.0.0

Descargar

Spidr

Página principal
Fuente
Asuntos
Lista de correo

Descripción

SPIDR es una biblioteca versátil Ruby Web Spidering que puede arañar un sitio, múltiples dominios, ciertos enlaces o infinitamente. SPIDR está diseñado para ser rápido y fácil de usar.

Características

Sigue:
- a etiqueta.
- Etiquetas de iframe .
- Etiquetas frame .
- Enlaces protegidos por cookies.
- HTTP 300, 301, 302, 303 y 307 redireccionamientos.
- Meta-refresh redirige.
- HTTP Auth básico de enlaces protegidos.
URL de lista negra o de lista blanca basadas en:
- Esquema de URL.
- Nombre de host
- Número de puerto
- Enlace completo
- Extensión de URL
- Soporte opcional /robots.txt .
Proporciona devoluciones de llamada para:
- Cada página visitada.
- Cada URL visitada.
- Cada URL visitada que coincide con un patrón especificado.
- Cada origen y destino URI de un enlace.
- Cada URL que no se visitó.
Proporciona métodos de acción para:
- Pausa de araña.
- Skip Processing of Pages.
- Skip Processing de enlaces.
Restaurar la cola y la historia de una sesión anterior.
Cadenas de agentes de usuario personalizados.
Configuración de proxy personalizada.
Soporte HTTPS.

Ejemplos

Comience a arener desde una URL:

 Spidr . start_at ( 'http://tenderlovemaking.com/' ) do | agent |
  # ...
end

Spider A Host:

 Spidr . host ( 'solnic.eu' ) do | agent |
  # ...
end

Araña un dominio (y cualquier subdominio):

 Spidr . domain ( 'ruby-lang.org' ) do | agent |
  # ...
end

Spider A Sitio:

 Spidr . site ( 'http://www.rubyflow.com/' ) do | agent |
  # ...
end

Spider Múltiples hosts:

 Spidr . start_at ( 'http://company.com/' , hosts : [ 'company.com' , /host[ d ]+ . company . com/ ] ) do | agent |
  # ...
end

No arañen ciertos enlaces:

 Spidr . site ( 'http://company.com/' , ignore_links : [ %{^/blog/} ] ) do | agent |
  # ...
end

No sean enlaces en ciertos puertos:

 Spidr . site ( 'http://company.com/' , ignore_ports : [ 8000 , 8010 , 8080 ] ) do | agent |
  # ...
end

No enlaces de araña en la lista negra en robots.txt:

 Spidr . site ( 'http://company.com/' , robots : true ) do | agent |
  # ...
end

Imprima las URL visitadas:

 Spidr . site ( 'http://www.rubyinside.com/' ) do | spider |
  spider . every_url { | url | puts url }
end

Construya un mapa de URL de un sitio:

 url_map = Hash . new { | hash , key | hash [ key ] = [ ] }

Spidr . site ( 'http://intranet.com/' ) do | spider |
  spider . every_link do | origin , dest |
    url_map [ dest ] << origin
  end
end

Imprima las URL que no se pudieron solicitar:

 Spidr . site ( 'http://company.com/' ) do | spider |
  spider . every_failed_url { | url | puts url }
end

Encuentra todas las páginas que tienen enlaces rotos:

 url_map = Hash . new { | hash , key | hash [ key ] = [ ] }

spider = Spidr . site ( 'http://intranet.com/' ) do | spider |
  spider . every_link do | origin , dest |
    url_map [ dest ] << origin
  end
end

spider . failures . each do | url |
  puts "Broken link #{ url } found in:"

  url_map [ url ] . each { | page | puts "  #{ page } " }
end

Buscar páginas HTML y XML:

 Spidr . site ( 'http://company.com/' ) do | spider |
  spider . every_page do | page |
    puts ">>> #{ page . url } "

    page . search ( '//meta' ) . each do | meta |
      name = ( meta . attributes [ 'name' ] || meta . attributes [ 'http-equiv' ] )
      value = meta . attributes [ 'content' ]

      puts "  #{ name } = #{ value } "
    end
  end
end

Imprima los títulos de cada página:

 Spidr . site ( 'https://www.ruby-lang.org/' ) do | spider |
  spider . every_html_page do | page |
    puts page . title
  end
end

Imprima cada redirección HTTP:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_redirect_page do | page |
    puts " #{ page . url } -> #{ page . headers [ 'Location' ] } "
  end
end

Encuentre qué tipos de servidores web están utilizando un host, accediendo a los encabezados:

 servers = Set [ ]

Spidr . host ( 'company.com' ) do | spider |
  spider . all_headers do | headers |
    servers << headers [ 'server' ]
  end
end

Pausa la araña en una página prohibida:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_forbidden_page do | page |
    spider . pause!
  end
end

Omita el procesamiento de una página:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_missing_page do | page |
    spider . skip_page!
  end
end

Omita el procesamiento de enlaces:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_url do | url |
    if url . path . split ( '/' ) . find { | dir | dir . to_i > 1000 }
      spider . skip_link!
    end
  end
end