Téléchargement spidr - Téléchargement du code source spidr

spidr

Données du site Web

1.0.0

Télécharger

Spiidr

Page d'accueil
Source
Problèmes
Liste de diffusion

Description

SPIDR est une bibliothèque d'araignée Web Ruby polyvalente qui peut arder un site, plusieurs domaines, certains liens ou infiniment. SPIDR est conçu pour être rapide et facile à utiliser.

Caractéristiques

Suit:
- a Tags.
- Tags iframe .
- Tags frame .
- Liens protégés par des cookies.
- Redirection HTTP 300, 301, 302, 303 et 307.
- Redirection de méta-refresh.
- HTTP Basic Auth Protected Links.
URL de liste noire ou de liste blanche basée sur:
- Schéma d'URL.
- Nom d'hôte
- Numéro de port
- Lien complet
- Extension URL
- Prise en charge /robots.txt facultative.
Fournit des rappels pour:
- Chaque page visitée.
- Chaque URL visitée.
- Chaque URL visitée qui correspond à un modèle spécifié.
- Chaque URI d'origine et de destination d'un lien.
- Chaque URL qui n'a pas été visitée.
Fournit des méthodes d'action à:
- Pause araigner.
- Sautez le traitement des pages.
- Ignorez le traitement des liens.
Restaurez la file d'attente et l'historique de l'augmentation d'une session précédente.
Chaînes d'agent utilisateur personnalisées.
Paramètres de proxy personnalisés.
Prise en charge HTTPS.

Exemples

Commencez à arranger d'une URL:

 Spidr . start_at ( 'http://tenderlovemaking.com/' ) do | agent |
  # ...
end

Spider un hôte:

 Spidr . host ( 'solnic.eu' ) do | agent |
  # ...
end

Spider un domaine (et tous les sous-domaines):

 Spidr . domain ( 'ruby-lang.org' ) do | agent |
  # ...
end

Spider A Site:

 Spidr . site ( 'http://www.rubyflow.com/' ) do | agent |
  # ...
end

Spider plusieurs hôtes:

 Spidr . start_at ( 'http://company.com/' , hosts : [ 'company.com' , /host[ d ]+ . company . com/ ] ) do | agent |
  # ...
end

N'atteignez pas certains liens:

 Spidr . site ( 'http://company.com/' , ignore_links : [ %{^/blog/} ] ) do | agent |
  # ...
end

Ne pas arder sur certains ports:

 Spidr . site ( 'http://company.com/' , ignore_ports : [ 8000 , 8010 , 8080 ] ) do | agent |
  # ...
end

Ne pas les liens d'araignées sur liste noire dans robots.txt:

 Spidr . site ( 'http://company.com/' , robots : true ) do | agent |
  # ...
end

Imprimez les URL visitées:

 Spidr . site ( 'http://www.rubyinside.com/' ) do | spider |
  spider . every_url { | url | puts url }
end

Construisez une carte URL d'un site:

 url_map = Hash . new { | hash , key | hash [ key ] = [ ] }

Spidr . site ( 'http://intranet.com/' ) do | spider |
  spider . every_link do | origin , dest |
    url_map [ dest ] << origin
  end
end

Imprimez les URL qui ne pouvaient pas être demandées:

 Spidr . site ( 'http://company.com/' ) do | spider |
  spider . every_failed_url { | url | puts url }
end

Trouve toutes les pages qui ont des liens cassés:

 url_map = Hash . new { | hash , key | hash [ key ] = [ ] }

spider = Spidr . site ( 'http://intranet.com/' ) do | spider |
  spider . every_link do | origin , dest |
    url_map [ dest ] << origin
  end
end

spider . failures . each do | url |
  puts "Broken link #{ url } found in:"

  url_map [ url ] . each { | page | puts "  #{ page } " }
end

Recherchez des pages HTML et XML:

 Spidr . site ( 'http://company.com/' ) do | spider |
  spider . every_page do | page |
    puts ">>> #{ page . url } "

    page . search ( '//meta' ) . each do | meta |
      name = ( meta . attributes [ 'name' ] || meta . attributes [ 'http-equiv' ] )
      value = meta . attributes [ 'content' ]

      puts "  #{ name } = #{ value } "
    end
  end
end

Imprimez les titres de chaque page:

 Spidr . site ( 'https://www.ruby-lang.org/' ) do | spider |
  spider . every_html_page do | page |
    puts page . title
  end
end

Imprimez chaque redirection HTTP:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_redirect_page do | page |
    puts " #{ page . url } -> #{ page . headers [ 'Location' ] } "
  end
end

Trouvez les types de serveurs Web qu'un hôte utilise, en accédant aux en-têtes:

 servers = Set [ ]

Spidr . host ( 'company.com' ) do | spider |
  spider . all_headers do | headers |
    servers << headers [ 'server' ]
  end
end

Pause l'araignée sur une page interdite:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_forbidden_page do | page |
    spider . pause!
  end
end

Ignorez le traitement d'une page:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_missing_page do | page |
    spider . skip_page!
  end
end

Ignorez le traitement des liens:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_url do | url |
    if url . path . split ( '/' ) . find { | dir | dir . to_i > 1000 }
      spider . skip_link!
    end
  end
end