Unduh spidr - Unduh Kode Sumber spidr

spidr

Data situs web

1.0.0

Unduh

Spidr

Beranda
Sumber
Masalah
Milis

Keterangan

SPIDR adalah perpustakaan spidering web ruby serbaguna yang dapat meningkatkan situs, beberapa domain, tautan tertentu atau tanpa batas. Spidr dirancang untuk menjadi cepat dan mudah digunakan.

Fitur

Berikut:
- a .
- tag iframe .
- Tag frame .
- Tautan yang dilindungi cookie.
- HTTP 300, 301, 302, 303 dan 307 pengalihan.
- Redirek Meta-Refresh.
- HTTP BASIC AUTH LINK yang dilindungi.
URL daftar hitam atau daftar putih berdasarkan:
- Skema URL.
- Nama host
- Nomor Port
- Tautan lengkap
- Ekstensi URL
- Dukungan opsional /robots.txt .
Memberikan panggilan balik untuk:
- Setiap halaman yang dikunjungi.
- Setiap url yang dikunjungi.
- Setiap URL yang dikunjungi yang cocok dengan pola tertentu.
- Setiap asal dan tujuan tautan.
- Setiap URL yang gagal dikunjungi.
Memberikan metode tindakan untuk:
- Jeda Spidering.
- Lewati pemrosesan halaman.
- Lewati pemrosesan tautan.
Kembalikan antrian dan sejarah spidering dari sesi sebelumnya.
String agen pengguna khusus.
Pengaturan Proxy Kustom.
Dukungan HTTPS.

Contoh

Mulai Spidering dari URL:

 Spidr . start_at ( 'http://tenderlovemaking.com/' ) do | agent |
  # ...
end

Laba -laba tuan rumah:

 Spidr . host ( 'solnic.eu' ) do | agent |
  # ...
end

Laba-laba domain (dan sub-domain apa pun):

 Spidr . domain ( 'ruby-lang.org' ) do | agent |
  # ...
end

Laba -laba situs:

 Spidr . site ( 'http://www.rubyflow.com/' ) do | agent |
  # ...
end

Laba -laba beberapa host:

 Spidr . start_at ( 'http://company.com/' , hosts : [ 'company.com' , /host[ d ]+ . company . com/ ] ) do | agent |
  # ...
end

Jangan laba -laba tautan tertentu:

 Spidr . site ( 'http://company.com/' , ignore_links : [ %{^/blog/} ] ) do | agent |
  # ...
end

Jangan tautan laba -laba di port tertentu:

 Spidr . site ( 'http://company.com/' , ignore_ports : [ 8000 , 8010 , 8080 ] ) do | agent |
  # ...
end

JANGAN LAGU Tautan Blacklisted di Robots.txt:

 Spidr . site ( 'http://company.com/' , robots : true ) do | agent |
  # ...
end

Cetak URL yang dikunjungi:

 Spidr . site ( 'http://www.rubyinside.com/' ) do | spider |
  spider . every_url { | url | puts url }
end

Bangun peta URL dari suatu situs:

 url_map = Hash . new { | hash , key | hash [ key ] = [ ] }

Spidr . site ( 'http://intranet.com/' ) do | spider |
  spider . every_link do | origin , dest |
    url_map [ dest ] << origin
  end
end

Cetak URL yang tidak dapat diminta:

 Spidr . site ( 'http://company.com/' ) do | spider |
  spider . every_failed_url { | url | puts url }
end

Temukan semua halaman yang memiliki tautan rusak:

 url_map = Hash . new { | hash , key | hash [ key ] = [ ] }

spider = Spidr . site ( 'http://intranet.com/' ) do | spider |
  spider . every_link do | origin , dest |
    url_map [ dest ] << origin
  end
end

spider . failures . each do | url |
  puts "Broken link #{ url } found in:"

  url_map [ url ] . each { | page | puts "  #{ page } " }
end

Cari halaman HTML dan XML:

 Spidr . site ( 'http://company.com/' ) do | spider |
  spider . every_page do | page |
    puts ">>> #{ page . url } "

    page . search ( '//meta' ) . each do | meta |
      name = ( meta . attributes [ 'name' ] || meta . attributes [ 'http-equiv' ] )
      value = meta . attributes [ 'content' ]

      puts "  #{ name } = #{ value } "
    end
  end
end

Cetak judul dari setiap halaman:

 Spidr . site ( 'https://www.ruby-lang.org/' ) do | spider |
  spider . every_html_page do | page |
    puts page . title
  end
end

Cetak setiap pengalihan http:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_redirect_page do | page |
    puts " #{ page . url } -> #{ page . headers [ 'Location' ] } "
  end
end

Temukan jenis server web apa yang digunakan host, dengan mengakses header:

 servers = Set [ ]

Spidr . host ( 'company.com' ) do | spider |
  spider . all_headers do | headers |
    servers << headers [ 'server' ]
  end
end

Jeda laba -laba di halaman terlarang:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_forbidden_page do | page |
    spider . pause!
  end
end

Lewati pemrosesan halaman:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_missing_page do | page |
    spider . skip_page!
  end
end

Lewati pemrosesan tautan:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_url do | url |
    if url . path . split ( '/' ) . find { | dir | dir . to_i > 1000 }
      spider . skip_link!
    end
  end
end