spidr
1.0.0
SPIDR เป็นห้องสมุด Ruby Web Spidering อเนกประสงค์ที่สามารถแมงมุมไซต์ได้หลายโดเมนลิงก์บางอย่างหรือไม่ จำกัด SPIDR ได้รับการออกแบบให้ใช้งานง่ายและใช้งานง่าย
a กiframeframe/robots.txt สนับสนุนเริ่ม Spidering จาก URL:
Spidr . start_at ( 'http://tenderlovemaking.com/' ) do | agent |
# ...
endแมงมุมโฮสต์:
Spidr . host ( 'solnic.eu' ) do | agent |
# ...
endแมงมุมโดเมน (และโดเมนย่อยใด ๆ ):
Spidr . domain ( 'ruby-lang.org' ) do | agent |
# ...
endแมงมุมไซต์:
Spidr . site ( 'http://www.rubyflow.com/' ) do | agent |
# ...
endแมงมุมหลายโฮสต์:
Spidr . start_at ( 'http://company.com/' , hosts : [ 'company.com' , /host[ d ]+ . company . com/ ] ) do | agent |
# ...
endอย่าแมงมุมบางลิงก์:
Spidr . site ( 'http://company.com/' , ignore_links : [ %{^/blog/} ] ) do | agent |
# ...
endอย่าลิงก์แมงมุมในบางพอร์ต:
Spidr . site ( 'http://company.com/' , ignore_ports : [ 8000 , 8010 , 8080 ] ) do | agent |
# ...
endอย่าลิงก์แมงมุมสีดำใน robots.txt:
Spidr . site ( 'http://company.com/' , robots : true ) do | agent |
# ...
endพิมพ์ URL ที่เข้าชม:
Spidr . site ( 'http://www.rubyinside.com/' ) do | spider |
spider . every_url { | url | puts url }
endสร้างแผนที่ URL ของเว็บไซต์:
url_map = Hash . new { | hash , key | hash [ key ] = [ ] }
Spidr . site ( 'http://intranet.com/' ) do | spider |
spider . every_link do | origin , dest |
url_map [ dest ] << origin
end
endพิมพ์ URL ที่ไม่สามารถขอได้:
Spidr . site ( 'http://company.com/' ) do | spider |
spider . every_failed_url { | url | puts url }
endค้นหาหน้าทั้งหมดที่มีลิงก์เสีย:
url_map = Hash . new { | hash , key | hash [ key ] = [ ] }
spider = Spidr . site ( 'http://intranet.com/' ) do | spider |
spider . every_link do | origin , dest |
url_map [ dest ] << origin
end
end
spider . failures . each do | url |
puts "Broken link #{ url } found in:"
url_map [ url ] . each { | page | puts " #{ page } " }
endค้นหาหน้า HTML และ XML:
Spidr . site ( 'http://company.com/' ) do | spider |
spider . every_page do | page |
puts ">>> #{ page . url } "
page . search ( '//meta' ) . each do | meta |
name = ( meta . attributes [ 'name' ] || meta . attributes [ 'http-equiv' ] )
value = meta . attributes [ 'content' ]
puts " #{ name } = #{ value } "
end
end
endพิมพ์ชื่อจากทุกหน้า:
Spidr . site ( 'https://www.ruby-lang.org/' ) do | spider |
spider . every_html_page do | page |
puts page . title
end
endพิมพ์การเปลี่ยนเส้นทาง HTTP ทุกครั้ง:
Spidr . host ( 'company.com' ) do | spider |
spider . every_redirect_page do | page |
puts " #{ page . url } -> #{ page . headers [ 'Location' ] } "
end
endค้นหาเว็บเซิร์ฟเวอร์ประเภทใดที่โฮสต์ใช้โดยการเข้าถึงส่วนหัว:
servers = Set [ ]
Spidr . host ( 'company.com' ) do | spider |
spider . all_headers do | headers |
servers << headers [ 'server' ]
end
endหยุดแมงมุมในหน้าต้องห้าม:
Spidr . host ( 'company.com' ) do | spider |
spider . every_forbidden_page do | page |
spider . pause!
end
endข้ามการประมวลผลของหน้า:
Spidr . host ( 'company.com' ) do | spider |
spider . every_missing_page do | page |
spider . skip_page!
end
endข้ามการประมวลผลของลิงก์:
Spidr . host ( 'company.com' ) do | spider |
spider . every_url do | url |
if url . path . split ( '/' ) . find { | dir | dir . to_i > 1000 }
spider . skip_link!
end
end
end $ gem install spidrดู {ไฟล์: license.txt} สำหรับข้อมูลใบอนุญาต