spidr ดาวน์โหลด - spidr Source Source Download

spidr

ข้อมูลเว็บไซต์

1.0.0

ดาวน์โหลด

spidr

หน้าแรก
แหล่งที่มา
ปัญหา
รายชื่อผู้รับจดหมาย

คำอธิบาย

SPIDR เป็นห้องสมุด Ruby Web Spidering อเนกประสงค์ที่สามารถแมงมุมไซต์ได้หลายโดเมนลิงก์บางอย่างหรือไม่ จำกัด SPIDR ได้รับการออกแบบให้ใช้งานง่ายและใช้งานง่าย

คุณสมบัติ

ดังนี้:
- a ก
- แท็ก iframe
- แท็ก frame
- ลิงค์ป้องกันคุกกี้
- HTTP 300, 301, 302, 303 และ 307 เปลี่ยนเส้นทาง
- การเปลี่ยนเส้นทาง Meta-refresh
- ลิงค์ป้องกันการรับรองความถูกต้องของ HTTP
URL รายการสีดำหรือสีขาวขึ้นอยู่กับ:
- โครงการ URL
- ชื่อโฮสต์
- หมายเลขพอร์ต
- ลิงค์เต็มรูปแบบ
- ส่วนขยาย URL
- ตัวเลือก /robots.txt สนับสนุน
ให้การโทรกลับสำหรับ:
- ทุกหน้าเยี่ยมชม
- URL ที่เข้าชมทุกครั้ง
- ทุก URL ที่เข้าชมที่ตรงกับรูปแบบที่ระบุ
- ทุกต้นกำเนิดและปลายทาง URI ของลิงค์
- ทุก URL ที่ไม่สามารถเยี่ยมชมได้
ให้วิธีการดำเนินการกับ:
- หยุดชั่วคราว
- ข้ามการประมวลผลของหน้า
- ข้ามการประมวลผลลิงก์
คืนค่าคิวสไปเดอร์และประวัติจากเซสชั่นก่อนหน้า
สตริงผู้ใช้ที่กำหนดเอง
การตั้งค่าพร็อกซีที่กำหนดเอง
การสนับสนุน https

ตัวอย่าง

เริ่ม Spidering จาก URL:

 Spidr . start_at ( 'http://tenderlovemaking.com/' ) do | agent |
  # ...
end

แมงมุมโฮสต์:

 Spidr . host ( 'solnic.eu' ) do | agent |
  # ...
end

แมงมุมโดเมน (และโดเมนย่อยใด ๆ ):

 Spidr . domain ( 'ruby-lang.org' ) do | agent |
  # ...
end

แมงมุมไซต์:

 Spidr . site ( 'http://www.rubyflow.com/' ) do | agent |
  # ...
end

แมงมุมหลายโฮสต์:

 Spidr . start_at ( 'http://company.com/' , hosts : [ 'company.com' , /host[ d ]+ . company . com/ ] ) do | agent |
  # ...
end

อย่าแมงมุมบางลิงก์:

 Spidr . site ( 'http://company.com/' , ignore_links : [ %{^/blog/} ] ) do | agent |
  # ...
end

อย่าลิงก์แมงมุมในบางพอร์ต:

 Spidr . site ( 'http://company.com/' , ignore_ports : [ 8000 , 8010 , 8080 ] ) do | agent |
  # ...
end

อย่าลิงก์แมงมุมสีดำใน robots.txt:

 Spidr . site ( 'http://company.com/' , robots : true ) do | agent |
  # ...
end

พิมพ์ URL ที่เข้าชม:

 Spidr . site ( 'http://www.rubyinside.com/' ) do | spider |
  spider . every_url { | url | puts url }
end

สร้างแผนที่ URL ของเว็บไซต์:

 url_map = Hash . new { | hash , key | hash [ key ] = [ ] }

Spidr . site ( 'http://intranet.com/' ) do | spider |
  spider . every_link do | origin , dest |
    url_map [ dest ] << origin
  end
end

พิมพ์ URL ที่ไม่สามารถขอได้:

 Spidr . site ( 'http://company.com/' ) do | spider |
  spider . every_failed_url { | url | puts url }
end

ค้นหาหน้าทั้งหมดที่มีลิงก์เสีย:

 url_map = Hash . new { | hash , key | hash [ key ] = [ ] }

spider = Spidr . site ( 'http://intranet.com/' ) do | spider |
  spider . every_link do | origin , dest |
    url_map [ dest ] << origin
  end
end

spider . failures . each do | url |
  puts "Broken link #{ url } found in:"

  url_map [ url ] . each { | page | puts "  #{ page } " }
end

ค้นหาหน้า HTML และ XML:

 Spidr . site ( 'http://company.com/' ) do | spider |
  spider . every_page do | page |
    puts ">>> #{ page . url } "

    page . search ( '//meta' ) . each do | meta |
      name = ( meta . attributes [ 'name' ] || meta . attributes [ 'http-equiv' ] )
      value = meta . attributes [ 'content' ]

      puts "  #{ name } = #{ value } "
    end
  end
end

พิมพ์ชื่อจากทุกหน้า:

 Spidr . site ( 'https://www.ruby-lang.org/' ) do | spider |
  spider . every_html_page do | page |
    puts page . title
  end
end

พิมพ์การเปลี่ยนเส้นทาง HTTP ทุกครั้ง:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_redirect_page do | page |
    puts " #{ page . url } -> #{ page . headers [ 'Location' ] } "
  end
end

ค้นหาเว็บเซิร์ฟเวอร์ประเภทใดที่โฮสต์ใช้โดยการเข้าถึงส่วนหัว:

 servers = Set [ ]

Spidr . host ( 'company.com' ) do | spider |
  spider . all_headers do | headers |
    servers << headers [ 'server' ]
  end
end

หยุดแมงมุมในหน้าต้องห้าม:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_forbidden_page do | page |
    spider . pause!
  end
end

ข้ามการประมวลผลของหน้า:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_missing_page do | page |
    spider . skip_page!
  end
end

ข้ามการประมวลผลของลิงก์:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_url do | url |
    if url . path . split ( '/' ) . find { | dir | dir . to_i > 1000 }
      spider . skip_link!
    end
  end
end