تنزيل spidr - تنزيل رمز المصدر spidr

spidr

بيانات الموقع

1.0.0

تنزيل

Spidr

الصفحة الرئيسية
مصدر
مشاكل
قائمة البريد

وصف

SPIDR هي مكتبة العنكبوت المتنوع على شبكة الإنترنت Ruby التي يمكنها العنكبوت أو المجالات المتعددة أو بعض الروابط أو بلا حدود. تم تصميم Spidr لتكون سريعة وسهلة الاستخدام.

سمات

يلي:
- a .
- علامات iframe .
- علامات frame .
- روابط محمية ملفات تعريف الارتباط.
- HTTP 300 ، 301 ، 302 ، 303 و 307 إعادة التوجيه.
- إعادة توجيه إعادة توجيه.
- HTTP BASIC AUTH الروابط المحمية.
قائمة عناوين URL ذات القائمة السوداء أو القائمة البيضاء بناءً على:
- مخطط URL.
- اسم المضيف
- رقم المنفذ
- رابط كامل
- تمديد URL
- اختياري /robots.txt دعم.
يوفر عمليات الاسترجاعات لـ:
- كل صفحة تمت زيارتها.
- كل عنوان URL الذي تمت زيارته.
- كل عنوان URL الذي تمت زيارته يطابق نمطًا محددًا.
- كل أصل ووجهة uri من الرابط.
- كل عنوان URL الذي فشل في زيارته.
يوفر طرق الإجراء ل:
- توقف عن العنكبوت.
- تخطي معالجة الصفحات.
- تخطي معالجة الروابط.
استعادة قائمة انتظار العنكبوت والتاريخ من جلسة سابقة.
سلاسل وكيل المستخدم المخصصة.
إعدادات الوكيل المخصصة.
دعم HTTPS.

أمثلة

ابدأ العنكبوت من عنوان URL:

 Spidr . start_at ( 'http://tenderlovemaking.com/' ) do | agent |
  # ...
end

العنكبوت مضيف:

 Spidr . host ( 'solnic.eu' ) do | agent |
  # ...
end

العنكبوت مجال (وأي مجالات فرعية):

 Spidr . domain ( 'ruby-lang.org' ) do | agent |
  # ...
end

موقع العنكبوت:

 Spidr . site ( 'http://www.rubyflow.com/' ) do | agent |
  # ...
end

مضيفين متعددة العنكبوت:

 Spidr . start_at ( 'http://company.com/' , hosts : [ 'company.com' , /host[ d ]+ . company . com/ ] ) do | agent |
  # ...
end

لا تقم ببعض الروابط:

 Spidr . site ( 'http://company.com/' , ignore_links : [ %{^/blog/} ] ) do | agent |
  # ...
end

لا تقم روابط العنكبوت على بعض المنافذ:

 Spidr . site ( 'http://company.com/' , ignore_ports : [ 8000 , 8010 , 8080 ] ) do | agent |
  # ...
end

لا تقم بربط العنكبوت المدرج في القائمة السوداء في robots.txt:

 Spidr . site ( 'http://company.com/' , robots : true ) do | agent |
  # ...
end

طباعة عناوين URL التي تمت زيارتها:

 Spidr . site ( 'http://www.rubyinside.com/' ) do | spider |
  spider . every_url { | url | puts url }
end

بناء خريطة URL لموقع ما:

 url_map = Hash . new { | hash , key | hash [ key ] = [ ] }

Spidr . site ( 'http://intranet.com/' ) do | spider |
  spider . every_link do | origin , dest |
    url_map [ dest ] << origin
  end
end

اطبع عناوين URL التي لا يمكن طلبها:

 Spidr . site ( 'http://company.com/' ) do | spider |
  spider . every_failed_url { | url | puts url }
end

يجد جميع الصفحات التي لها روابط مكسورة:

 url_map = Hash . new { | hash , key | hash [ key ] = [ ] }

spider = Spidr . site ( 'http://intranet.com/' ) do | spider |
  spider . every_link do | origin , dest |
    url_map [ dest ] << origin
  end
end

spider . failures . each do | url |
  puts "Broken link #{ url } found in:"

  url_map [ url ] . each { | page | puts "  #{ page } " }
end

ابحث في صفحات HTML و XML:

 Spidr . site ( 'http://company.com/' ) do | spider |
  spider . every_page do | page |
    puts ">>> #{ page . url } "

    page . search ( '//meta' ) . each do | meta |
      name = ( meta . attributes [ 'name' ] || meta . attributes [ 'http-equiv' ] )
      value = meta . attributes [ 'content' ]

      puts "  #{ name } = #{ value } "
    end
  end
end

اطبع العناوين من كل صفحة:

 Spidr . site ( 'https://www.ruby-lang.org/' ) do | spider |
  spider . every_html_page do | page |
    puts page . title
  end
end

اطبع كل إعادة توجيه HTTP:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_redirect_page do | page |
    puts " #{ page . url } -> #{ page . headers [ 'Location' ] } "
  end
end

ابحث عن أنواع خوادم الويب التي يستخدمها المضيف ، من خلال الوصول إلى الرؤوس:

 servers = Set [ ]

Spidr . host ( 'company.com' ) do | spider |
  spider . all_headers do | headers |
    servers << headers [ 'server' ]
  end
end

إيقاف العنكبوت على صفحة محظورة:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_forbidden_page do | page |
    spider . pause!
  end
end

تخطي معالجة الصفحة:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_missing_page do | page |
    spider . skip_page!
  end
end

تخطي معالجة الروابط:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_url do | url |
    if url . path . split ( '/' ) . find { | dir | dir . to_i > 1000 }
      spider . skip_link!
    end
  end
end