Скачать spidr - Скачать исходный код spidr

spidr

Данные веб-сайта

1.0.0

Скачать

Spidr

Домашняя страница
Источник
Проблемы
Список рассылки

Описание

SPIDR - это универсальная библиотека Ruby Web Spiding, которая может паучить сайт, несколько доменов, определенные ссылки или бесконечно. SPIDR предназначен для быстрого и простых в использовании.

Функции

Следует:
- a .
- iframe теги.
- теги frame .
- Cookie защищенные ссылки.
- Http 300, 301, 302, 303 и 307 перенаправления.
- Мета-рефреш перенаправления.
- HTTP Basic Auth Охраняемые ссылки.
Черно-спирт или белые URL-адреса на основе:
- URL -схема.
- Имя хоста
- Номер порта
- Полная ссылка
- Расширение URL
- Необязательная поддержка /robots.txt .
Предоставляет обратные вызовы для:
- Каждая посещаемая страница.
- Каждый посетил URL.
- Каждый посещаемый URL, который соответствует указанному шаблону.
- Каждое происхождение и назначение URI ссылки.
- Каждый URL, который не был посещен.
Обеспечивает методы действия для:
- Пауза паучина.
- Пропустить обработку страниц.
- Пропустить обработку ссылок.
Восстановите очередь и историю в предыдущей сессии.
Пользовательские строки пользовательского агента.
Пользовательские настройки прокси.
Поддержка HTTPS.

Примеры

Начните пауку с URL:

 Spidr . start_at ( 'http://tenderlovemaking.com/' ) do | agent |
  # ...
end

Паук хозяин:

 Spidr . host ( 'solnic.eu' ) do | agent |
  # ...
end

Spider A Domain (и любые поддомены):

 Spidr . domain ( 'ruby-lang.org' ) do | agent |
  # ...
end

Spider a сайт:

 Spidr . site ( 'http://www.rubyflow.com/' ) do | agent |
  # ...
end

Паук несколько хостов:

 Spidr . start_at ( 'http://company.com/' , hosts : [ 'company.com' , /host[ d ]+ . company . com/ ] ) do | agent |
  # ...
end

Не паутируйте определенные ссылки:

 Spidr . site ( 'http://company.com/' , ignore_links : [ %{^/blog/} ] ) do | agent |
  # ...
end

Не ссылаются на пауки на определенных портах:

 Spidr . site ( 'http://company.com/' , ignore_ports : [ 8000 , 8010 , 8080 ] ) do | agent |
  # ...
end

Не ссылаются на пауки в черном списке в robots.txt:

 Spidr . site ( 'http://company.com/' , robots : true ) do | agent |
  # ...
end

Распечатать посещение URL:

 Spidr . site ( 'http://www.rubyinside.com/' ) do | spider |
  spider . every_url { | url | puts url }
end

Создайте карту URL сайта:

 url_map = Hash . new { | hash , key | hash [ key ] = [ ] }

Spidr . site ( 'http://intranet.com/' ) do | spider |
  spider . every_link do | origin , dest |
    url_map [ dest ] << origin
  end
end

Распечатайте URL -адреса, которые нельзя попросить:

 Spidr . site ( 'http://company.com/' ) do | spider |
  spider . every_failed_url { | url | puts url }
end

Находит все страницы, которые имеют разбитые ссылки:

 url_map = Hash . new { | hash , key | hash [ key ] = [ ] }

spider = Spidr . site ( 'http://intranet.com/' ) do | spider |
  spider . every_link do | origin , dest |
    url_map [ dest ] << origin
  end
end

spider . failures . each do | url |
  puts "Broken link #{ url } found in:"

  url_map [ url ] . each { | page | puts "  #{ page } " }
end

Поиск HTML и XML -страницы:

 Spidr . site ( 'http://company.com/' ) do | spider |
  spider . every_page do | page |
    puts ">>> #{ page . url } "

    page . search ( '//meta' ) . each do | meta |
      name = ( meta . attributes [ 'name' ] || meta . attributes [ 'http-equiv' ] )
      value = meta . attributes [ 'content' ]

      puts "  #{ name } = #{ value } "
    end
  end
end

Распечатайте названия с каждой страницы:

 Spidr . site ( 'https://www.ruby-lang.org/' ) do | spider |
  spider . every_html_page do | page |
    puts page . title
  end
end

Распечатайте каждый http redirect:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_redirect_page do | page |
    puts " #{ page . url } -> #{ page . headers [ 'Location' ] } "
  end
end

Найдите, какие виды веб -серверов использует хост, получив доступ к заголовкам:

 servers = Set [ ]

Spidr . host ( 'company.com' ) do | spider |
  spider . all_headers do | headers |
    servers << headers [ 'server' ]
  end
end

Сделайте паузу на запрещенной странице:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_forbidden_page do | page |
    spider . pause!
  end
end

Пропустите обработку страницы:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_missing_page do | page |
    spider . skip_page!
  end
end

Пропустите обработку ссылок:

 Spidr . host ( 'company.com' ) do | spider |
  spider . every_url do | url |
    if url . path . split ( '/' ) . find { | dir | dir . to_i > 1000 }
      spider . skip_link!
    end
  end
end