Xidel - это инструмент командной строки для загрузки и извлечения данных со страниц HTML/XML с использованием селекторов CSS, XPATH/XQUERY 3.0, а также запросы файлов JSON или API (например, REST) с использованием JSONIQ.
Существуют двоичные файлы без зависимости для Windows, Linux и Mac.
Это обертка вокруг моих интернет -инструментов Pascal (см. Repository Internettools), поэтому она поддерживает XPath 2.0, XPath 3.0, Xquery 1.0, Xquery 3.0, Jsoniq, CSS Selectors и мои собственные расширения/языки (например, сопоставление рисунков), и если вы можете компилировать этот проект, вы можете составить Xidel.
Простой пример для возврата названий всех страниц, связанных с какой -то начальной страницей:
xidel http://example.org --follow //a --extract //title
или проще
xidel http://example.org -f //a -e //title
Является явно выбранный язык. Например
xidel input.html --css 'a'
xidel input.html --xpath '//a/@href'
xidel input.html --xquery 'for $var in //a order by $var return $var'
Возвращает все ссылки, целевой URI каждой ссылки или текст всех ссылок в алфавитном порядке.
На приведенной выше странице есть больше примеров с двоичными файлами, вики Github и в примерах каталога.
Вы можете собрать его, позвонив build.sh и установив, позвонив build.sh -t . В качестве альтернативы вы можете скомпилировать его с Lazarus IDE.
Вы можете позвонить в сценарий .travis.yml для загрузки зависимостей.