Поскольку Phantomjs - это безголовный браузер, который может запускать JS, он также может запускать узлы DOM, что является лучшим способом использовать его для веб -ползания.
Например, мы хотим пробить контент веб -страницы «сегодня в истории». веб -сайт
Наблюдая за структурой DOM, нам нужно только получить значение заголовка .list Li A. Таким образом, мы используем расширенный селектор для создания фрагментов DOM
var d = '' var c = document.queryselectorall ('.. Список li a') var l = c.length; for (var i = 0; i <l; i ++) {d = d+c [i] .title+'/n'}После этого просто нужно позволить коду JS работать в Phantomjs ~
page page = require ('webpage') .create (); page.open ('http://www.todayonhistory.com/', function (status) {// открыть страницу if (status! == 'success') {console.log ('не загружать адрес');} else {console.log (page. document.queryselectorall ('. Список li a') var l = c.length; for (var i = 0; i <l; i ++) {d = d+c [i] .title+'/n'} return d})} phantom.exit ();});Наконец, мы сохраняем как catch.js, выполняем его в DOS и выводим контент в файл TXT (вы также можете использовать API файла Phantomjs для записи)