Como o Phantomjs é um navegador sem cabeça que pode executar o JS, ele também pode executar nós DOM, que é a melhor maneira de usá -lo para rastejamento na web.
Por exemplo, queremos arrepiar o conteúdo da página da web "hoje na história". site
Depois de observar a estrutura DOM, precisamos apenas obter o valor do título de .List li a. Por isso, usamos seletor avançado para construir fragmentos DOM
var d = '' var c = document.QuerySelectorAll ('. Lista li a') var L = c.Length; para (var i = 0; i <l; i ++) {d = d+c [i] .title+'/n'}Depois disso, só tenho que deixar o código JS executar em Phantomjs ~
var página = requer ('web pagage') .create (); página.open ('http://www.todayonhistory.com/', function (status) {// Abra a página se (status! document.QuerySelectorAll ('. List Li A') var L = C.Length; para (var i = 0; i <l; i ++) {d = d+c [i] .title+'/n'} retornar d}))} phantom.exit ();});Por fim, salvamos como catch.js, executamos -o no DOS e produzimos o conteúdo para o arquivo txt (você também pode usar a API do arquivo Phantomjs para escrever)