Código de implementación para rastreo web utilizando PhantomJS

Autor：Eve Cole Fecha de actualización：2025-05-16 11:48:02

Debido a que PhantomJS es un navegador sin cabeza que puede ejecutar JS, también puede ejecutar nodos DOM, que es la mejor manera de usarlo para el rastreo web.

Por ejemplo, queremos rastrear el contenido de la página web "hoy en la historia". sitio web

Después de observar la estructura DOM, solo necesitamos obtener el valor del título de .list li a. Entonces usamos el selector avanzado para construir fragmentos DOM

 var d = '' var c = document.queryselectorall ('. List li a') var l = C.Length; for (var i = 0; i <l; i ++) {d = d+c [i] .title+'/n'}

Después de eso, solo tengo que dejar que el código JS se ejecute en Phantomjs ~

 var page = request ('webpage') .create (); page.open ('http://www.todayonhistory.com/', function (status) {// abre la página if (status! == 'suctar') {console.log ('falla en cargar la dirección');} else {console.log (page.evaluate (function () {Var d = '' '' Var c = 'Var c =' Var C = 'Var C =' document.QueryselectorAll ('. LId Li A') var l = C.Length; for (var i = 0; i <l; i ++) {d = d+c [i] .title+'/n'} return d}))} phantom.exit ();});

Finalmente, guardamos como capt.js, lo ejecutamos en DOS y generamos el contenido al archivo txt (también puede usar la API del archivo PhantomJS para escribir)