Karena phantomjs adalah browser tanpa kepala yang dapat menjalankan JS, ia juga dapat menjalankan node DOM, yang merupakan cara terbaik untuk menggunakannya untuk merangkak web.
Misalnya, kami ingin batch merayapi konten halaman web "hari ini dalam sejarah". situs web
Setelah mengamati struktur DOM, kita hanya perlu mendapatkan nilai judul .list li a. Jadi kami menggunakan pemilih canggih untuk membangun fragmen DOM
var d = '' var c = document.queryselectorAll ('. Daftar li a') var l = c.length; for (var i = 0; i <l; i ++) {d = d+c [i] .title+'/n'}Setelah itu, hanya harus membiarkan kode JS berjalan di Phantomjs ~
var page = membutuhkan ('WebPage') .create (); page.open ('http://www.todayonhistory.com/', function (status) {// buka halaman if (status! == 'Success') {console.log ('gagal memuat alamat');} else {console.log. Document.QuerySelectorAll ('. Daftar li a') var l = c.length; for (var i = 0; i <l; i ++) {d = d+c [i] .title+'/n'} return d}))} phantom.exit ();});Akhirnya, kami menyimpan sebagai catch.js, menjalankannya di dos, dan mengeluarkan konten ke file txt (Anda juga dapat menggunakan file phantomjs untuk menulis)