PhantomjsはJSを実行できるヘッドレスブラウザであるため、DOMノードを実行することもできます。これは、Webクローリングに使用する最良の方法です。
たとえば、「Today in History」のWebページのコンテンツをバッチクロールしたいと考えています。 Webサイト
DOM構造を観察した後、.list li aのタイトル値を取得する必要があります。そのため、高度なセレクターを使用してDOMフラグメントを構築します
var d = '' var c = document.queryselectorall( '。リストli a')var l = c.length; for(var i = 0; i <l; i ++){d = d+c [i] .title+'/n'}その後、jsコードをphantomjsで実行する必要があります〜
var page = require( 'webpage').create(); page.open( 'http://www.todayonhistory.com/'、function(status){//ページを開くif(status!== 'success'){console.log( '住所を読み込んでいない'); document.QuerySeLectorall('。listli a ')var l = c.length;最後に、catch.jsとして保存し、DOSでそれを実行し、コンテンツをTXTファイルに出力します(PhantomjsファイルAPIを使用して書き込むこともできます)