Phantomjsを使用したWebクロールの実装コード

著者：Eve Cole 更新時間：2025-05-16 11:48:02

PhantomjsはJSを実行できるヘッドレスブラウザであるため、DOMノードを実行することもできます。これは、Webクローリングに使用する最良の方法です。

たとえば、「Today in History」のWebページのコンテンツをバッチクロールしたいと考えています。 Webサイト

DOM構造を観察した後、.list li aのタイトル値を取得する必要があります。そのため、高度なセレクターを使用してDOMフラグメントを構築します

var d = '' var c = document.queryselectorall（ '。リストli a'）var l = c.length; for（var i = 0; i <l; i ++）{d = d+c [i] .title+'/n'}

その後、jsコードをphantomjsで実行する必要があります〜

 var page = require（ 'webpage'）.create（）; page.open（ 'http://www.todayonhistory.com/'、function（status）{//ページを開くif（status！== 'success'）{console.log（ '住所を読み込んでいない'）; document.QuerySeLectorall（'。listli a '）var l = c.length;

最後に、catch.jsとして保存し、DOSでそれを実行し、コンテンツをTXTファイルに出力します（PhantomjsファイルAPIを使用して書き込むこともできます）