Phantomjs는 JS를 실행할 수있는 헤드리스 브라우저이기 때문에 DOM 노드를 실행할 수도 있으며 이는 웹 크롤링에 사용하는 가장 좋은 방법입니다.
예를 들어, 우리는 웹 페이지의 "오늘 역사상"의 내용을 크롤링하고 싶습니다. 웹 사이트
DOM 구조를 관찰 한 후에는 .list li a의 제목 값 만 가져와야합니다. 그래서 우리는 고급 선택기를 사용하여 DOM 조각을 구축합니다
var d = ''var c = docut
그 후, JS 코드가 Phantomjs에서 실행하도록해야합니다 ~
var page = require ( 'webpage') .create (); page.open ( 'http://www.todayonhistory.com/', function (status) {// if (status! == 'success') {console.log ( '주소를로드 실패'); document.querySelectorall ( '. list li a') var l = c.length; for (var i = 0; i <l; i ++) {d = d+c [i] .Title+'/n'} return d})} phantom.exit ();});마지막으로 Catch.js로 저장하고 DOS로 실행하고 컨텐츠를 TXT 파일로 출력합니다 (Phantomjs 파일 API를 사용하여 쓸 수도 있음).