รหัสการใช้งานสำหรับการรวบรวมข้อมูลบนเว็บโดยใช้ phantomjs

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-05-16 11:48:02

เนื่องจาก Phantomjs เป็นเบราว์เซอร์ที่ไม่มีหัวซึ่งสามารถเรียกใช้ JS ได้จึงสามารถเรียกใช้โหนด DOM ซึ่งเป็นวิธีที่ดีที่สุดในการใช้งานสำหรับการรวบรวมข้อมูลเว็บ

ตัวอย่างเช่นเราต้องการแบทช์รวบรวมข้อมูลเนื้อหาของหน้าเว็บ "วันนี้ในประวัติศาสตร์" เว็บไซต์

หลังจากสังเกตโครงสร้าง DOM เราจะต้องได้รับค่าชื่อของ. list li a ดังนั้นเราจึงใช้ตัวเลือกขั้นสูงเพื่อสร้างชิ้นส่วน DOM

 var d = '' var c = document.QuerySelectorAll ('รายการ li a') var l = c.length; สำหรับ (var i = 0; i <l; i ++) {d = d+c [i] .title+'/n'}

หลังจากนั้นเพียงแค่ให้รหัส JS ทำงานใน Phantomjs ~

 var page = ต้องการ ('เว็บเพจ') .create (); page.open ('http://www.todayonhistory.com/', ฟังก์ชั่น (สถานะ) {// เปิดหน้าถ้า (สถานะ! == 'ความสำเร็จ') {console.log ('ไม่สามารถโหลดที่อยู่'); Document.QuerySelectorall ('. รายการ li a') var l = c.length; สำหรับ (var i = 0; i <l; i ++) {d = d+c [i] .title+'/n'} return d}))} phantom.exit ();});

ในที่สุดเราบันทึกเป็น catch.js ดำเนินการใน DOS และส่งออกเนื้อหาไปยังไฟล์ txt (คุณสามารถใช้ไฟล์ phantomjs API เพื่อเขียน)