复制代码代码如下:
แพ็คเกจ com.letv.cloud.spider;
นำเข้า java.util.hashset;
นำเข้า java.util.list;
นำเข้า us.codecraft.webmagic.page;
นำเข้า us.codecraft.webmagic.site;
นำเข้า us.codecraft.webmagic.spider;
นำเข้า us.codecraft.webmagic.processor.pageprocessor;
คลาสสาธารณะ MoviePaperPageProcessor ใช้ PageProcessor {
หน้าไซต์ส่วนตัว = site.me (). setRetryTimes (3) .setSleeptime (1,000);
เว็บไซต์สาธารณะ GetSite () {
หน้ากลับ;
-
กระบวนการโมฆะสาธารณะ (หน้าหน้า) {
รายการ <String> links = page.getHtml () ลิงก์ (). regex (
"http://posters.aa.com/poster//d+") .All ();
links = removedUplication (ลิงก์);
page.addtargetRequests (ลิงก์);
page.putfield ("title", page.gethtml (). xpath (
"// div [@id = 'imdbleftsecc']/center/h1/text ()"). toString ());
page.putfield ("imgurl", page.gethtml (). xpath (
"// div [@id = 'imdbleftsecc']/center/img/@src"). toString ());
-
โมฆะคงที่สาธารณะหลัก (สตริง [] args) {
สำหรับ (int i = 1; i <= 3; i ++) {
Spider.create (ใหม่ MoviePaperPageProcessor ()). Addurl (
"http://posters.aa.co/poster_page/" + i). Thread (5) .run ();
-
-
รายการคงที่สาธารณะ removedUplication (รายการรายการ) {
HashSet HS = ใหม่ hashset (รายการ);
list.clear ();
list.addall (HS);
รายการคืน;
-
-