複製代碼代碼如下:
軟件包com.letv.cloud.spider;
導入java.util.hashset;
導入java.util.list;
導入us.codecraft.webmagic.page;
導入us.codecraft.webmagic.site;
導入us.codecraft.webmagic.spider;
導入us.codecraft.webmagic.processor.pageProcessor;
公共類MoviePaperPageProcessor實施PageProcessor {
私有站點page = site.me()。setRetrytimes(3).setsleeptime(1000);
公共網站getteTite(){
返回頁面;
}
公共空白過程(頁面){
List <string> links = pag.gethtml()。links()。
“ http://posters.aa.com/poster//d+”).all();
links = remavedUplate(鏈接);
page.addtargetRequests(鏈接);
page.putfield(“ title”,page.gethtml()。xpath(
“ // div [@id ='imdbleftSecc']/center/h1/text()”)。toString());
page.putfield(“ imgurl”,page.gethtml()。xpath(
“ // div [@id ='imdbleftSecc']/center/img/@src”)。toString());
}
公共靜態void main(string [] args){
for(int i = 1; i <= 3; i ++){
spider.Create(新的MoviePaperPageProcessor())。addurl(
“ http://posters.aa.co/poster_page/” + i).thread(5).run();
}
}
公共靜態列表刪除了圖(列表){
哈希集hs = new Hashset(list);
list.clear();
List.Addall(HS);
返回列表;
}
}