复制代码代码如下:
软件包com.letv.cloud.spider;
导入java.util.hashset;
导入java.util.list;
导入us.codecraft.webmagic.page;
导入us.codecraft.webmagic.site;
导入us.codecraft.webmagic.spider;
导入us.codecraft.webmagic.processor.pageProcessor;
公共类MoviePaperPageProcessor实施PageProcessor {
私有站点page = site.me()。setRetrytimes(3).setsleeptime(1000);
公共网站getteTite(){
返回页面;
}
公共空白过程(页面){
List <string> links = pag.gethtml()。links()。
“ http://posters.aa.com/poster//d+”).all();
links = remavedUplate(链接);
page.addtargetRequests(链接);
page.putfield(“ title”,page.gethtml()。xpath(
“ // div [@id ='imdbleftSecc']/center/h1/text()”)。toString());
page.putfield(“ imgurl”,page.gethtml()。xpath(
“ // div [@id ='imdbleftSecc']/center/img/@src”)。toString());
}
公共静态void main(string [] args){
for(int i = 1; i <= 3; i ++){
spider.Create(新的MoviePaperPageProcessor())。addurl(
“ http://posters.aa.co/poster_page/” + i).thread(5).run();
}
}
公共静态列表删除了图(列表){
哈希集hs = new Hashset(list);
list.clear();
List.Addall(HS);
返回列表;
}
}