复制代码代码如下:
パッケージcom.letv.cloud.spider;
java.util.hashsetをインポートします。
java.util.listをインポートします。
us.codecraft.webmagic.pageをインポートします。
us.codecraft.webmagic.siteをインポートします。
us.codecraft.webmagic.spiderをインポートします。
us.codecraft.webmagic.processor.pageprocessorをインポートします。
Public Class MoviePaperPageProcessorはPageProcessorを実装しています{
プライベートサイトページ= site.me()。setretrytimes(3).setsleeptime(1000);
パブリックサイトgetSite(){
返信ページ。
}
パブリックボイドプロセス(ページページ){
List <String> links = page.gethtml()。links()。regex(
"http://posters.aa.com/poster//d+").all();
links = removeduplicate(links);
page.addtargetRequests(リンク);
page.putfield( "title"、page.gethtml()。xpath(
"// div [@id = 'imdbleftsecc']/center/h1/text()")。toString());
page.putfield( "imgurl"、page.gethtml()。xpath(
"// div [@id = 'imdbleftsecc']/center/img/@src")。toString());
}
public static void main(string [] args){
for(int i = 1; i <= 3; i ++){
spider.create(new MoviePaperPageProcessor())。addurl(
"http://posters.aa.co/poster_page/" + i).thread(5).run();
}
}
public static list remodeveduplicate(list list){
ハッシュセットhs = new Hashset(list);
list.clear();
list.addall(hs);
返品リスト。
}
}