复制代码代码如下:
пакет com.letv.cloud.spider;
импортировать java.util.hashset;
импортировать java.util.list;
импортировать US.Codecraft.webmagic.page;
импортировать US.Codecraft.Webmagic.site;
импортировать US.Codecraft.Webmagic.spider;
импортировать US.Codecraft.Webmagic.processor.pageProcessor;
Общедоступный класс MissionPaperPageProcessor реализует PageProcessor {
Частный сайт сайта = site.me (). setretrytimes (3) .setsleeptime (1000);
публичный сайт getSite () {
вернуть страницу;
}
public void -процесс (страница страницы) {
Список <string> links = page.gethtml (). Links (). Regex (
"http://posters.aa.com/poster//d+") .all ();
links = elementuplicate (ссылки);
page.addtargetRequests (ссылки);
page.putfield ("title", page.gethtml (). xpath (
"// div [@id = 'imdbleftsecc']/center/h1/text ()"). toString ());
page.putfield ("imgurl", page.gethtml (). xpath (
"// div [@id = 'imdbleftsecc']/center/img/@src"). toString ());
}
public static void main (string [] args) {
для (int i = 1; i <= 3; i ++) {
Spider.create (новый MissappaperPageProcessor ()). Addurl (
"http://posters.aa.co/poster_page/" + i) .thread (5) .run ();
}
}
Общедоступный статический список удаленного (список списков) {
Hashset hs = new Hashset (список);
list.clear ();
list.addall (hs);
вернуть список;
}
}