复制代码代码如下:
paquete com.letv.cloud.spider;
import java.util.hashset;
import java.util.list;
importar us.codecraft.webmagic.page;
importar us.codecraft.webmagic.site;
importar us.codecraft.webmagic.spider;
import US.Codecraft.WebMagic.processor.PageProcessor;
clase pública de cineprayPagePageProcessor implementa PageProcessor {
Page de sitio privado = Site.Me (). SetRetryTimes (3) .SetSleepTime (1000);
sitio público getSite () {
página de regreso;
}
Public void Process (página de página) {
List <String> Links = Page.gethtml (). Links (). Regex (
"http://posters.aa.com/postert///d+") .all ();
enlaces = removedUpLicate (enlaces);
Page.AddTargetRequests (enlaces);
Page.putfield ("Title", Page.gethtml (). Xpath (
"// div [@id = 'imdbleftsecc']/center/h1/text ()"). toString ());
page.putfield ("imgurl", page.gethtml (). Xpath (
"// div [@id = 'imdbleftsecc']/center/img/@src"). toString ());
}
public static void main (string [] args) {
para (int i = 1; i <= 3; i ++) {
Spider.Create (New MoviePaperPageProcessor ()). Addurl (
"http://posters.aa.co/poster_page/" + i) .thread (5) .run ();
}
}
Lista estática pública eliminada (lista de listas) {
Hashset hs = nuevo hashset (lista);
list.clear ();
list.addall (HS);
lista de devolución;
}
}