复制代码代码如下:
حزمة com.letv.cloud.spider ؛
استيراد java.util.hashset ؛
استيراد java.util.list ؛
استيراد us.codecraft.webmagic.page ؛
استيراد us.codecraft.webmagic.site ؛
استيراد us.codecraft.webmagic.spider ؛
استيراد us.codecraft.webmagic.processor.pageProcessor ؛
الطبقة العامة MoviePaperPageProcessor تنفذ PageProcessor {
صفحة الموقع الخاصة = site.me (). setRetryTimes (3) .SetSleeptime (1000) ؛
الموقع العام getSite () {
صفحة العودة ؛
}
عملية الفراغ العام (صفحة الصفحة) {
قائمة <Tring> links = page.gethtml (). links (). regex (
"http://posters.aa.com/poster///d+") .lall () ؛
Links = readeduplicate (الروابط) ؛
page.AddTargetRequests (الروابط) ؛
page.putfield ("title" ، page.gethtml (). xPath (
"// div [@id = 'imdbleftsecc']/center/h1/text ()"). toString ()) ؛
page.putfield ("imgurl" ، page.gethtml (). xPath (
"// div [@id = 'imdbleftsecc']/center/img/@src"). toString ()) ؛
}
الفراغ الثابت العام الرئيسي (سلسلة [] args) {
لـ (int i = 1 ؛ i <= 3 ؛ i ++) {
spider.create (جديد moviePaperPageProcessor ()). addurl (
"http://posters.aa.co/poster_page/" + i) .Thread (5) .Run () ؛
}
}
القائمة الثابتة العامة إزالة (قائمة قائمة) {
hassset hs = new hassset (قائمة) ؛
list.clear () ؛
list.addall (HS) ؛
قائمة العودة
}
}