لقد رأيت مؤخرًا أداة الزاحف Gecoo ، والتي تبدو بسيطة وسهلة الاستخدام. اكتب اختبارًا تجريبيًا وزحف الموقع.
http://zj.zjol.com.cn/home.html ، يزحف بشكل رئيسي عنوان ووقت الإصدار من الأخبار ككائن اختبار الزحف. إنه مناسب جدًا لزحف العقد HTML عن طريق اختيار عقد مثل jQuery Selectors. يستخدم رمز GECCO بشكل أساسي تطبيق التعليقات التوضيحية لتحقيق مطابقة URL ، والتي تبدو موجزة وجميلة نسبيًا.
أضف تبعيات مافن
<Rependency> <roupeD> com.geccacrawler </groupId> <StifactId> gecco </stifactid> <الإصدار> 1.0.8 </version> </preminent>
اكتب صفحة قائمة الزحف
gecco (matchurl = "http://zj.zjol.com.cn/home.html؟pageindex= {pageindex )&pagesizize= {Pagesize )"،pipipelines =" zjnewslistpipiplines ") public zjnewsgsgeccolist distruments htmlbean { @requestparameter الخاص int pageIndex ؛ @requestparameter Private pagesize ؛ htmlfield (csspath = "#content> div> div> div.con_index> div.r.main_mod> div> ul> li> dl> dt> a") قائمة خاصة <HrefBean> newList ؛} pipelinename ("ZjNewSlistPipipLines") الطبقة العامة ZjNewSlistPipipLines تنفذ خط الأنابيب <zjnewsgeccolist> {public void process (zjnewsgecolist لـ (Hrefbean Bean: ZjNewSgeccolist.getNewList ()) {// أدخل الصفحة Auspicious للزحف schedulercontext.into (request.subrequest ("http://zj.zjol.com.cn"+bean.geturl ()))) ؛ } int page = zjnewsgeccolist.getPageIndex ()+1 ؛ String nexturl = "http://zj.zjol.com.cn/home.html؟pageindex="+page+"&pagesize=100" ؛ // الزحف في الصفحة التالية SchedulerContext.into (request.subrequest (nexturl)) ؛ }} اكتب صفحة الزحف
gecco (matchurl = "http://zj.zjol.com.cn/news/ budapcode/201.html" ، pipelines = "zjnewsdetailpipeline") class public zjnewsdetail تنفذ htmlbean {text @htmlfield ( textHtmlField (csspath = "#content> div> div.news_con> div.news-content> div: nth-child (1)> div> p.go-left.post time.c-gray") private string creatiTime ؛} pipelinename ("zjnewsdetailpipeline") الطبقة العامة zjnewsdetailpipeline تنفذ خط الأنابيب <zjnewsdetail> {public void عملية (zjnewsdetail zjnewsdetail) "+zjnewsdetail.getCreateTime ()) ؛ }} ابدأ الوظيفة الرئيسية
الفئة العامة الرئيسية {public static void main (string [] rags) {geccoengine.create () // مسار حزمة project.classpath ("com.zhaochao.gecco.zj") // عنوان الصفحة الذي يبدأ الزحف. // افتح العديد من المواضيع الزاحف. }}نتائج الزحف
ما سبق هو كل محتوى هذه المقالة. آمل أن يكون ذلك مفيدًا لتعلم الجميع وآمل أن يدعم الجميع wulin.com أكثر.