การคัดลอกรหัสมีดังนี้:
นำเข้า java.io.bufferedreader;
นำเข้า java.io.ioException;
นำเข้า Java.io.InputStreamReader;
นำเข้า Java.net.Malformedurlexception;
นำเข้า java.net.url;
นำเข้า java.util.arraylist;
นำเข้า java.util.hashmap;
นำเข้า java.util.list;
นำเข้า java.util.regex.matcher;
นำเข้า java.util.regex.pattern;
นำเข้า Java.net.*;
นำเข้า Java.io.*;
นำเข้า Java.util.regex.*;
-
รับกฎที่ระบุโดยการสร้างนิพจน์ทั่วไป
-
URL ชั้นเรียนสาธารณะ
-
สตริงส่วนตัว starturl;
สตริง urlcontent;
String ContentArea;
Strareabegin String ส่วนตัว, Strareaend;
สตริงส่วนตัว StringInurl, StringNotInurl;
String strcontent; // เนื้อหาที่รวบรวมได้ที่ได้รับ
สตริง [] allurls;
regex สตริงส่วนตัว;
urlandtitle urlandtitle = new urlandtitle ();
โมฆะคงที่สาธารณะหลัก (สตริง [] args)
-
urls myurl = url ใหม่ ("<body", "/body>");
myurl.getStarturl ("http://www.zuzwn.com/");
myurl.geturlcontent ();
myurl.getContentArea ();
myurl.getStarturl ("http://www.zuzwn.com/");
myurl.getStringnotinurl ("Google");
myurl.urls ();
//system.out.println("starturl:"+myurl.starturl);
//system.out.println("urlcontent:"+myurl.urlcontent);
//system.out.println("contentarea:"+myurl.contentarea);
-
// เริ่มต้นสร้าง Strareabegin และ Strareaend
URL สาธารณะ (String Strareabegin, String Strareaend)
-
this.strareabegin = strareabegin;
this.strareaend = strareaend;
-
-
URL โมฆะสาธารณะ ()
-
int i = 0;
// string regex = "<a href ="? '? http: // [a-za-z0-9]+/. [a-za-z0-9]+/. /? [[/.? [shive/slike like like+ rhinta> เหมือนกัน ";
string regex = "<a.*?/a>";
// string regex = "http: //.*?>";
รูปแบบ pt = pattern.compile (regex);
matcher mt = pt.matcher (contentarea);
ในขณะที่ (mt.find ())
-
System.out.println (mt.group ());
i ++;
// รับชื่อ
title title = pattern.compile (">.*? </a>") .Matcher (mt.group ());
ในขณะที่ (title.find ())
-
System.out.println ("title:"+title.group (). replaceall ("> | </a>", ""));
-
// รับ URL
matcher myurl = pattern.compile ("href =.*?>"). matcher (mt.group ());
ในขณะที่ (myurl.find ())
-
System.out.println ("เว็บไซต์:"+myurl.group (). replaceall ("href = |>", "");
-
System.out.println ();
-
System.out.println ("มีผลรวม"+i+"ผลลัพธ์ที่สอดคล้อง");
-
// รับเว็บไซต์คอลเลกชันเริ่มต้น
โมฆะสาธารณะ GetStarturl (String Starturl)
-
this.starturl = startUrl;
-
// รับเนื้อหาที่ URL ตั้งอยู่;
โมฆะสาธารณะ geturlcontent ()
-
StringBuffer คือ = new StringBuffer ();
พยายาม
-
url myurl = url ใหม่ (starturl);
bufferedReader br = new bufferedReader (
ใหม่ InputStreamReader (myurl.openstream ()));
สตริง s;
ในขณะที่ ((s = br.readline ())! = null)
-
is.append (s);
-
urlContent = is.toString ();
-
จับ (ข้อยกเว้น e)
-
System.out.println ("ไฟล์ URL ล้มเหลวในการส่งออก");
E.PrintStackTrace ();
-
-
// รับพื้นที่การจับคู่ที่อยู่ที่ URL
โมฆะสาธารณะ getContentarea ()
-
int pos1 = 0, pos2 = 0;
pos1 = urlcontent.indexof (strareabegin)+strareabegin.length ();
pos2 = urlcontent.indexof (strareaend, pos1);
contentArea = urlContent.substring (pos1, pos2);
-
// สองฟังก์ชั่นต่อไปนี้ได้รับคำหลักที่ URL ควรมีและคำหลักที่ไม่สามารถรวมได้
// มีการทดลองเบื้องต้นเท่านั้นที่นี่ ในระยะต่อมาควรมีคำหลักที่ได้รับการป้องกันมากกว่าหนึ่งคำและคำหลักที่ไม่สามารถรวมได้
โมฆะสาธารณะ GetStringInurl (String StringInurl)
-
this.stringInurl = StringInurl;
-
โมฆะสาธารณะ GetStringNotInurl (String StringNotInurl)
-
this.stringNotInurl = StringNotInurl;
-
// รับกฎการรวบรวม
// รับ URL
โมฆะสาธารณะ geturl ()
-
-
สตริงสาธารณะ getregex ()
-
return regex;
-
ชั้นเรียน urlandtitle
-
สตริง myurl;
ชื่อสตริง;
-
-