ตัวอย่างของนิพจน์ Java ปกติที่ตรงกับ URL และข้อความลิงก์ทั้งหมดบนหน้าเว็บ

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-02-24 12:00:03

การคัดลอกรหัสมีดังนี้:

นำเข้า java.io.bufferedreader;

นำเข้า java.io.ioException;

นำเข้า Java.io.InputStreamReader;

นำเข้า Java.net.Malformedurlexception;

นำเข้า java.net.url;

นำเข้า java.util.arraylist;

นำเข้า java.util.hashmap;

นำเข้า java.util.list;

นำเข้า java.util.regex.matcher;

นำเข้า java.util.regex.pattern;

นำเข้า Java.net.*;

นำเข้า Java.io.*;

นำเข้า Java.util.regex.*;

รับกฎที่ระบุโดยการสร้างนิพจน์ทั่วไป

URL ชั้นเรียนสาธารณะ

สตริงส่วนตัว starturl;

สตริง urlcontent;

String ContentArea;

Strareabegin String ส่วนตัว, Strareaend;

สตริงส่วนตัว StringInurl, StringNotInurl;

String strcontent; // เนื้อหาที่รวบรวมได้ที่ได้รับ

สตริง [] allurls;

regex สตริงส่วนตัว;

urlandtitle urlandtitle = new urlandtitle ();

โมฆะคงที่สาธารณะหลัก (สตริง [] args)

urls myurl = url ใหม่ ("<body", "/body>");

myurl.getStarturl ("http://www.zuzwn.com/");

myurl.geturlcontent ();

myurl.getContentArea ();

myurl.getStarturl ("http://www.zuzwn.com/");

myurl.getStringnotinurl ("Google");

myurl.urls ();

//system.out.println("starturl:"+myurl.starturl);

//system.out.println("urlcontent:"+myurl.urlcontent);

//system.out.println("contentarea:"+myurl.contentarea);

// เริ่มต้นสร้าง Strareabegin และ Strareaend

URL สาธารณะ (String Strareabegin, String Strareaend)

this.strareabegin = strareabegin;

this.strareaend = strareaend;

URL โมฆะสาธารณะ ()

int i = 0;

// string regex = "<a href ="? '? http: // [a-za-z0-9]+/. [a-za-z0-9]+/. /? [[/.? [shive/slike like like+ rhinta> เหมือนกัน ";

string regex = "<a.*?/a>";

// string regex = "http: //.*?>";

รูปแบบ pt = pattern.compile (regex);

matcher mt = pt.matcher (contentarea);

ในขณะที่ (mt.find ())

System.out.println (mt.group ());

i ++;

// รับชื่อ

title title = pattern.compile (">.*? </a>") .Matcher (mt.group ());

ในขณะที่ (title.find ())

System.out.println ("title:"+title.group (). replaceall ("> | </a>", ""));

// รับ URL

matcher myurl = pattern.compile ("href =.*?>"). matcher (mt.group ());

ในขณะที่ (myurl.find ())

System.out.println ("เว็บไซต์:"+myurl.group (). replaceall ("href = |>", "");

System.out.println ();

System.out.println ("มีผลรวม"+i+"ผลลัพธ์ที่สอดคล้อง");

// รับเว็บไซต์คอลเลกชันเริ่มต้น

โมฆะสาธารณะ GetStarturl (String Starturl)

this.starturl = startUrl;

// รับเนื้อหาที่ URL ตั้งอยู่;

โมฆะสาธารณะ geturlcontent ()

StringBuffer คือ = new StringBuffer ();

พยายาม

url myurl = url ใหม่ (starturl);

bufferedReader br = new bufferedReader (

ใหม่ InputStreamReader (myurl.openstream ()));

สตริง s;

ในขณะที่ ((s = br.readline ())! = null)

is.append (s);

urlContent = is.toString ();

จับ (ข้อยกเว้น e)

System.out.println ("ไฟล์ URL ล้มเหลวในการส่งออก");

E.PrintStackTrace ();

// รับพื้นที่การจับคู่ที่อยู่ที่ URL

โมฆะสาธารณะ getContentarea ()

int pos1 = 0, pos2 = 0;

pos1 = urlcontent.indexof (strareabegin)+strareabegin.length ();

pos2 = urlcontent.indexof (strareaend, pos1);

contentArea = urlContent.substring (pos1, pos2);

// สองฟังก์ชั่นต่อไปนี้ได้รับคำหลักที่ URL ควรมีและคำหลักที่ไม่สามารถรวมได้

// มีการทดลองเบื้องต้นเท่านั้นที่นี่ ในระยะต่อมาควรมีคำหลักที่ได้รับการป้องกันมากกว่าหนึ่งคำและคำหลักที่ไม่สามารถรวมได้

โมฆะสาธารณะ GetStringInurl (String StringInurl)

this.stringInurl = StringInurl;

โมฆะสาธารณะ GetStringNotInurl (String StringNotInurl)

this.stringNotInurl = StringNotInurl;

// รับกฎการรวบรวม

// รับ URL

โมฆะสาธารณะ geturl ()

สตริงสาธารณะ getregex ()

return regex;

ชั้นเรียน urlandtitle

สตริง myurl;

ชื่อสตริง;