Contoh ekspresi reguler Java yang mencocokkan semua URL dan teks tautan di halaman web

Penulis：Eve Cole Waktu Pembaruan：2025-02-24 12:00:03

Salinan kode adalah sebagai berikut:

impor java.io.bufferedReader;

impor java.io.ioException;

impor java.io.inputStreamReader;

impor java.net.malformedurlexception;

impor java.net.url;

impor java.util.arraylist;

impor java.util.hashmap;

impor java.util.list;

impor java.util.regex.matcher;

impor java.util.regex.pattern;

impor java.net.*;

impor java.io.*;

impor java.util.regex.*;

Dapatkan aturan yang ditentukan dengan membangun ekspresi reguler

URL kelas publik

{

String Private Starturl; // Mulai Koleksi URLS

String UrlContent;

String contentArea;

String Private Strareabegin, Strareaend;

Private String StringinUrl, StringNotInUrl;

String strcontent; // konten yang dikumpulkan diperoleh

String [] allurls; // semua url dikumpulkan

Regex string pribadi; // aturan pengumpulan

UrlandTitle UrlandTitle = UrlandTitle baru ();

public static void main (string [] args)

{

URLS myUrl = URL baru ("<body", "/body>");

myurl.getStarturl ("http://www.zuzwn.com/");

myurl.getUrlContent ();

myurl.getContentArea ();

myurl.getStarturl ("http://www.zuzwn.com/");

myurl.getStringNotinUrl ("Google");

myurl.urls ();

//System.out.println("Starturl :"+myurl.starturl);

//System.out.println("urlcontent :"+myurl.urlcontent);

//System.out.println("contentarea :"+myurl.contentarea);

}

// inisialisasi konstruktor strareabegin dan strareeaend

URL publik (String Strareabegin, String Strareaend)

{

this.strareabegin = strareabegin;

this.strareaend = strareaend;

}

URL public void ()

{

int i = 0;

// string regex = "<a href ="? '? Http: // [a-za-z0-9]+/. [A-za-z0-9]+/. [A-za-z]++ /?Ace/.?ht/s|/s media+ media>anjang ";

String regex = "<a.*?/A>";

// string regex = "http: //.*?>";

Pola pt = pola.compile (regex);

Pencocokan mt = pt.matcher (contentArea);

While (mt.find ())

{

System.out.println (mt.group ());

i ++;

// Dapatkan judulnya

Judul pencocokan = pola.compile (">.*? </a>") .matcher (mt.group ());

While (title.find ())

{

System.out.println ("Judul:"+title.group (). Replaceall ("> | </a>", ""));

}

// Dapatkan URL

Pencocokan myUrl = pola.compile ("href =.*?>"). Pencocokan (mt.group ());

While (myurl.find ())

{

System.out.println ("Situs web:"+myurl.group (). Replaceall ("href = |>", ""));

}

System.out.println ();

}

System.out.println ("Ada total"+i+"hasil yang sesuai");

}

// Dapatkan situs web Koleksi Mulai

public void getStarturl (string starturl)

{

this.starturl = starturl;

}

// Dapatkan konten di mana URL berada;

public void getUrlContent ()

{

StringBuffer adalah = StringBuffer baru ();

mencoba

{

Url myUrl = URL baru (starturl);

BufferedReader BR = BufferedReader baru (

inputStreamReader baru (myurl.openstream ()));

String s;

while ((s = br.readline ())! = null)

{

IS. Laporan (s);

}

urlcontent = is.toString ();

}

Tangkap (pengecualian e)

{

System.out.println ("File URL gagal output");

e.printstacktrace ();

}

// Dapatkan area pencocokan di mana URL berada

public void getContentArea ()

{

int pos1 = 0, pos2 = 0;

pos1 = urlcontent.indexof (strareabegin)+strareabegin.length ();

POS2 = urlcontent.indexof (streareaend, pos1);

ContentArea = urlcontent.substring (pos1, pos2);

}

// Dua fungsi berikut mendapatkan kata kunci yang harus dikandung URL dan kata kunci yang tidak dapat dimasukkan

// Hanya percobaan pendahuluan yang dilakukan di sini. Pada tahap selanjutnya, harus ada lebih dari satu kata kunci yang dilindungi dan kata kunci yang tidak dapat dimasukkan.

public void getStringInurl (String StringinUrl)

{

this.stringinurl = stringinUrl;

}

public void getstringnotinurl (string stringnotinurl)

{

this.stringnotinurl = stringnotinurl;

}

// Dapatkan aturan koleksi

// Dapatkan URL

public void getUrl ()

{

}

string publik getRegex ()

{

Return Regex;

}

Kelas Urlandtitle

{

String myurl;

Judul string;

}