Salinan kode adalah sebagai berikut:
impor java.io.bufferedReader;
impor java.io.ioException;
impor java.io.inputStreamReader;
impor java.net.malformedurlexception;
impor java.net.url;
impor java.util.arraylist;
impor java.util.hashmap;
impor java.util.list;
impor java.util.regex.matcher;
impor java.util.regex.pattern;
impor java.net.*;
impor java.io.*;
impor java.util.regex.*;
/*
Dapatkan aturan yang ditentukan dengan membangun ekspresi reguler
*/
URL kelas publik
{
String Private Starturl; // Mulai Koleksi URLS
String UrlContent;
String contentArea;
String Private Strareabegin, Strareaend;
Private String StringinUrl, StringNotInUrl;
String strcontent; // konten yang dikumpulkan diperoleh
String [] allurls; // semua url dikumpulkan
Regex string pribadi; // aturan pengumpulan
UrlandTitle UrlandTitle = UrlandTitle baru ();
public static void main (string [] args)
{
URLS myUrl = URL baru ("<body", "/body>");
myurl.getStarturl ("http://www.zuzwn.com/");
myurl.getUrlContent ();
myurl.getContentArea ();
myurl.getStarturl ("http://www.zuzwn.com/");
myurl.getStringNotinUrl ("Google");
myurl.urls ();
//System.out.println("Starturl :"+myurl.starturl);
//System.out.println("urlcontent :"+myurl.urlcontent);
//System.out.println("contentarea :"+myurl.contentarea);
}
// inisialisasi konstruktor strareabegin dan strareeaend
URL publik (String Strareabegin, String Strareaend)
{
this.strareabegin = strareabegin;
this.strareaend = strareaend;
}
//
URL public void ()
{
int i = 0;
// string regex = "<a href ="? '? Http: // [a-za-z0-9]+/. [A-za-z0-9]+/. [A-za-z]++ /?Ace/.?ht/s|/s media+ media>anjang ";
String regex = "<a.*?/A>";
// string regex = "http: //.*?>";
Pola pt = pola.compile (regex);
Pencocokan mt = pt.matcher (contentArea);
While (mt.find ())
{
System.out.println (mt.group ());
i ++;
// Dapatkan judulnya
Judul pencocokan = pola.compile (">.*? </a>") .matcher (mt.group ());
While (title.find ())
{
System.out.println ("Judul:"+title.group (). Replaceall ("> | </a>", ""));
}
// Dapatkan URL
Pencocokan myUrl = pola.compile ("href =.*?>"). Pencocokan (mt.group ());
While (myurl.find ())
{
System.out.println ("Situs web:"+myurl.group (). Replaceall ("href = |>", ""));
}
System.out.println ();
}
System.out.println ("Ada total"+i+"hasil yang sesuai");
}
// Dapatkan situs web Koleksi Mulai
public void getStarturl (string starturl)
{
this.starturl = starturl;
}
// Dapatkan konten di mana URL berada;
public void getUrlContent ()
{
StringBuffer adalah = StringBuffer baru ();
mencoba
{
Url myUrl = URL baru (starturl);
BufferedReader BR = BufferedReader baru (
inputStreamReader baru (myurl.openstream ()));
String s;
while ((s = br.readline ())! = null)
{
IS. Laporan (s);
}
urlcontent = is.toString ();
}
Tangkap (pengecualian e)
{
System.out.println ("File URL gagal output");
e.printstacktrace ();
}
}
// Dapatkan area pencocokan di mana URL berada
public void getContentArea ()
{
int pos1 = 0, pos2 = 0;
pos1 = urlcontent.indexof (strareabegin)+strareabegin.length ();
POS2 = urlcontent.indexof (streareaend, pos1);
ContentArea = urlcontent.substring (pos1, pos2);
}
// Dua fungsi berikut mendapatkan kata kunci yang harus dikandung URL dan kata kunci yang tidak dapat dimasukkan
// Hanya percobaan pendahuluan yang dilakukan di sini. Pada tahap selanjutnya, harus ada lebih dari satu kata kunci yang dilindungi dan kata kunci yang tidak dapat dimasukkan.
public void getStringInurl (String StringinUrl)
{
this.stringinurl = stringinUrl;
}
public void getstringnotinurl (string stringnotinurl)
{
this.stringnotinurl = stringnotinurl;
}
// Dapatkan aturan koleksi
// Dapatkan URL
public void getUrl ()
{
}
string publik getRegex ()
{
Return Regex;
}
Kelas Urlandtitle
{
String myurl;
Judul string;
}
}