Beispiel eines regulären Ausdrucks von Java, der alle URLs und den Linktext auf einer Webseite entspricht

Autor：Eve Cole Aktualisierungszeit：2025-02-24 12:00:03

Die Codekopie lautet wie folgt:

Import Java.io.BufferedReader;

importieren java.io.ioException;

importieren java.io.inputStreamReader;

importieren java.net.malformeDurlexception;

importieren java.net.url;

Import Java.util.ArrayList;

import Java.util.hashMap;

importieren java.util.list;

Import Java.util.Regx.Matcher;

Import Java.util.Regex.Pattern;

Java.net importieren.*;

import Java.io.*;

import Java.util.RegEx.*;

Rufen Sie die angegebene Regel durch, indem Sie reguläre Ausdrücke erstellen

URLs der öffentlichen Klasse

{

private String Starturl;

String -UrlContent;

String contentArea;

Private String Strareabegin, Strareaend;

private String Stringinurl, Stringnotinurl;

String StrContent; // Der gesammelte Inhalt erhalten

String [] Allurls;

private String Regex;

UrlandTitle UrlandTitle = new UrlandTitle ();

öffentliche statische Leere Main (String [] Args)

{

Urls myurl = neue urls ("<body", "/body>");

myurl.getStarturl ("http://www.zuzwn.com/");

myurl.geturlContent ();

myurl.getContentArea ();

myurl.getStarturl ("http://www.zuzwn.com/");

myurl.getStringnotinurl ("Google");

myurl.urls ();

//System.out.println("Starturl:"+myurl.starturl);

//System.out.println("urlContent:"+myurl.urlContent);

//System.out.println("ContentArea:"+myurl.ContentArea);

}

// Konstruktoren Strareafin und Strareäs initialisieren

öffentliche URLs (String Strareafin, String StrareAend)

{

this.strarebegin = Strareabegin;

this.Strareaend = Strareaend;

}

öffentliche void urls ()

{

int i = 0;

// String regex = "<a href ="? '? Http: // [a-za-z0-9]+/. [A-za-z0-9]+/. [A-za-z]+ /?

String regex = "<a.*?/A>";

// String regex = "http: //.*?>";

Muster pt = mustern.comPile (Regex);

Matcher mt = pt.matcher (contentArea);

While (mt.find ())

{

System.out.println (mt.group ());

i ++;

// den Titel bekommen

Matcher title = muster.comPile (">.*? </a>") .Matcher (mt.group ());

While (title.find ())

{

System.out.println ("title:"+title.group (). Ersetzen ("> | </a>", "");

}

// Holen Sie sich die URL

Matcher myurl = muster.comPile ("href =.*?>"). Matcher (mt.group ());

Während (myurl.find ())

{

System.out.println ("Website:"+myurl.group (). Ersatz ("href = |>", "");

}

System.out.println ();

}

System.out.println ("Es gibt Summen"+i+"konforme Ergebnisse");

}

// Erhalten Sie die Start Collection -Website

Öffentliche Void Getstarturl (String Starturl)

{

this.starturl = starturl;

}

// Erhalten Sie den Inhalt, in dem sich die URL befindet.

public void GeturlContent ()

{

StringBuffer ist = new StringBuffer ();

versuchen

{

Url myurl = new url (starturl);

BufferedReader BR = neuer BufferedReader (

neuer InputStreamReader (myurl.openstream ()));

String S;

while ((s = br.readline ())! = null)

{

IS.Append (s);

}

urlContent = is.toString ();

}

fangen (Ausnahme E)

{

System.out.println ("URL -Datei hat keine Ausgabe");

E. printstacktrace ();

}

// Erhalten Sie den Matching -Bereich, in dem sich die URL befindet

öffentliche Leere getContentArea ()

{

int pos1 = 0, pos2 = 0;

pos1 = urlContent.indexof (Strareafin)+Strareafegin.length ();

pos2 = urlContent.indexof (StrareAend, pos1);

ContentArea = urlContent.substring (pos1, pos2);

}

// Die folgenden zwei Funktionen erhalten die Schlüsselwörter, die die URL enthalten soll, und die Schlüsselwörter, die nicht enthalten sein können

// Hier werden nur vorläufige Experimente durchgeführt. In der späteren Phase sollte es mehr als ein geschütztes Schlüsselwort und ein Schlüsselwort geben, das nicht enthalten sein kann.

public void getStringinurl (String Stringinurl)

{

this.stringinurl = Stringinurl;

}

public void getStringnotinurl (String Stringnotinurl)

{

this.stringnotinurl = Stringnotinurl;

}

// Erhalten Sie die Sammelregeln

// Holen Sie sich die URL

öffentliche void Geturl ()

{

}

öffentliche Zeichenfolge GetRegex ()

{

Return Regex;

}

Klassen Urlandtitle

{

String myurl;

String -Titel;

}