Die Codekopie lautet wie folgt:
Import Java.io.BufferedReader;
importieren java.io.ioException;
importieren java.io.inputStreamReader;
importieren java.net.malformeDurlexception;
importieren java.net.url;
Import Java.util.ArrayList;
import Java.util.hashMap;
importieren java.util.list;
Import Java.util.Regx.Matcher;
Import Java.util.Regex.Pattern;
Java.net importieren.*;
import Java.io.*;
import Java.util.RegEx.*;
/*
Rufen Sie die angegebene Regel durch, indem Sie reguläre Ausdrücke erstellen
*/
URLs der öffentlichen Klasse
{
private String Starturl;
String -UrlContent;
String contentArea;
Private String Strareabegin, Strareaend;
private String Stringinurl, Stringnotinurl;
String StrContent; // Der gesammelte Inhalt erhalten
String [] Allurls;
private String Regex;
UrlandTitle UrlandTitle = new UrlandTitle ();
öffentliche statische Leere Main (String [] Args)
{
Urls myurl = neue urls ("<body", "/body>");
myurl.getStarturl ("http://www.zuzwn.com/");
myurl.geturlContent ();
myurl.getContentArea ();
myurl.getStarturl ("http://www.zuzwn.com/");
myurl.getStringnotinurl ("Google");
myurl.urls ();
//System.out.println("Starturl:"+myurl.starturl);
//System.out.println("urlContent:"+myurl.urlContent);
//System.out.println("ContentArea:"+myurl.ContentArea);
}
// Konstruktoren Strareafin und Strareäs initialisieren
öffentliche URLs (String Strareafin, String StrareAend)
{
this.strarebegin = Strareabegin;
this.Strareaend = Strareaend;
}
//
öffentliche void urls ()
{
int i = 0;
// String regex = "<a href ="? '? Http: // [a-za-z0-9]+/. [A-za-z0-9]+/. [A-za-z]+ /?
String regex = "<a.*?/A>";
// String regex = "http: //.*?>";
Muster pt = mustern.comPile (Regex);
Matcher mt = pt.matcher (contentArea);
While (mt.find ())
{
System.out.println (mt.group ());
i ++;
// den Titel bekommen
Matcher title = muster.comPile (">.*? </a>") .Matcher (mt.group ());
While (title.find ())
{
System.out.println ("title:"+title.group (). Ersetzen ("> | </a>", "");
}
// Holen Sie sich die URL
Matcher myurl = muster.comPile ("href =.*?>"). Matcher (mt.group ());
Während (myurl.find ())
{
System.out.println ("Website:"+myurl.group (). Ersatz ("href = |>", "");
}
System.out.println ();
}
System.out.println ("Es gibt Summen"+i+"konforme Ergebnisse");
}
// Erhalten Sie die Start Collection -Website
Öffentliche Void Getstarturl (String Starturl)
{
this.starturl = starturl;
}
// Erhalten Sie den Inhalt, in dem sich die URL befindet.
public void GeturlContent ()
{
StringBuffer ist = new StringBuffer ();
versuchen
{
Url myurl = new url (starturl);
BufferedReader BR = neuer BufferedReader (
neuer InputStreamReader (myurl.openstream ()));
String S;
while ((s = br.readline ())! = null)
{
IS.Append (s);
}
urlContent = is.toString ();
}
fangen (Ausnahme E)
{
System.out.println ("URL -Datei hat keine Ausgabe");
E. printstacktrace ();
}
}
// Erhalten Sie den Matching -Bereich, in dem sich die URL befindet
öffentliche Leere getContentArea ()
{
int pos1 = 0, pos2 = 0;
pos1 = urlContent.indexof (Strareafin)+Strareafegin.length ();
pos2 = urlContent.indexof (StrareAend, pos1);
ContentArea = urlContent.substring (pos1, pos2);
}
// Die folgenden zwei Funktionen erhalten die Schlüsselwörter, die die URL enthalten soll, und die Schlüsselwörter, die nicht enthalten sein können
// Hier werden nur vorläufige Experimente durchgeführt. In der späteren Phase sollte es mehr als ein geschütztes Schlüsselwort und ein Schlüsselwort geben, das nicht enthalten sein kann.
public void getStringinurl (String Stringinurl)
{
this.stringinurl = Stringinurl;
}
public void getStringnotinurl (String Stringnotinurl)
{
this.stringnotinurl = Stringnotinurl;
}
// Erhalten Sie die Sammelregeln
// Holen Sie sich die URL
öffentliche void Geturl ()
{
}
öffentliche Zeichenfolge GetRegex ()
{
Return Regex;
}
Klassen Urlandtitle
{
String myurl;
String -Titel;
}
}