A cópia do código é a seguinte:
trabalho de pacote;
importar java.io.bufferedReader;
importar java.io.ioException;
importar java.io.inputStream;
importar java.io.inputStreamReader;
importar java.util.regex.matcher;
importar java.util.regex.pattern;
importar org.apache.commons.httpclient.defaultThtpMethodRetryHandler;
importar org.apache.commons.httpclient.httpclient;
importar org.apache.commons.httpclient.httPexception;
importar org.apache.commons.httpclient.httpstatus;
importar org.apache.commons.httpclient.methods.getmethod;
importar org.apache.commons.httpclient.params.httpmethodparams;
classe pública chuanboyi {
public static void main (string [] args) {
// TODO Method Stub
StringBuffer html = new StringBuffer ();
HttpClient httppClient = new httpClient ();
// Crie uma instância de método Get
GetMethod getMethod = new getMethod ("// www.vevb.com");
// Use a política de recuperação padrão fornecida pelo sistema
getMethod.getParams (). SetParameter (httpmethodparams.retry_handler, new DefaultTtpMethodRetRyHandler ());
tentar{
// execute o método get
int statuscode = httpclient.executemethod (getMethod);
if (statuscode! = httpstatus.sc_ok) {
System.out.println ("Método está errado" + getMethod.getStatusline ());
}
InputStream ResponsBody = getMethod.GetResponseBodyAssTream ();
BufferredReader Reader = new BufferredReader (new InputStreamReader (ResponseBody, "UTF-8"));
Linha de string = reader.readline ();
while (linha! = null) {
html.append (linha) .append ("/n");
linha = leitor.readline ();
}
leitor.close ();
// Expressão regular
String regex = "<nome do formulário =/" compareform/"[// s/s]+> [// s/s]+</form>.*<Script.*>";
String regexa = "(? <= <li>) [// s // s]+? (? = </li>)";
Padrão padrão = padrão.compile (regex);
Matcher M = Pattern.Matcher (HTML);
StringBuffer str = new StringBuffer ();
int i = 0;
while (m.find ()) {
str.Append (M.Group ());
}
padrão = padrão.compile (regexa);
M = Pattern.Matcher (STR);
while (m.find ()) {
attrs (m.group ());
i ++;
}
System.out.println ("existem totais"+i+"dados!");
} catch (httPexception e) {
// TODO: lidar com a exceção
System.out.println ("Por favor, verifique o endereço HTTP fornecido!");
E.PrintStackTrace ();
} catch (ioexception e) {
// TODO: lidar com a exceção
System.out.println ("A linha está errada!");
E.PrintStackTrace ();
} finalmente{
getMethod.releaseconnection (); // Libere o link
}
}
public static void Attrs (String str) {
// Obtenha o regex do URL
String regexurl = "[AZ]+-[0-9]+//. Html";
// Obtenha a expressão regular de nome
String regexname = "(? <= Title =/") [[// w-// s] [^x00-xff]]+(? =/")";
// Obtenha a expressão regular da imagem
String regexpicture = "imagens.*//. Jpg";
Padrony PatternUrl = Pattern.compile (regexurl);
Padrão padronyName = Pattern.compile (regexname);
Padrony PatternPicture = Pattern.compile (regexpicture);
Matcher Murl = Patternurl.Matcher (STR);
Matcher mname = PatternName.Matcher (STR);
Matcher mPicture = PatternPicture.Matcher (STR);
if (mname.find ()) {
System.out.println ("Nome:"+mname.group ());
}
if (murl.find ()) {
System.out.println ("link:"+murl.group ());
}
if (mpicture.find ()) {
System.out.println ("imagem:"+mpicture.group ());
}
}
}