复制代码代码如下:
пакет com.test;
Импорт org.htmlparser.node;
Импорт org.htmlparser.nodefilter;
Импорт org.htmlparser.parser;
Импорт org.htmlparser.filters.tagnamefilter;
Импорт org.htmlparser.tags.tabletag;
Импорт org.htmlparser.util.nodelist;
/**
* 标题: 利用 htmlParser 提取网页纯文本的例子
*/
открытый класс testhtmlparser {
public static void testhtml () {
пытаться {
String ScurrentLine;
String Stotalstring;
ScurrentLine = "";
StotalString = "";
java.io.inputstream l_urlstream;
java.net.url l_url = new java.net.url ("http://www.ideagrace.com/html/doc/2006/07/04/00929.html");
java.net.httpurlconnection l_connection = (java.net.httpurlconnection) l_url.openconcenection ();
l_connection.connect ();
l_urlstream = l_connection.getInputStream ();
java.io.bufferedReader L_Reader = new Java.io.BufferedReader (new java.io.inputStreamReader (l_urlStream));
while ((scurrentline = l_reader.readline ())! = null) {
StotalString += ScurrentLine +"/r/n";
// System.out.println (Stotalstring);
}
String testtext = ExtractText (StotalString);
System.out.println (TestText);
} catch (Exception e) {
e.printstacktrace ();
}
}
public Static String Extracttext (String Inputhtml) бросает исключение {
StringBuffer Text = new StringBuffer ();
Parser parser = parser.createparser (new String (inputhtml.getbytes (), "gbk"), "gbk");
// 遍历所有的节点
Nodelist Nodes = parser.extractallnodesthatmatch (new nodefilter () {
Public Boolean Accept (Node Node) {
вернуть истину;
}
});
System.out.println (nodes.size ()); // 打印节点的数量
for (int i = 0; i <nodes.size (); i ++) {
Node nodet = nodes.elementat (i);
//System.out.println (nodet.getText ());
text.append (new String (nodet.toplaintextString (). GetBytes ("gbk"))+"/r/n");
}
return text.tostring ();
}
public static void test5 (String Resource) бросает исключение {
Parser myparser = новый анализатор (ресурс);
myparser.setencoding ("GBK");
String filterstr = "table";
Nodefilter Filter = new Tagnamefilter (Filterstr);
Nodelist nodelist = myparser.extractallnodesthatmatch (фильтр);
TableTag TableTag = (TableTag) Nodelist.Elementat (11);
}
public static void main (string [] args) бросает исключение {
// test5 ("http://www.google.com");
testhtml ();
}
}