复制代码代码如下:
حزمة com.test ؛
استيراد org.htmlparser.node ؛
استيراد org.htmlparser.nodefilter ؛
استيراد org.htmlparser.parser ؛
استيراد org.htmlparser.filters.tagnameFilter ؛
استيراد org.htmlparser.tags.tabletag ؛
استيراد org.htmlparser.util.nodelist ؛
/**
* 标题: 利用 htmlparser 提取网页纯文本的例子
*/
الفئة العامة testhtmlparser {
public static void testhtml () {
يحاول {
سلسلة scurrentline.
سلسلة StotalString.
scurrentLine = "" ؛
StotalString = "" ؛
java.io.inputstream l_urlstream ؛
java.net.url l_url = new java.net.url ("http://www.ideagrace.com/html/doc/2006/07/04/00929.html") ؛
java.net.httpurlConnection l_connection = (java.net.httpurlConnection) l_url.openconnection () ؛
l_connection.connect () ؛
l_urlstream = l_connection.getInputStream () ؛
java.io.bufferedReader l_reader = new java.io.bufferedreader (new java.io.inputstreamreader (l_urlstream)) ؛
بينما ((scurrentLine = l_reader.readline ())! = null) {
StotalSstring += ScurrentLine +"/r/n" ؛
// system.out.println (StotalString) ؛
}
سلسلة testText = extractText (StotalString) ؛
System.out.println (TestText) ؛
} catch (استثناء e) {
E.PrintStackTrace () ؛
}
}
extracttext static static static (سلسلة inputhtml) يلقي الاستثناء {
text stringBuffer = new StringBuffer () ؛
parser parser = parser.createparser (سلسلة جديدة (inputhtml.getbytes () ، "gbk") ، "gbk") ؛
// 遍历所有的节点
عقد nodelist = parser.extractallnodesthatmatch (nodefilter () {
قبول منطقي العام (عقدة العقدة) {
العودة صحيح.
}
}) ؛
system.out.println (noves.size ()) ؛ // 打印节点的数量
لـ (int i = 0 ؛ i <nodes.size () ؛ i ++) {
node nodet = nodes.elementat (i) ؛
//system.out.println (nodet.getText ()) ؛
text.append (سلسلة جديدة (nodet.toplaintextstring (). getBytes ("gbk"))+"/r/n") ؛
}
إرجاع text.toString () ؛
}
اختبار الفراغ الثابت العام (مورد السلسلة) يلقي استثناء {
parser myparser = محلل جديد (مورد) ؛
myparser.setencoding ("GBK") ؛
سلسلة filterstr = "الجدول" ؛
NodeFilter Filter = new tagnameFilter (filterstr) ؛
nodelist nodelist = myparser.extractallnodesthatmatch (filter) ؛
tabletag tabletag = (tabletag) nodeList.elementat (11) ؛
}
الفراغ الثابت العام (سلسلة [] args) يلقي الاستثناء {
// test5 ("http://www.google.com") ؛
testHtml () ؛
}
}