复制代码代码如下:
แพ็คเกจ com.test;
นำเข้า org.htmlparser.node;
นำเข้า org.htmlparser.nodefilter;
นำเข้า org.htmlparser.parser;
นำเข้า org.htmlparser.filters.tagnamefilter;
นำเข้า org.htmlparser.tags.tabletag;
นำเข้า org.htmlparser.util.nodelist;
-
* 标题: 利用 htmlparser 提取网页纯文本的例子
-
ระดับสาธารณะ testhtmlparser {
โมฆะคงที่สาธารณะ testhtml () {
พยายาม {
สตริง scurrentline;
สตริง stotalstring;
scurrentline = "";
Stotalstring = "";
java.io.inputstream l_urlstream;
java.net.url l_url = ใหม่ java.net.url ("http://www.ideagrace.com/html/doc/2006/07/04/00929.html");
java.net.httpurlconnection l_connection = (java.net.httpurlconnection) l_url.openconnection ();
l_connection.connect ();
l_urlstream = l_connection.getInputStream ();
java.io.bufferedreader l_reader = ใหม่ java.io.bufferedreader (java.io.InputStreamReader ใหม่ (l_urlstream));
ในขณะที่ ((scurrentline = l_reader.readline ())! = null) {
stotalstring += scurrentline +"/r/n";
// system.out.println (stotalstring);
-
String testText = ExtractText (stotalstring);
System.out.println (TestText);
} catch (Exception e) {
E.PrintStackTrace ();
-
-
String String Public String ExtractText (String inputhtml) โยนข้อยกเว้น {
StringBuffer text = new StringBuffer ();
parser parser = parser.createparser (สตริงใหม่ (inputhtml.getBytes (), "gbk"), "gbk");
// 遍历所有的节点
NodeList Nodes = parser.extractallNodestHatMatch (nodeFilter ใหม่ () {
บูลีนสาธารณะยอมรับ (โหนดโหนด) {
กลับมาจริง;
-
-
System.out.println (nodes.size ()); // 打印节点的数量
สำหรับ (int i = 0; i <nodes.size (); i ++) {
โหนด nodet = nodes.elementat (i);
//system.out.println (nodet.getText ());
text.append (สตริงใหม่ (nodet.toplaintextstring (). getBytes ("gbk"))+"/r/n");
-
ส่งคืน text.toString ();
-
Public Static Void Test5 (ทรัพยากรสตริง) โยนข้อยกเว้น {
Parser MyParser = ใหม่ Parser (ทรัพยากร);
MyParser.SetEncoding ("GBK");
สตริงตัวกรอง = "ตาราง";
ตัวกรอง nodeFilter = tagnameFilter ใหม่ (FiltersTR);
NodeList Nodelist = MyParser.ExtractallNodestHatMatch (ตัวกรอง);
tabletag tabletag = (tabletag) nodelist.elementat (11);
-
โมฆะคงที่สาธารณะหลัก (สตริง [] args) โยนข้อยกเว้น {
// test5 ("http://www.google.com");
testhtml ();
-
-