Мне нужно что -то сделать за последние два дня, и мне нужно ползти некоторую информацию со веб -страниц других людей. Наконец, используйте htmlparser, чтобы разобрать HTML.
Просто посмотрите на это из кода:
Прежде всего, вам нужно отметить, что пакет импорта: пакет ниже Import org.htmlparser
Кода -копия выглядит следующим образом:
Список <mp3> mp3list = new ArrayList <mp3> ();
пытаться{
SARSER PARSER = новый анализатор (htmlstr); // Инициализировать анализатор, здесь вы должны обратить внимание на пакет импорта как org.htmlparser. Здесь много параметров. Я написал это место, чтобы получить хороший HTML -текст заранее. Вы также можете передать объекты URL
parser.setencoding ("utf-8"); // Установить машину кодирования
И фильтр фильтр =
Новый и фильтер (
new Tagnamefilter ("div"),
new hasattributefilter ("id", "songlistwrapper")
); // найти div через фильтр, а удостоверение личности Div - SongListWrapper
Nodelist Nodes = parser.parse (Filter); // Получить узлы через фильтр
Node node = nodes.elementat (0);
Nodelist nodeschild = node.getChildren ();
Node [] nodesarr = nodeschild.tonodearray ();
Nodelist Nodeschild2 = Nodesarr [1] .getChildren ();
Node [] nodesarr2 = nodeschild2.tonodearray ();
Node nodeul = nodesarr2 [1];
Node [] nodesli = nodeul.getchildren (). Tonodearray (); // parse out oudesli по желанию
для (int i = 2; i <nodesli.length; i ++) {
//System.out.println (nodesli [i] .tohtml ());
Node tempnode = nodesli [i];
Tagnode tagnode = new Tagnode (); // Получить атрибуты через Tagnode.
tagnode.settext (tempnode.tohtml ());
String clastr = tagnode.getattribute ("class"); // clastr Is bb-dotimg clearfix song-item-hook {'songitem': {'sid': '113275822', 'sname': 'мои требования не высоки' , 'Автор': 'huang bo'}}
clastr = clastr.replaceall ("" "," ");
if (clastr.indexof ("//?") ==-1) {
Паттерн шаблона = pattern.compile ("[// s // wa-z //-]+// {'songitem': // {'sid': '([// d]+)', 'sname' : '([// s // s]*)', 'Автор': '([// s // s]*)' //} //} ");
Matcher Matcher = pattern.matcher (clastr);
if (matcher.find ()) {
Mp3 mp3 = новый mp3 ();
mp3.setsid (matchter.group (1));
mp3.setsname (matchter.group (2));
mp3.setauthor (matchter.group (3));
mp3list.add (mp3);
// for (int j = 1; j <= matchter.groupcount (); j ++) {
//System.out.print (""+j+"--->"+matchter.group (j));
//}
}
}
//System.out.println (matcher.find ());
}
} catch (Exception e) {
e.printstacktrace ();
}
Выше я проанализировал в проекте.
///// Clastr IS BB-Dotimg Clearfix Song-Item-hook {'songiTem': {'sid': '113275822', 'sname': 'мои требования не высоки »,« Автор »:« Хуан Бо Бо
Это контент, проанализированный на веб -странице.