Debido a los requisitos del proyecto, se necesitan información de la marca del vehículo y la información del sistema de vehículos. Ayer, pasé un día estudiando Jsoup arrastrando la información del sitio web. El proyecto está escrito con Maven+Spring+SpringMVC+MyBatis.
dirección de la guía de desarrollo de JSOUP
Esta es la dirección del sitio web que debe arrastrarse https://car.autohome.com.cn/zhaoche/pinpai/
1. Primero agregue dependencias en pom.xml
Debido a que necesito guardar la imagen localmente, agregué el paquete Commons-Net.
< https://mvnrepository.com/artifact/commons-net/commons-net-> <pendency> <proupid> commons-net </proupid> <artifactid> commons-net </arifactid> <versión> 3.3 </sersion> </dependency>
2. Implementación del código de rastreadores
@Controlador@requestmapping ("/car/") public class CarController {// Ruta de guardado de imagen Cadena final estática Final SaveImGpath = "C: // imgs"; /** * @title: inserte el nombre de la marca y el rastreo de imágenes y agregando * @Description: * @param @throws ioexception * @return void * @throws * @Date 29 de enero de 2018 a las 4:42:57 pm */@RequestMapping ("Agregar") Public Void Insert () lanza IOException {// Defina la dirección donde los datos quieren a Crawl "https://car.autohome.com.cn/zhaoche/pinpai/"; // Obtener el documento de texto de la página web doc = jsoup.connect (url) .get (); // Obtenga el contenido de texto basado en el nombre de clase Elements ElementsByClass = Doc.getElementsByClass ("Uibox-Con"); // Transfiera la colección de la clase para (Element Element: ElementsByClass) {// Obtenga el número de etiquetas infantiles de la clase int ChildNesize_1 = element.childNodesize (); // bucle para obtener el contenido en la etiqueta infantil para (int i = 0; i <childnodesize_1; i ++) {// Obtener la imagen del logotipo del automóvil. // Obtenga la cadena de marca Pinpai = element.child (i) .child (0) .child (1) .Text (); // emite el contenido para ver si es correcto System.out.println ("Imagen del logotipo de automóvil address----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- URL url1 = new Url (Tupian_1); FileOtputStream (nuevo archivo (saveImGPath, imageName)); Volkswagen importado* Todos deben andar en bicicleta para obtener el nombre de la fábrica de empresas conjuntas y sus subsidiarias*/// Obtener el número de series de automóviles int ChildSize_2 = Element.child (i) .child (1) .child (0) .ChildNodesize (); ChildNodesize_3 = element.child (i) .child (1) .childnodesize (); element.child (i) .Child (1) .Child (0) .Child (J) .Child (0) .Child (0) .Child (0) .Text (); Venture Factory respectivamente para (int j = 0; j <childnodesize_3; j ++) {int childNodesize_4 = element.child (i) .child (1) .child (j) .childnodesize (); Junta Venture Factory String Hezipinpai = Element.child (i) .Child (1) .Child (J) .Child (0) .Text (); // obtiene la información del sistema de vehículos de la fábrica de empresas conjuntas para (int l = 0; l <childnodesize_4; l ++) {string chexi = element.child (i) .child (1) .child (j) .child (l) .child (0) .Child (0) .Text (); } System.out.println ("********************");3. Resultados de la operación
Lo anterior es todo el contenido de este artículo. Espero que sea útil para el aprendizaje de todos y espero que todos apoyen más a Wulin.com.