零基礎寫Java知乎爬蟲之先拿百度首頁練練手

作者：Eve Cole 更新時間：2025-03-04 09:32:02

上一集我們說到需要用Java來製作一個知乎爬蟲，那麼這次，我們就來研究如何使用程式碼取得到網頁的內容。

首先，沒有HTML和CSS和JS和AJAX經驗的建議先去W3C（點我點我）小小的了解一下。

說到HTML，這裡就牽涉到一個GET訪問和POST訪問的問題。

如果對這個方面缺乏了解可以閱讀W3C的這篇：《GET對比POST》。

啊哈，在此不再贅述。

然後咧，接下來我們需要用Java來爬取一個網頁的內容。

這時候，我們的百度就要派上用場了。

沒錯，他不再是那個默默無聞的網速測試器了，他即將成為我們的爬蟲小白鼠！ ~

我們先來看看百度的首頁：

相信大家都知道，現在這樣的一個頁面，是HTML和CSS共同工作的成果。

我們在瀏覽器中右鍵點選頁面，選擇「查看頁面原始碼」：

沒錯，就是這一坨翔的東西。這就是百度頁面的原始碼。

接下來我們的任務，就是使用我們的爬蟲也得到一樣的東西。

先來看一段簡單的原始碼：

 import java.io.*;
 import java.net.*;
 public class Main {
 public static void main(String[] args) {
 // 定義即將訪問的鏈接
String url = "http://www.baidu.com";
 // 定義一個字串用來儲存網頁內容
String result = "";
 // 定義一個緩衝字元輸入流
BufferedReader in = null;
 try {
 // 將string轉成url對象
URL realUrl = new URL(url);
 // 初始化一個連結到那個url的連接
URLConnection connection = realUrl.openConnection();
 // 開始實際的連接
connection.connect();
 // 初始化BufferedReader輸入流來讀取URL的回應
in = new BufferedReader(new InputStreamReader(
 connection.getInputStream()));
 // 用來暫時儲存抓取到的每一行的數據
String line;
 while ((line = in.readLine()) != null) {
 //遍歷抓取到的每一行並將其儲存到result裡面
result += line;
 }
 } catch (Exception e) {
 System.out.println("發送GET請求出現異常！" + e);
 e.printStackTrace();
 }
 // 使用finally關閉輸入流
finally {
 try {
 if (in != null) {
 in.close();
 }
 } catch (Exception e2) {
 e2.printStackTrace();
 }
 }
 System.out.println(result);
 }
 }

以上就是Java模擬Get存取百度的Main方法，

可以運行看看結果：

啊哈，和我們前面用瀏覽器看到的一模一樣。至此，一個最簡單的爬蟲就算是做好了。

但是這麼一大坨東西未必都是我想要的啊，要怎麼從中抓取出我想要的東西呢？

以百度的大爪子Logo為例。

臨時需求：

取得百度Logo的大爪子的圖片連結。

先說一下瀏覽器的檢視方法。

滑鼠對圖片右鍵，選擇審查元素（火狐，Google，IE11，均有此功能，只是名字不太一樣）：

啊哈，可以看到在一大堆div的圍攻下的可憐的img標籤。

這個src就是圖片的連結了。

那麼在java中我們要怎麼搞呢？

事先說明，為了方便示範程式碼，所有程式碼均未作類封裝，還請諒解。

我們先把前面的程式碼封裝成sendGet函數：

 import java.io.*;
 import java.net.*;
 public class Main {
 static String sendGet(String url) {
 // 定義一個字串用來儲存網頁內容
String result = "";
 // 定義一個緩衝字元輸入流
BufferedReader in = null;
 try {
 // 將string轉成url對象
URL realUrl = new URL(url);
 // 初始化一個連結到那個url的連接
URLConnection connection = realUrl.openConnection();
 // 開始實際的連接
connection.connect();
 // 初始化BufferedReader輸入流來讀取URL的回應
in = new BufferedReader(new InputStreamReader(
 connection.getInputStream()));
 // 用來暫時儲存抓取到的每一行的數據
String line;
 while ((line = in.readLine()) != null) {
 // 遍歷抓取到的每一行並將其儲存到result裡面
result += line;
 }
 } catch (Exception e) {
 System.out.println("發送GET請求出現異常！" + e);
 e.printStackTrace();
 }
 // 使用finally關閉輸入流
finally {
 try {
 if (in != null) {
 in.close();
 }
 } catch (Exception e2) {
 e2.printStackTrace();
 }
 }
 return result;
 }
 public static void main(String[] args) {
 // 定義即將訪問的鏈接
String url = "http://www.baidu.com";
 // 造訪連結並取得頁面內容
String result = sendGet(url);
 System.out.println(result);
 }
 }

這樣看起來稍微整齊了一點，請原諒我這個強迫症。

接下來的任務，就是從取得到的一大堆東西裡面找到那個圖片的連結。

我們首先可以想到的方法，是對頁面原始碼的字串result使用indexof函數進行String的子字串搜尋。

沒錯這個方法是可以慢慢解決這個問題，例如直接indexOf("src")找到開始的序號，然後再稀裡嘩啦的搞到結束的序號。

不過我們不能一直使用這種方法，畢竟草鞋只適合出門走走，後期還是需要切假腿來拿人頭的。

請原諒我的亂入，繼續。

那我們用什麼方式來尋找這張圖片的src呢？

沒錯，正如下面觀眾所說，正則匹配。

如果有同學不太清楚正規，可以參考這篇文章：[Python]網路爬蟲（七）：Python中的正規表示式教學。

簡單來說，正規就像是匹配。

例如三個胖子站在這裡，分別穿著紅衣服，藍衣服，綠衣服。

正則是：抓住那個穿綠衣服的！

然後把綠胖子單獨抓了出來。

就是這麼簡單。

但是正規的語法卻還是博大精深的，剛接觸的時候難免有點摸不著頭腦，

向大家推薦一個正規的線上測試工具：正規表示式線上測試。

有了正規這個神兵利器，那麼怎麼在java裡面使用正規則呢？

先來看個簡單的小李子吧。

啊錯了，小栗子。

 // 定義一個樣式模板，此中使用正規表示式，括號中是要抓的內容
// 相當於埋好了陷阱配對的地方就會掉下去
Pattern pattern = Pattern.compile("href=/"(.+?)/"");
 // 定義一個matcher用來做匹配
Matcher matcher = pattern.matcher("＜a href=/"index.html/"＞我的主頁＜/a＞");
 // 如果找到了
if (matcher.find()) {
 // 列印出結果
System.out.println(matcher.group(1));
 }

運行結果：

index.html

沒錯，這就是我們的第一個正規程式碼。

這樣應用程式的抓取圖片的連結想必也是信手拈來了。

我們將正規匹配封裝成函數，然後將程式碼作如下修改：

 import java.io.*;
 import java.net.*;
 import java.util.regex.*;
 public class Main {
 static String SendGet(String url) {
 // 定義一個字串用來儲存網頁內容
String result = "";
 // 定義一個緩衝字元輸入流
BufferedReader in = null;
 try {
 // 將string轉成url對象
URL realUrl = new URL(url);
 // 初始化一個連結到那個url的連接
URLConnection connection = realUrl.openConnection();
 // 開始實際的連接
connection.connect();
 // 初始化BufferedReader輸入流來讀取URL的回應
in = new BufferedReader(new InputStreamReader(
 connection.getInputStream()));
 // 用來暫時儲存抓取到的每一行的數據
String line;
 while ((line = in.readLine()) != null) {
 // 遍歷抓取到的每一行並將其儲存到result裡面
result += line;
 }
 } catch (Exception e) {
 System.out.println("發送GET請求出現異常！" + e);
 e.printStackTrace();
 }
 // 使用finally關閉輸入流
finally {
 try {
 if (in != null) {
 in.close();
 }
 } catch (Exception e2) {
 e2.printStackTrace();
 }
 }
 return result;
 }
 static String RegexString(String targetStr, String patternStr) {
 // 定義一個樣式模板，此中使用正規表示式，括號中是要抓的內容
// 相當於埋好了陷阱配對的地方就會掉下去
Pattern pattern = Pattern.compile(patternStr);
 // 定義一個matcher用來做匹配
Matcher matcher = pattern.matcher(targetStr);
 // 如果找到了
if (matcher.find()) {
 // 列印出結果
return matcher.group(1);
 }
 return "";
 }
 public static void main(String[] args) {
 // 定義即將訪問的鏈接
String url = "http://www.baidu.com";
 // 造訪連結並取得頁面內容
String result = SendGet(url);
 // 使用正規符合圖片的src內容
String imgSrc = RegexString(result, "即將的正規語法");
 // 列印結果
System.out.println(imgSrc);
 }
 }

好的，現在萬事俱備，只差一個正規語法了！

那麼用什麼正規語句比較適合呢？

我們發現只要抓住了src="xxxxxx"這個字串，就能抓出整個src鏈接，

所以簡單的正規語句：src=/"(.+?)/"

完整程式碼如下：

 import java.io.*;
 import java.net.*;
 import java.util.regex.*;
 public class Main {
 static String SendGet(String url) {
 // 定義一個字串用來儲存網頁內容
String result = "";
 // 定義一個緩衝字元輸入流
BufferedReader in = null;
 try {
 // 將string轉成url對象
URL realUrl = new URL(url);
 // 初始化一個連結到那個url的連接
URLConnection connection = realUrl.openConnection();
 // 開始實際的連接
connection.connect();
 // 初始化BufferedReader輸入流來讀取URL的回應
in = new BufferedReader(new InputStreamReader(
 connection.getInputStream()));
 // 用來暫時儲存抓取到的每一行的數據
String line;
 while ((line = in.readLine()) != null) {
 // 遍歷抓取到的每一行並將其儲存到result裡面
result += line;
 }
 } catch (Exception e) {
 System.out.println("發送GET請求出現異常！" + e);
 e.printStackTrace();
 }
 // 使用finally關閉輸入流
finally {
 try {
 if (in != null) {
 in.close();
 }
 } catch (Exception e2) {
 e2.printStackTrace();
 }
 }
 return result;
 }
 static String RegexString(String targetStr, String patternStr) {
 // 定義一個樣式模板，此中使用正規表示式，括號中是要抓的內容
// 相當於埋好了陷阱配對的地方就會掉下去
Pattern pattern = Pattern.compile(patternStr);
 // 定義一個matcher用來做匹配
Matcher matcher = pattern.matcher(targetStr);
 // 如果找到了
if (matcher.find()) {
 // 列印出結果
return matcher.group(1);
 }
 return "Nothing";
 }
 public static void main(String[] args) {
 // 定義即將訪問的鏈接
String url = "http://www.baidu.com";
 // 造訪連結並取得頁面內容
String result = SendGet(url);
 // 使用正規符合圖片的src內容
String imgSrc = RegexString(result, "src=/"(.+?)/"");
 // 列印結果
System.out.println(imgSrc);
 }
 }

這樣我們就能用java抓出百度LOGO的連結了。

好吧雖然花了很多時間講百度，但是基礎要打紮實啦，下次我們正式開始抓知乎咯！ ~