這個項目我們介紹了Instagram的幾個數據收集部分
安裝Python 3.6.0
安裝PIP包,輸入命令行:
python get-pip.py
安裝PIP請求(這將安裝Django和Selenium框架)
cd * PATH * / Project
pip install -r requirements.txt
安裝Firefox客戶端(您可以下載著名的Mozilla Firefox瀏覽器)
完全的
如果要使用Web平台,則需要在數據庫中部署整個Django系統。我們使用以下代碼執行此操作:
cd * PATH * / Project / web. / manage.py makemigrations
這將從模型中執行遷移。 /manage.py遷移轉換從模型轉換為基礎
默認用戶/管理員訪問:
要創建具有所有特權的超級管理員,請輸入:
./manage.py createsuperuser
輸入所需的字段。
要打開服務器,請運行以下命令並激活端口8000的Django Web應用程序
./manage.py runserver 8000
使用腳本收集數據太簡單了,這是您可以使用的完整API。
警告!在開始使用crawler的任何類型的服務之前,您必須配置身份驗證Instagram用戶,該用戶將用於爬網,該數據僅適用於身份驗證的用戶
轉到project / script / settings.py
更改身份驗證信息
默認值為:用戶名=“ kiril_cvetkov” password =“ * ”
輸入您的用戶名和密碼,瀏覽器將登錄。
一旦我們配置了嗅探器,下面就是完整的API,也是一個示例,以提供如何使用腳本的完整圖片
crawl.py [-db EXPORT_DB] [-DIR DIRECTORY] [-page PAGE_NAME] [-more MORE_DETAILS] [-num POST_NUMBER]
* [-db EXPORT_DB] Whether to save data in a database or only in a file system
* [-DIR DIRECTORY]: Directory where the data will be stored
* [-page PAGE_NAME]: Profile / crawling page
* [-more MORE_DETAILS]: Retrieve more details, such as a number of likes, description of pictures within a single photo
首先轉到腳本所在的目錄
cd * PATH * / Project / script
為了運行腳本,並從Bill Gates的頁面抓取數據:),請輸入:
python crawl.py -num = 30 -page = thisisbillgates -more -db
您可以看到我們搜索者索引的所有頁面
您可以過濾頁面名稱上包含關鍵字的圖像,也可以通過其描述中包含的關鍵字進行搜索
您可以單擊特定圖像並在畫廊中列出
您可以通過管理面板修改數據以訪問管理員部分,鍵入以下URL
Localhost:8000/Admin

這種定義和實現的體系結構的最大用法是,數據檢索可以為我們帶來巨大的力量,尤其是在大數據,深度學習和其他機器學習算法領域。如果我們搜索具有某些主題標籤的圖像,那麼系統為我們提供了邏輯上包含相同主題標籤的圖像。我們只能想像Instagram如何使用主題標籤訓練系統以實時識別各種事件,對象,事件,文章,模型。但是,隨著此腳本的使用,如果我們知道如何將它們拿走,我們將可以使用所有信息。 Web瀏覽器和Web檢索是每個開發人員和業務分析師都需要擁有的強大功能。