这个项目我们介绍了Instagram的几个数据收集部分
安装Python 3.6.0
安装PIP包,输入命令行:
python get-pip.py
安装PIP请求(这将安装Django和Selenium框架)
cd * PATH * / Project
pip install -r requirements.txt
安装Firefox客户端(您可以下载著名的Mozilla Firefox浏览器)
完全的
如果要使用Web平台,则需要在数据库中部署整个Django系统。我们使用以下代码执行此操作:
cd * PATH * / Project / web. / manage.py makemigrations
这将从模型中执行迁移。 /manage.py迁移转换从模型转换为基础
默认用户/管理员访问:
要创建具有所有特权的超级管理员,请输入:
./manage.py createsuperuser
输入所需的字段。
要打开服务器,请运行以下命令并激活端口8000的Django Web应用程序
./manage.py runserver 8000
使用脚本收集数据太简单了,这是您可以使用的完整API。
警告!在开始使用crawler的任何类型的服务之前,您必须配置身份验证Instagram用户,该用户将用于爬网,该数据仅适用于身份验证的用户
转到project / script / settings.py
更改身份验证信息
默认值为:用户名=“ kiril_cvetkov” password =“ * ”
输入您的用户名和密码,浏览器将登录。
一旦我们配置了嗅探器,下面就是完整的API,也是一个示例,以提供如何使用脚本的完整图片
crawl.py [-db EXPORT_DB] [-DIR DIRECTORY] [-page PAGE_NAME] [-more MORE_DETAILS] [-num POST_NUMBER]
* [-db EXPORT_DB] Whether to save data in a database or only in a file system
* [-DIR DIRECTORY]: Directory where the data will be stored
* [-page PAGE_NAME]: Profile / crawling page
* [-more MORE_DETAILS]: Retrieve more details, such as a number of likes, description of pictures within a single photo
首先转到脚本所在的目录
cd * PATH * / Project / script
为了运行脚本,并从Bill Gates的页面抓取数据:),请输入:
python crawl.py -num = 30 -page = thisisbillgates -more -db
您可以看到我们搜索者索引的所有页面
您可以过滤页面名称上包含关键字的图像,也可以通过其描述中包含的关键字进行搜索
您可以单击特定图像并在画廊中列出
您可以通过管理面板修改数据以访问管理员部分,键入以下URL
Localhost:8000/Admin

这种定义和实现的体系结构的最大用法是,数据检索可以为我们带来巨大的力量,尤其是在大数据,深度学习和其他机器学习算法领域。如果我们搜索具有某些主题标签的图像,那么系统为我们提供了逻辑上包含相同主题标签的图像。我们只能想象Instagram如何使用主题标签训练系统以实时识别各种事件,对象,事件,文章,模型。但是,随着此脚本的使用,如果我们知道如何将它们拿走,我们将可以使用所有信息。 Web浏览器和Web检索是每个开发人员和业务分析师都需要拥有的强大功能。