Instagram Crawler下载Instagram Crawler源代码下载

Instagram Crawler

其他源码

1.0.0

下载

Instagram-crawler

这个项目我们介绍了Instagram的几个数据收集部分

Python脚本解决方案正在爬行数据。
在数据库中插入收集的Instagram配置文件。
使用Django框架在简单的网站上查看和过滤数据。
实际应用

安装要求

安装Python 3.6.0
安装PIP包，输入命令行：
python get-pip.py
安装PIP请求（这将安装Django和Selenium框架）
cd * PATH * / Project
pip install -r requirements.txt
安装Firefox客户端（您可以下载著名的Mozilla Firefox浏览器）
完全的

设置Web系统

如果要使用Web平台，则需要在数据库中部署整个Django系统。我们使用以下代码执行此操作：
cd * PATH * / Project / web. / manage.py makemigrations

这将从模型中执行迁移。 /manage.py迁移转换从模型转换为基础

默认用户/管理员访问：
- 用户：管理员
- 密码：管理员
要创建具有所有特权的超级管理员，请输入：
./manage.py createsuperuser

输入所需的字段。

要打开服务器，请运行以下命令并激活端口8000的Django Web应用程序
./manage.py runserver 8000

使用爬网脚本的说明

使用脚本收集数据太简单了，这是您可以使用的完整API。

警告！在开始使用crawler的任何类型的服务之前，您必须配置身份验证Instagram用户，该用户将用于爬网，该数据仅适用于身份验证的用户

转到project / script / settings.py
更改身份验证信息
默认值为：用户名=“ kiril_cvetkov” password =“ * ”
输入您的用户名和密码，浏览器将登录。

一旦我们配置了嗅探器，下面就是完整的API，也是一个示例，以提供如何使用脚本的完整图片

 crawl.py [-db EXPORT_DB] [-DIR DIRECTORY] [-page PAGE_NAME] [-more MORE_DETAILS] [-num POST_NUMBER]
 
* [-db EXPORT_DB] Whether to save data in a database or only in a file system
* [-DIR DIRECTORY]: Directory where the data will be stored
* [-page PAGE_NAME]: Profile / crawling page
* [-more MORE_DETAILS]: Retrieve more details, such as a number of likes, description of pictures within a single photo

例子

首先转到脚本所在的目录

cd * PATH * / Project / script

为了运行脚本，并从Bill Gates的页面抓取数据:)，请输入：

python crawl.py -num = 30 -page = thisisbillgates -more -db

网络功能

您可以看到我们搜索者索引的所有页面

您可以过滤页面名称上包含关键字的图像，也可以通过其描述中包含的关键字进行搜索
您可以单击特定图像并在画廊中列出
您可以通过管理面板修改数据以访问管理员部分，键入以下URL
Localhost：8000/Admin

可视化

网页功能

用法

这种定义和实现的体系结构的最大用法是，数据检索可以为我们带来巨大的力量，尤其是在大数据，深度学习和其他机器学习算法领域。如果我们搜索具有某些主题标签的图像，那么系统为我们提供了逻辑上包含相同主题标签的图像。我们只能想象Instagram如何使用主题标签训练系统以实时识别各种事件，对象，事件，文章，模型。但是，随着此脚本的使用，如果我们知道如何将它们拿走，我们将可以使用所有信息。 Web浏览器和Web检索是每个开发人员和业务分析师都需要拥有的强大功能。

展开

附加信息