Este projeto abordamos vários segmentos de coleta de dados do Instagram
Instale o Python 3.6.0
Instale o pacote PIP, digite a linha de comando:
python get-pip.py
Instale solicitações PIP (isso instalará os quadros de Django e Selenium)
cd * PATH * / Project
pip install -r requirements.txt
Instale o Firefox Client (você pode baixar o famoso navegador Mozilla Firefox)
Concluído
Se você deseja usar a plataforma da Web, precisará implantar todo o sistema Django no banco de dados. Fazemos isso com o seguinte código:
cd * PATH * / Project / web. / manage.py makemigrations
Isso realizará as migrações do modelo. /Manage.py Migre converte migrações de um modelo para uma base
Acesso ao usuário/administrador padrão:
Para criar um super administrador que tenha todos os privilégios, digite:
./manage.py createsuperuser
Digite os campos necessários.
Para ativar o servidor, execute o seguinte comando e ative o aplicativo da web do Django na porta 8000
./manage.py runserver 8000
Usando o script para coletar dados é muito simples, aqui está a API completa com a qual você pode servir.
Aviso! Antes de começar a usar qualquer tipo de serviço do rastreador, você deve configurar o usuário do Instagram de autenticação que será usado para rastejar os dados que são visíveis apenas para usuários autenticados
Vá para Project / Script / Settings.py
Alterar informações de autenticação
O padrão é: nome de usuário = "kiril_cvetkov" senha = " * "
Digite seu nome de usuário e senha através da qual o navegador efetuará login.
Depois de configurarmos nosso sniffer, abaixo está a API completa e um exemplo para dar uma imagem completa de como o script pode ser usado
crawl.py [-db EXPORT_DB] [-DIR DIRECTORY] [-page PAGE_NAME] [-more MORE_DETAILS] [-num POST_NUMBER]
* [-db EXPORT_DB] Whether to save data in a database or only in a file system
* [-DIR DIRECTORY]: Directory where the data will be stored
* [-page PAGE_NAME]: Profile / crawling page
* [-more MORE_DETAILS]: Retrieve more details, such as a number of likes, description of pictures within a single photo
Primeiro vá para o diretório onde o script está localizado
cd * PATH * / Project / script
Para executar o script e rastejar os dados da página de Bill Gates :), digite:
python crawl.py -num = 30 -page = thisisbillgates -more -db
Você pode ver todas as páginas indexadas por nosso pesquisador
Você pode filtrar imagens que contêm uma palavra -chave no nome da página ou pode pesquisar por palavras -chave contidas na descrição deles
Você pode clicar em uma imagem específica e listá -la em uma galeria
Você pode modificar os dados através do painel de administração para acessar a seção de administrador, digite o seguinte URL
LocalHost: 8000/Admin

O maior uso em uma arquitetura tão definida e implementada é que a recuperação de dados pode nos trazer hoje enorme poder, especialmente no campo de big data , aprendizado profundo e outros algoritmos de aprendizado de máquina . Se procurarmos imagens com certas hashtags, o sistema nos fornecerá imagens que contêm logicamente a mesma hashtag. Só podemos imaginar como o Instagram usa hashtags para treinar um sistema para reconhecer vários eventos, objetos, eventos, artigos, modelos em tempo real. Mas com o uso deste script, todas as informações estão disponíveis para nós, se soubermos como tomá -las. Os navegadores da Web e a recuperação da Web são uma capacidade poderosa que todo desenvolvedor e analista de negócios precisa ter.