Projetou um script de raspagem na Web em Python usando bibliotecas de selanium e belas sopa para extrair informações de todas as conexões do LinkedIn do usuário, transformaram os dados coletados e executaram a análise básica de dados nos dados sintetizados. Em seguida, desenvolveu um painel de aplicativos da Web usando a estrutura DASH para apresentar as descobertas da análise. Como pode ser observado acima, o projeto é dividido em 3 partes:
Usei o selênio e belas bibliotecas de sopa para executar raspagem na web para extrair informações dos perfis dos usuários do LinkedIn. Utilizado 3 métodos: login, conexões_scraper e perfil_scraper. Estes foram divididos em 3 quadros de dados: conexões_data, educação e experiência.
Connections_data: nome extraído, título, localização, perfil, número de conexões, número de projetos, número de idiomas conhecidos e habilidades principais para o Connections_data.
Educação: Instituto extraído, alcance de grau e ano para educação.
Experiência: perfil extraído, posição, empresa, duração para a experiência DataFrame.
Os dados coletados estavam em forma bruta e tiveram que ser limpos e transformados para que fossem analisados e obtidos informações. Existem 3 quadros de dados, a saber: conexões_data, experiência e educação.
Para o quadro de dados do Connections_Data, limpou a coluna de localização para apenas exibir o nome da cidade sem as palavras como 'área', dividiu o número de conexões em 6 categorias de intervalo como 0-100, 100-200, ... a 500+, número de idiomas, número de projetos e criou um diction para os 3 principais habilidades de cada um dos habilidades de cada uma das conexões.
Para o quadro de dados da educação, com base no nome do Instituto e do Graduação, classificou o campo de estudo em três categorias (por enquanto, por simplicidade): ciência, gestão e artes, descobriu o status da educação com base no intervalo do ano fornecido no perfil para um determinado nível de educação. Também descobri o nível mais alto de educação para as conexões com base nas palavras 'Bacharel', 'mestre' etc. dada no campo da educação no perfil.
Para a experiência DataFrame, dividiu a coluna de posição em 3 categorias: em tempo integral, estagiários, representantes de estudantes ou voluntários, fez 6 categorias na coluna de duração começando com <6 meses a 20 anos ou mais.
O Dash é a estrutura mais baixada e confiável para a criação de aplicativos da Web ML & Data Science. Os aplicativos de pilha completa que normalmente exigiriam uma equipe de front-end, back-end e OPS agora pode ser construída e implantada em horas por cientistas de dados com traço. Com o Dash Open Source, os aplicativos DASH são executados em seu laptop ou estação de trabalho local, mas não podem ser facilmente acessados por outras pessoas em sua organização. Para ler mais e entender Dash, visite https://plotly.com/dash/
A Pytly's Python Graphing Library fabrica gráficos interativos e com qualidade de publicação. O módulo plotly.express (geralmente importado como px) contém funções que podem criar figuras inteiras de uma só vez e é referido como plotly express ou px. O Plotly Express é uma parte interna da biblioteca da plota e é o ponto de partida recomendado para criar figuras mais comuns. Para saber mais sobre o plotly, visite https://plotly.com/python/
Como é a primeira vez que usamos o Dash, o painel parece bastante simples (consistindo em gráficos de barras interativos e gráficos de pizza com telhas e mapas de árvores), mas muito informativos. Planejamos incorporar mais mudanças com relação aos meandros no nível ou campo de estudo/trabalho posteriormente.
NOTA: É importante ter a pasta de ativos na mesma pasta em que você implementa seu aplicativo, pois é necessário para os propósitos estilosos.


