rzv_data_engineering_series_s01e01 Download - rzv_data_engineering_series

rzv_data_engineering_series_s01e01

Outro código-fonte

1.0.0

Baixar

rzv_de_series_s01e01

Capa principal

Bem -vindo ao curso!

Aqui está um episódio aberto do curso de treinamento da série de engenharia de dados da RZV. Escolha qual série você ligará hoje à noite - que o distrairá da vida ou que lhe dará a oportunidade de aprender habilidades e criar!

O curso está em um formato de ritmo próprio, a infraestrutura é implantada localmente em contêineres do Docker. Espero que você procure materiais para responder suas perguntas por conta própria e discuti -las no bate -papo geral. Uma solução é aplicada à tarefa no nível médio. As tarefas são divididas em diferentes níveis de dificuldade. Comece com onde você se sente mais confortável e trabalhe. Quanto maior a nota, mais abstrata a afirmação do problema - é exatamente como na vida.

As habilidades que você adquire durante o curso podem ser transferidas para a prática de trabalho quase sem esforço. E, diferentemente da maioria dos cursos, aqui você trabalha com dados "ao vivo" que são gerados em tempo real (de maneira simplificada). No final da primeira temporada da série, você poderá enfrentar problemas de engenharia de dados na prática e escrever as soluções.

Quanto mais adiante, mais módulos serão anexados após o "desenvolvimento de negócios":

Coleta de dados de um serviço de API local
Construindo dados de dados e painéis de BI
Migração da ferramenta ETL de pandas para faísca
Integração de ferramentas de qualidade de dados
muito mais

PS Verifique as versões readme.md traduzidas na raiz dos diretórios principais: [RU] está disponível.

? Tl; dr

Bifurcar o repositório e cloná -lo para o PC/Mac
Instale o Docker Desktop
Siga as etapas na conectividade do banco de dados e na configuração de infra -tração
Escolha G0_Trainee para executar o código e veja como ele funciona. Passe as notas de G1 para G3 para dominar a ingestão de dados com o fluxo de ar

? O que está na TV hoje

Este é o primeiro episódio que abrange os recursos da carga incremental através do fluxo de ar Apache. No processo de executar tarefas no nível médio e sênior, você encontrará muitas dificuldades que existem na prática real de trabalho. Ao mesmo tempo, mesmo as tarefas juniores e estagiárias apresentarão novos conceitos e gradualmente o prepararão para tarefas mais complexas.

Encorajo você a primeiro tentar resolver o problema e depois olhar para minha versão.

Você vai aprender:

Carregamento de dados incrementais usando fluxo de ar
ETL básico via pandas
Trabalhe com bancos de dados relacionais via SQL e Python
Configuração de conexões para fontes no fluxo de ar e dBeaver
Executando aplicativos em contêineres via Docker Compose

Elenco

Pilha usada

Python 3.12
Postgres 15 (DWH)
PANDAS 2.1.4 (ETL)
Apache Airflow 2.9.2 (orquestrador)
DBeaver (cliente DBMS)
Docker

??‍? ? ? Cenários e notas

Cada nível tem seu próprio diretório. Com cada nível, reduzi a quantidade de código pronto para executar e aumentar a complexidade da tarefa. O conteúdo dos diretórios é um pouco diferente, mas a infraestrutura está pronta para uso em todos os lugares. Tarefas detalhadas são descritas no README.md de cada série. Escolha o seu e sinta -se à vontade para diminuir o nível, se necessário.

Treinee : Todo o código já foi implementado para o problema de nível médio. Basta lançá -lo e explorar. Além disso, você pode encontrar notas explicando por que implementei a solução dessa maneira.

Estagiário : estenda a configuração existente para que o DAG escrito comece a carregar dados de uma nova fonte e novas tabelas. Escreva um DAG simples para trabalhar com o sistema de arquivos para limpar arquivos temporários usando o Bashoperator.

Junior : Escreva o carregamento incremental sem levar em consideração o armazenamento histórico. Os dados da fonte não são atualizados.

Médio : Escreva uma carga incremental nas tabelas SCD2. Observe que os dados podem ser atualizados na fonte.

Senior : Tarefa como para o Middle + Setup Write-Audit-Publish Pattern para garantir a qualidade dos dados e conduzir testes de carga da solução escrita.

Galeria

Armazenamento de dados históricos com SCD2: Armazenamento histórico com SCD2

Carga incremental via fluxo de ar: Carga incremental usando fluxo de ar

Toras geradoras com níveis variados de detalhes: Logs de informações Logs de depuração

Infraestrutura completamente local com tudo o que você precisa: Infra -tração local com tudo o que você precisa

? Identificado, mas ainda não resolvido problemas

CloudBeaver perde a autenticação, vá primeiro no localhost:80/#/admin , faça login e depois volte para a página principal localhost/#/

? Problemas resolvidos

[1.1.1] moveram os logs da montagem de ligação para o volume, que devem corrigir "DAGs não são mostrados na interface do usuário" para alguns usuários. Também aumentou a reserva de memória para o fluxo de ar para 2..3 GB.
[1.1.0] O episódio requer 5-7 GB de RAM para operação simultânea de toda a infraestrutura em Win e Mac (o Docker Desktop é pesado + muitos serviços são executados). Recomenda -se aumentar o arquivo virtual de RAM/SWAP.
[1.1.0] Cada vez que docker compose up o fluxo de ar é reinicializado. Os DAGs são salvos, mas Connections e Variables precisam ser preenchidas novamente.

? Sobre o autor

Aleksei Razvodov, engenheiro de dados com mais de 5 anos de experiência no setor. Eu me esforço para transmitir minha compreensão do trabalho de um engenheiro de dados e ajudar aqueles que estão se desenvolvendo nesse caminho.

Se esse repositório ajudou você e você gostou, dê um e assine as redes sociais.