rzv_data_engineering_series_s01e01 Télécharger - rzv_data_engineering_series

rzv_data_engineering_series_s01e01

Autre code source

1.0.0

Télécharger

rzv_de_series_s01e01

Couverture principale

Bienvenue au cours!

Voici un épisode ouvert du cours de formation de la série RZV Data Engineering. Choisissez la série que vous allez activer ce soir - une série qui vous distrait de la vie, ou une série qui vous donnera l'occasion d'apprendre des compétences et de créer!

Le cours se déroule dans un format auto-rythmé, l'infrastructure est déployée localement dans des conteneurs Docker. Je m'attends à ce que vous recherchiez du matériel pour répondre par vous-même à vos questions et en discutez-en dans le chat général. Une solution est appliquée à la tâche au niveau intermédiaire. Les tâches sont divisées en différents niveaux de difficulté. Commencez par où vous vous sentez le plus à l'aise et progressez. Plus la note est élevée, plus la déclaration de problème est abstraite - c'est comme dans la vie.

Les compétences que vous acquérez pendant le cours peuvent être transférées à la pratique du travail presque sans effort. Et, contrairement à la plupart des cours, vous travaillez ici avec des données «en direct» générées en temps réel (de manière simplifiée). À la fin de la première saison de la série, vous pourrez rencontrer des problèmes d'ingénierie des données dans la pratique et écrire les solutions vous-même.

Plus le cours, plus les modules seront attachés après le «développement des affaires»:

Collecte de données à partir d'un service API local
Construire des martes de données et des tableaux de bord BI
Migration de l'outil ETL des pandas pour étinceler
Intégration des outils de qualité des données
beaucoup plus

PS Vérifiez les versions ReadMe.md traduites à la racine des répertoires principaux: [RU] est disponible.

? Tl; dr

Fourk le repo et le cloner sur le PC / Mac
Installer Docker Desktop
Suivez les étapes de la connectivité de la base de données et de la configuration de l'infrastracture
Choisissez G0_Trainee pour exécuter le code et voir comment il fonctionne. Passer à travers les notes de G1 à G3 pour maîtriser l'ingestion de données avec le flux d'air

? Qu'y a-t-il à la télévision aujourd'hui

Il s'agit du premier épisode couvrant les caractéristiques de la charge incrémentielle via le flux d'air Apache. Dans le processus d'exécution des tâches au niveau intermédiaire et senior, vous rencontrerez de nombreuses difficultés qui existent dans la pratique réelle du travail. Dans le même temps, même les tâches juniors et stagiaires vous présenteront de nouveaux concepts et vous prépareront progressivement à des tâches plus complexes.

Je vous encourage à essayer d'abord de résoudre le problème vous-même, puis à regarder ma version.

Vous apprendrez:

Chargement de données incrémentiels à l'aide du flux d'air
ETL de base via des pandas
Travaillez avec des bases de données relationnelles via SQL et Python
Configuration des connexions aux sources dans le flux d'air et DBEAVER
Exécution d'applications dans des conteneurs via Docker Compose

Casting

Pile utilisée

Python 3.12
Postgres 15 (DWH)
Pandas 2.1.4 (ETL)
Apache Airflow 2.9.2 (Orchestrator)
DBEAVER (Client DBMS)
Docker

??‍? ?? ?? Scénarios et notes

Chaque niveau a son propre répertoire. À chaque niveau, je réduit la quantité de code prêt à l'emploi et augmente la complexité de la tâche. Le contenu des répertoires est légèrement différent, mais l'infrastructure est prête à être utilisée partout. Les tâches détaillées sont décrites dans README.md de chaque grade. Choisissez le vôtre et n'hésitez pas à abaisser le niveau si nécessaire.

STADENE : Tout le code a déjà été mis en œuvre pour le problème de niveau intermédiaire. Il suffit de le lancer et d'explorer. Vous pouvez également trouver des notes expliquant pourquoi j'ai implémenté la solution de cette façon.

Stagiaire : étendez la configuration existante afin que le DAG écrit commence à charger des données à partir d'une nouvelle source et de nouvelles tables. Écrivez un DAG simple pour travailler avec le système de fichiers pour nettoyer les fichiers temporaires à l'aide de bashoperator.

Junior : Écrivez un chargement incrémentiel sans prendre en compte le stockage historique. Les données sur la source ne sont pas mises à jour.

Milieu : Écrivez une charge incrémentielle dans les tables SCD2. Veuillez noter que les données peuvent être mises à jour à la source.

Senior : Affectation comme pour le modèle Middle + Configuration de l'écriture d'écriture de l'écriture pour garantir la qualité des données et effectuer des tests de charge de la solution écrite.

Galerie

Stockage de données historique avec SCD2: Stockage historique avec SCD2

Charge incrémentielle via le flux d'air: Charge incrémentielle utilisant le flux d'air

Journaux du générateur avec différents niveaux de détail: Journaux d'informations Débogage des journaux

Infrastructure entièrement locale avec tout ce dont vous avez besoin: Infrastracture locale avec tout ce dont vous avez besoin

? Problèmes identifiés mais pas résolus

CloudBeaver perd l'authentification, allez d'abord sur localhost:80/#/admin , connectez-vous, puis revenez à la page principale localhost/#/

? Problèmes résolus

. Une réservation de mémoire augmentée pour le flux d'air à 2..3 Go.
[1.1.0] L'épisode nécessite 5-7 Go de RAM pour le fonctionnement simultané de toute l'infrastructure sur Win et Mac (Docker Desktop est lourd + de nombreux services exécutés). Il est recommandé d'augmenter le fichier RAM / Swap virtuel.
[1.1.0] Chaque fois après docker compose up du flux d'air est réinitialisée. Les Dags sont enregistrés, mais Connections et Variables doivent être remplies à nouveau.

?? À propos de l'auteur

Aleksei Razvodov, ingénieur de données avec plus de 5 ans d'expérience dans l'industrie. Je m'efforce de transmettre ma compréhension du travail d'un ingénieur de données et d'aider ceux qui se développent sur cette voie.

Si ce référentiel vous a aidé et vous l'avez aimé, donnez-le et abonnez-vous aux réseaux sociaux.