rzv_data_engineering_series_s01e01ダウンロードrzv_data_engineering_series

rzv_data_engineering_series_s01e01

その他のソースコード

1.0.0

ダウンロード

RZV_DE_SERIES_S01E01

メインカバー

コースへようこそ！

これは、RZVデータエンジニアリングシリーズトレーニングコースのオープンエピソードです。今夜どのシリーズをオンにするかを選択してください。人生から気を散らすもの、またはスキルを学び、創造する機会を与えるものを選択してください！

コースは自己ペースの形式で行われ、インフラストラクチャはDockerコンテナにローカルに展開されます。自分で質問に答え、一般的なチャットで話し合うための資料を探すことを期待しています。ソリューションは、中間レベルのタスクに適用されます。タスクは異なる難易度に分割されます。あなたが最も快適に感じるところから始めて、あなたの道を歩んでください。グレードが高いほど、問題のステートメントが抽象的です。それは人生のようなものです。

コース中に獲得したスキルは、作業練習にほとんど楽に移動できます。そして、ほとんどのコースとは異なり、ここでは、リアルタイムで生成される（単純化された方法で）生成される「ライブ」データを使用します。シリーズの最初のシーズンの終わりまでに、実際にデータエンジニアリングの問題を経験し、自分でソリューションを書くことができます。

コースに沿って遠くなるほど、「ビジネス開発」に続いてより多くのモジュールが添付されます。

ローカルAPIサービスからのデータ収集
データマートとBIダッシュボードの構築
PandasからSparkへのETLツールの移行
データ品質ツールの統合
もっと

PSメインディレクトリのルートで翻訳されたreadme.mdバージョンを確認してください：[ru]が利用可能です。

？ tl; dr

レポをフォークし、それをPC/Macにクローンします
Dockerデスクトップをインストールします
データベース接続の手順に従ってください。
G0_Traineeを選択してコードを実行し、その仕組みを確認します。 G1からG3までのグレードを乗り越えて、気流を使用したデータの摂取をマスターします

？今日はテレビにあります

これは、Apache気流を介した増分荷重の特徴をカバーする最初のエピソードです。中期および上級レベルでタスクを実行する過程で、実際の練習に存在する多くの困難に遭遇します。同時に、ジュニアタスクとインターンタスクでさえ、新しい概念を紹介し、より複雑なタスクに徐々に準備します。

最初に自分で問題を解決してから、私のバージョンを見ることをお勧めします。

あなたは学ぶでしょう：

気流を使用した増分データの読み込み
パンダを介した基本ETL
SQLおよびPythonを介してリレーショナルデータベースを使用します
気流とdbeaverのソースへの接続を設定します
Docker Composeを介してコンテナでアプリケーションを実行します

キャスト

使用するスタック

Python 3.12
ポストグレス15（dWh）
パンダ2.1.4（ETL）
Apache Airflow 2.9.2（オーケストレーター）
dbeaver（dbms client）
Docker

??？ ?? ??シナリオと成績

各レベルには独自のディレクトリがあります。各レベルでは、すぐに実行できるコードの量を減らし、タスクの複雑さを上げます。ディレクトリの内容はわずかに異なりますが、インフラストラクチャはどこでも使用する準備ができています。詳細なタスクは、各グレードのREADME.mdで説明されています。自分のものを選択して、必要に応じてレベルを下げてください。

研修生：すべてのコードは、中級の問題のためにすでに実装されています。開始して探索してください。また、このようにソリューションを実装した理由を説明するメモを見つけることができます。

インターン：既存の構成を拡張して、書かれたDAGが新しいソースと新しいテーブルからデータの読み込みを開始するようにします。ファイルシステムを操作して、Bashoperatorを使用して一時ファイルをクリーンアップするためのシンプルなDAGを作成します。

ジュニア：履歴ストレージを考慮せずに、増分荷重を記述します。ソース上のデータは更新されません。

中央：SCD2テーブルに増分負荷を書き込みます。データはソースで更新される場合があることに注意してください。

シニア：中間 +セットアップの割り当てwrite-audit-publishパターンのように、データの品質を確保し、書かれたソリューションの負荷テストを実施します。

ギャラリー

SCD2を使用した履歴データストレージ： SCD2を使用した履歴ストレージ

気流による増分荷重：気流を使用した増分荷重

さまざまなレベルの詳細を持つジェネレーターログ：情報ログデバッグログ

必要なものすべてを備えた完全にローカルインフラストラクチャ：必要なものすべてを使用したローカルインフラストアー

？特定されたがまだ解決されていない問題

CloudBeaverは認証を失い、最初にlocalhost:80/#/adminに移動し、ログインしてから、メインページlocalhost/#/に戻ります

？解決された問題

[1.1.1]一部のユーザーに対して「DAGSがUIに表示されない」を修正するはずのバインドマウントからボリュームにログを移動しました。また、エアフローのメモリ予約を2..3 GBに増やしました。
[1.1.0]エピソードでは、WinとMacのインフラストラクチャ全体の同時操作に5〜7 GB RAMが必要です（Dockerデスクトップは重い +多くのサービスが実行されます）。仮想RAM/スワップファイルを増やすことをお勧めします。
[1.1.0] docker compose up後、気流が再現されるたびに再目的化されます。ダグは保存されますが、 ConnectionsとVariables再度入力する必要があります。