
這是RZV數據工程系列培訓課程的開放劇集。選擇今晚將打開的系列 - 將您分散您的生活,或者將為您提供學習技能和創造的機會!
該課程以自定格式進行,基礎架構在當地部署在Docker容器中。我希望您會尋找材料來自行回答您的問題,並在一般聊天中討論它們。將解決方案應用於中間層的任務。任務分為不同的難度級別。從您最舒適的地方開始,然後努力工作。等級越高,問題陳述就越抽象 - 就像生活中一樣。
您在課程中獲得的技能幾乎可以毫不費力地轉移到工作練習中。而且,與大多數課程不同,在這裡,您可以使用實時生成的“實時”數據(以簡化的方式)。到該系列的第一季結束時,您將能夠在實踐中遇到數據工程問題並親自編寫解決方案。
沿課程越遠,“業務發展”將附加更多的模塊:
PS在主目錄的根目錄中檢查翻譯的readme.md版本:[ru]可用。
這是涵蓋通過Apache氣流增量加載功能的第一集。在中間和高級級別執行任務的過程中,您將遇到實際工作實踐中存在的許多困難。同時,即使是初級和實習生任務也會向您介紹新概念,並逐漸為您的更複雜的任務做好準備。
我鼓勵您首先嘗試自己解決問題,然後查看我的版本。
您將學習:

每個級別都有自己的目錄。在每個級別上,我都會減少現成的代碼的數量,並提高任務的複雜性。目錄的內容略有不同,但是基礎架構可以在任何地方使用。詳細任務在每個等級的README.md中描述。選擇您的,並在必要時隨意降低水平。
學員:所有代碼已經針對中級問題實施。只需啟動並探索它。另外,您可以找到說明說明為什麼我以這種方式實施解決方案。
實習生:擴展現有配置,以便書面的DAG開始從新來源和新表加載數據。編寫一個簡單的DAG,用於使用文件系統,以使用Bashoperator清理臨時文件。
大三:寫增量加載而無需考慮歷史存儲。源上的數據未更新。
中間:將增量負載寫入SCD2表。請注意,數據可能會在源頭上更新。
高級:關於中間 +設置寫入審計出版模式的作業,以確保數據質量並進行書面解決方案的負載測試。
具有SCD2的歷史數據存儲: 
通過氣流增量加載: 
具有不同級別的發電機日誌: 

完全本地基礎架構,您需要的一切: 
localhost:80/#/admin上登錄,然後返回到主頁localhost/#/ docker compose up後的每一次氣流都會重新定位。將DAG保存,但是Connections和Variables需要再次填充。 擁有5年以上行業經驗的數據工程師Aleksei Razvodov。我努力傳達我對數據工程師工作的理解,並幫助那些沿著這條道路發展的人。
如果此存儲庫幫助您並且您喜歡它,請給予A並訂閱社交網絡。
