
这是RZV数据工程系列培训课程的开放剧集。选择今晚将打开的系列 - 将您分散您的生活,或者将为您提供学习技能和创造的机会!
该课程以自定格式进行,基础架构在当地部署在Docker容器中。我希望您会寻找材料来自行回答您的问题,并在一般聊天中讨论它们。将解决方案应用于中间层的任务。任务分为不同的难度级别。从您最舒适的地方开始,然后努力工作。等级越高,问题陈述就越抽象 - 就像生活中一样。
您在课程中获得的技能几乎可以毫不费力地转移到工作练习中。而且,与大多数课程不同,在这里,您可以使用实时生成的“实时”数据(以简化的方式)。到该系列的第一季结束时,您将能够在实践中遇到数据工程问题并亲自编写解决方案。
沿课程越远,“业务发展”将附加更多的模块:
PS在主目录的根目录中检查翻译的readme.md版本:[ru]可用。
这是涵盖通过Apache气流增量加载功能的第一集。在中间和高级级别执行任务的过程中,您将遇到实际工作实践中存在的许多困难。同时,即使是初级和实习生任务也会向您介绍新概念,并逐渐为您的更复杂的任务做好准备。
我鼓励您首先尝试自己解决问题,然后查看我的版本。
您将学习:

每个级别都有自己的目录。在每个级别上,我都会减少现成的代码的数量,并提高任务的复杂性。目录的内容略有不同,但是基础架构可以在任何地方使用。详细任务在每个等级的README.md中描述。选择您的,并在必要时随意降低水平。
学员:所有代码已经针对中级问题实施。只需启动并探索它。另外,您可以找到说明说明为什么我以这种方式实施解决方案。
实习生:扩展现有配置,以便书面的DAG开始从新来源和新表加载数据。编写一个简单的DAG,用于使用文件系统,以使用Bashoperator清理临时文件。
大三:写增量加载而无需考虑历史存储。源上的数据未更新。
中间:将增量负载写入SCD2表。请注意,数据可能会在源头上更新。
高级:关于中间 +设置写入审计出版模式的作业,以确保数据质量并进行书面解决方案的负载测试。
具有SCD2的历史数据存储: 
通过气流增量加载: 
具有不同级别的发电机日志: 

完全本地基础架构,您需要的一切: 
localhost:80/#/admin上登录,然后返回到主页localhost/#/ docker compose up后的每一次气流都会重新定位。将DAG保存,但是Connections和Variables需要再次填充。 拥有5年以上行业经验的数据工程师Aleksei Razvodov。我努力传达我对数据工程师工作的理解,并帮助那些沿着这条道路发展的人。
如果此存储库帮助您并且您喜欢它,请给予A并订阅社交网络。
