
นี่คือตอนเปิดของหลักสูตรการฝึกอบรมซีรี่ส์วิศวกรรมข้อมูล RZV เลือกซีรี่ส์ที่คุณจะเปิดในคืนนี้ - หนึ่งที่จะเบี่ยงเบนความสนใจของคุณจากชีวิตหรือหนึ่งที่จะให้โอกาสคุณในการเรียนรู้ทักษะและสร้าง!
หลักสูตรกำลังดำเนินไปในรูปแบบที่มีความเป็นตัวเองโครงสร้างพื้นฐานจะถูกนำไปใช้ในท้องถิ่นในคอนเทนเนอร์ Docker ฉันคาดหวังว่าคุณจะมองหาวัสดุเพื่อตอบคำถามของคุณด้วยตัวเองและพูดคุยในการแชททั่วไป การแก้ปัญหาจะถูกนำไปใช้กับงานในระดับกลาง งานแบ่งออกเป็นระดับความยากที่แตกต่างกัน เริ่มต้นด้วยที่ที่คุณรู้สึกสะดวกสบายที่สุดและทำงานตามทางของคุณ ยิ่งเกรดสูงเท่าไหร่ก็ยิ่งมีความเป็นนามธรรมมากขึ้นคำสั่งปัญหา - มันก็เหมือนกับในชีวิต
ทักษะที่คุณได้รับในระหว่างหลักสูตรสามารถถ่ายโอนไปยังการฝึกทำงานได้อย่างง่ายดาย และแตกต่างจากหลักสูตรส่วนใหญ่ที่นี่คุณทำงานกับข้อมูล“ สด” ที่สร้างขึ้นตามเวลาจริง (ในลักษณะที่ง่าย) ในตอนท้ายของฤดูกาลแรกของซีรีส์คุณจะสามารถประสบปัญหาด้านวิศวกรรมข้อมูลในการปฏิบัติและเขียนโซลูชั่นด้วยตัวเอง
ยิ่งมีการแนบโมดูลมากเท่าไหร่ก็จะมีการแนบโมดูลมากขึ้นหลังจาก "การพัฒนาธุรกิจ":
ps ตรวจสอบเวอร์ชัน readme.md ที่แปลในรูทของไดเรกทอรีหลัก: [ru] พร้อมใช้งาน
นี่เป็นตอนแรกที่ครอบคลุมคุณสมบัติของการโหลดที่เพิ่มขึ้นผ่าน Apache Airflow ในกระบวนการปฏิบัติงานในระดับกลางและระดับอาวุโสคุณจะพบปัญหามากมายที่มีอยู่ในการปฏิบัติงานจริง ในขณะเดียวกันงานจูเนียร์และฝึกงานก็จะแนะนำคุณให้รู้จักกับแนวคิดใหม่และค่อยๆเตรียมคุณสำหรับงานที่ซับซ้อนมากขึ้น
ฉันขอแนะนำให้คุณพยายามแก้ปัญหาด้วยตัวเองก่อนแล้วดูเวอร์ชันของฉัน
คุณจะได้เรียนรู้:

แต่ละระดับมีไดเรกทอรีของตัวเอง ในแต่ละระดับฉันลดปริมาณรหัสพร้อมวิ่งและเพิ่มความซับซ้อนของงาน เนื้อหาของไดเรกทอรีแตกต่างกันเล็กน้อย แต่โครงสร้างพื้นฐานพร้อมใช้งานทุกที่ งานโดยละเอียดมีการอธิบายไว้ใน README.md ของแต่ละเกรด เลือกของคุณและอย่าลังเลที่จะลดระดับหากจำเป็น
ผู้ฝึกงาน : รหัสทั้งหมดได้ถูกนำไปใช้สำหรับปัญหาระดับกลางแล้ว เพิ่งเปิดตัวและสำรวจมัน นอกจากนี้คุณยังสามารถค้นหาบันทึกอธิบายว่าทำไมฉันถึงใช้โซลูชันด้วยวิธีนี้
ฝึกงาน : ขยายการกำหนดค่าที่มีอยู่เพื่อให้ DAG ที่เป็นลายลักษณ์อักษรเริ่มโหลดข้อมูลจากแหล่งใหม่และตารางใหม่ เขียน DAG อย่างง่ายสำหรับการทำงานกับระบบไฟล์เพื่อทำความสะอาดไฟล์ชั่วคราวโดยใช้ bashoperator
จูเนียร์ : เขียนการโหลดที่เพิ่มขึ้นโดยไม่คำนึงถึงการจัดเก็บในอดีต ข้อมูลเกี่ยวกับแหล่งที่มาไม่ได้รับการอัปเดต
กลาง : เขียนโหลดที่เพิ่มขึ้นลงในตาราง SCD2 โปรดทราบว่าข้อมูลอาจได้รับการอัปเดตที่แหล่งที่มา
ผู้อาวุโส : การมอบหมายสำหรับรูปแบบการเขียนการเขียน-เผยแพร่กลาง + การตั้งค่าเพื่อให้แน่ใจว่าคุณภาพข้อมูลและดำเนินการทดสอบโหลดของโซลูชันที่เป็นลายลักษณ์อักษร
การจัดเก็บข้อมูลในอดีตด้วย SCD2: 
การโหลดที่เพิ่มขึ้นผ่านการไหลของอากาศ: 
เครื่องกำเนิดไฟฟ้าบันทึกด้วยระดับรายละเอียดที่แตกต่างกัน: 

โครงสร้างพื้นฐานในท้องถิ่นอย่างสมบูรณ์พร้อมทุกสิ่งที่คุณต้องการ: 
localhost:80/#/admin , เข้าสู่ระบบจากนั้นกลับไปที่หน้าหลัก localhost/#/ docker compose up การไหลเวียนของอากาศจะถูกเริ่มต้นใหม่ DAG จะถูกบันทึกไว้ แต่ Connections และ Variables จะต้องเต็มอีกครั้ง Aleksei Razvodov วิศวกรข้อมูลที่มีประสบการณ์ 5 ปีขึ้นไปในอุตสาหกรรม ฉันมุ่งมั่นที่จะถ่ายทอดความเข้าใจในการทำงานของวิศวกรข้อมูลและช่วยเหลือผู้ที่กำลังพัฒนาไปตามเส้นทางนี้
หากพื้นที่เก็บข้อมูลนี้ช่วยคุณและคุณชอบให้ให้และสมัครสมาชิกเครือข่ายสังคมออนไลน์
