
فيما يلي حلقة مفتوحة من دورة تدريب سلسلة هندسة البيانات RZV. اختر السلسلة التي ستقوم بتشغيلها الليلة - واحدة من شأنها أن تصرف انتباهك عن الحياة ، أو تلك التي ستمنحك الفرصة لتعلم المهارات والخلق!
تسير الدورة بتنسيق ذاتي ، يتم نشر البنية التحتية محليًا في حاويات Docker. أتوقع أن تبحث عن مواد للإجابة على أسئلتك بنفسك ومناقشتها في الدردشة العامة. يتم تطبيق حل على المهمة في المستوى المتوسط. تنقسم المهام إلى مستويات صعوبة مختلفة. ابدأ بالمكان الذي تشعر فيه بالراحة وتعمل في طريقك. كلما ارتفعت الدرجة ، كلما زاد بيان المشكلة - يبدو الأمر كما هو الحال في الحياة.
يمكن نقل المهارات التي تحصل عليها خلال الدورة التدريبية إلى ممارسة العمل دون عناء تقريبًا. وعلى عكس معظم الدورات التدريبية ، فأنت تعمل هنا مع بيانات "Live" التي يتم إنشاؤها في الوقت الفعلي (بطريقة مبسطة). بحلول نهاية الموسم الأول من السلسلة ، ستتمكن من تجربة مشاكل هندسة البيانات في الممارسة العملية وكتابة الحلول بنفسك.
كلما زادت على طول الدورة ، سيتم إرفاق المزيد من الوحدات بعد "تطوير الأعمال":
PS تحقق من إصدارات README.MD المترجمة في جذر الدلائل الرئيسية: [RU] متوفرة.
هذه هي الحلقة الأولى التي تغطي ميزات التحميل الإضافي عبر تدفق الهواء Apache. في عملية أداء المهام على المستوى المتوسط والكبير ، ستواجه العديد من الصعوبات الموجودة في ممارسة العمل الحقيقية. في الوقت نفسه ، ستقدمك حتى المهام المبتدئين والمتدربين إلى مفاهيم جديدة وإعدادك تدريجياً لمهام أكثر تعقيدًا.
أشجعك أولاً على محاولة حل المشكلة بنفسك ، ثم انظر إلى روايتي.
سوف تتعلم:

كل مستوى له دليل خاص به. مع كل مستوى أقوم بتقليل مقدار الرمز الجاهز للتشغيل ورفع تعقيد المهمة. تختلف محتويات الدلائل قليلاً ، لكن البنية التحتية جاهزة للاستخدام في كل مكان. يتم وصف المهام التفصيلية في README.md من كل درجة. اختر لك ولا تتردد في خفض المستوى إذا لزم الأمر.
المتدرب : تم بالفعل تنفيذ جميع الكود لمشكلة الصف الأوسط. مجرد إطلاق واستكشاف ذلك. كما يمكنك العثور على ملاحظات تشرح سبب تطبيق الحل بهذه الطريقة.
المتدرب : قم بتوسيع التكوين الحالي بحيث يبدأ DAG المكتوب في تحميل البيانات من مصدر جديد وجداول جديدة. اكتب DAG بسيط للعمل مع نظام الملفات لتنظيف الملفات المؤقتة باستخدام BashOperator.
جونيور : اكتب التحميل الإضافي دون مراعاة التخزين التاريخي. لم يتم تحديث البيانات الموجودة على المصدر.
الأوسط : اكتب حمولة تدريجية في جداول SCD2. يرجى ملاحظة أنه قد يتم تحديث البيانات في المصدر.
كبار : تعيين نمط النشر الأوسط + الإعداد لضمان جودة البيانات وإجراء اختبار التحميل للحل المكتوب.
تخزين البيانات التاريخي مع SCD2: 
التحميل الإضافي عبر تدفق الهواء: 
سجلات المولدات بمستويات متفاوتة من التفاصيل: 

بنية تحتية محلية تمامًا مع كل ما تحتاجه: 
localhost:80/#/admin ، قم بتسجيل الدخول ، ثم العودة إلى الصفحة الرئيسية localhost/#/ docker compose up . يتم حفظ DAGs ، ولكن هناك حاجة إلى ملء Connections Variables مرة أخرى. Aleksei Razvodov ، مهندس بيانات يتمتع بخبرة 5 سنوات في هذه الصناعة. أسعى إلى نقل فهمي لعمل مهندس البيانات ومساعدة أولئك الذين يتطورون على طول هذا المسار.
إذا ساعدك هذا المستودع وأعجبك ، فامنحه واشتراك في الشبكات الاجتماعية.
