rzv_data_engineering_series_s01e01 Скачать - rzv_data_engineering_series

rzv_data_engineering_series_s01e01

Другой исходный код

1.0.0

Скачать

rzv_de_series_s01e01

Основное покрытие

Добро пожаловать на курс!

Вот открытый эпизод учебного курса RZV Data Engineering Course. Выберите, в какую серию вы включите сегодня вечером - тот, который отвлечет вас от жизни, или тот, который даст вам возможность изучать навыки и создать!

Курс идет в самостоятельном формате, инфраструктура развернута локально в контейнерах Docker. Я ожидаю, что вы будете искать материалы, чтобы ответить на свои вопросы самостоятельно и обсудить их в общем чате. Решение применяется к задаче на среднем уровне. Задачи делятся на разные уровни сложности. Начните с того, где вы чувствуете себя наиболее комфортно, и проходите свой путь. Чем выше оценка, тем абстрактно это заявление проблемы - это как в жизни.

Навыки, которые вы приобретаете во время курса, могут быть перенесены на работу практически без усилий. И, в отличие от большинства курсов, здесь вы работаете с «живыми» данными, которые генерируются в режиме реального времени (упрощенным образом). К концу первого сезона серии вы сможете испытать проблемы с разработкой данных на практике и написать решения самостоятельно.

Чем дальше по ходу, тем больше модулей будет прикреплено после «развития бизнеса»:

Сбор данных из локальной службы API
Построение данных и мониторинга BI
Миграция инструментов ETL от Pandas, чтобы зажечь
Интеграция инструментов качества данных
намного больше

PS Проверьте переведенные версии readme.md в корне основных каталогов: [RU] доступен.

? TL; DR

Разветвляется репо и клонируйте его на ПК/Mac
Установите Docker Desktop
Следуйте этапам подключения к базе данных и настройки инфраструктуры
Выберите G0_Trainee, чтобы запустить код и посмотреть, как он работает. Получите оценки от G1 до G3 до мастер -проглатывания данных с воздушным потоком

? Что сегодня по телевизору

Это первый эпизод, охватывающий функции инкрементной загрузки через воздушный поток Apache. В процессе выполнения задач на среднем и старшем уровне вы столкнетесь с множеством трудностей, которые существуют в реальной рабочей практике. В то же время, даже юношеские и стажировки познакомит вас с новыми концепциями и постепенно подготовят вас к более сложным задачам.

Я призываю вас сначала попытаться решить проблему самостоятельно, а затем посмотреть на мою версию.

Вы узнаете:

Повышенная загрузка данных с использованием воздушного потока
базовый ETL через панды
Работать с реляционными базами данных через SQL и Python
Настройка соединений с источниками в воздушном потоке и DBEAVER
Запуск приложений в контейнерах через Docker Compose

Бросать

Стек используется

Python 3.12
Postgres 15 (DWH)
Панды 2.1.4 (ETL)
Apache Airflow 2.9.2 (оркестратор)
DBEAVER (DBMS CLIENT)
Докер

??‍? ?? ?? Сценарии и оценки

Каждый уровень имеет свой собственный каталог. С каждым уровнем я уменьшаю объем готового кода и поднимаю сложность задачи. Содержание каталогов немного отличается, но инфраструктура готова к использованию повсюду. Подробные задачи описаны в README.md каждого класса. Выберите свой и не стесняйтесь снизить уровень, если это необходимо.

Стажер : Весь код уже реализован для проблемы среднего класса. Просто запустите и исследуйте это. Также вы можете найти заметки, объясняющие, почему я реализовал решение таким образом.

Стажер : расширяйте существующую конфигурацию так, чтобы письменный DAG начинает загружать данные из нового источника и новых таблиц. Напишите простой DAG для работы с файловой системой для очистки временных файлов с помощью Bashoperator.

Младший : Напишите постепенную загрузку, не учитывая историческое хранилище. Данные на источнике не обновлены.

Средняя : Напишите постепенную нагрузку в таблицы SCD2. Обратите внимание, что данные могут быть обновлены на источнике.

Старший : Назначение как для среднего + настройка записи Audit-Publish, чтобы обеспечить качество данных и провести тестирование нагрузки письменного решения.

Галерея

Историческое хранение данных с SCD2: Историческое хранилище с SCD2

Покрементная нагрузка через воздушный поток: Покрементная нагрузка с использованием воздушного потока

Генератор журналов с различными уровнями детализации: Информационные журналы Отладочные журналы

Полностью местная инфраструктура со всем необходимым:

? Выявлены, но еще не решенные проблемы

CloudBeaver теряет аутентификацию, перейдите сначала на localhost:80/#/admin , войдите, затем вернитесь на главную страницу localhost/#/

? Решенные проблемы

[1.1.1] переместили журналы из крепления привязки в объем, который должен исправить «Даги, не показаны в пользовательском интерфейсе» для некоторых пользователей. Также увеличение резервирования памяти для воздушного потока до 2..3 ГБ.
[1.1.0] Эпизод требует 5-7 ГБ оперативной памяти для одновременной работы всей инфраструктуры на Win and Mac (Docker Desktop тяжел + многие услуги запускаются). Рекомендуется увеличить виртуальную ОЗУ/Файл свопа.
[1.1.0] Каждый раз после того, как docker compose up воздушный поток, повторно инициализируется. Даги сохраняются, но Connections и Variables должны быть снова заполнены.

?? Об авторе

Aleksei Razvodov, инженер данных с более чем 5 -летним опытом работы в отрасли. Я стремлюсь передать свое понимание работы инженера -инженера и помочь тем, кто развивается на этом пути.

Если этот репозиторий помог вам, и вам понравилось, дайте ему и подпишитесь на социальные сети.