youtube setl скачать - загрузка исходного кода youtube setl

youtube setl

Другой исходный код

1.0.0

Скачать

YouTube setl

YouTube Setl-это проект, который направлен на предоставление отправной точки для практики Framework SETL: https://github.com/setl-developers/setl. Идея состоит в том, чтобы дать контекстный проект, включающий операции извлечения, преобразования и нагрузки. Для упражнений существует три уровня сложности: легкий режим, нормальный режим и жесткий режим.

Используемые данные от Kaggle, https://www.kaggle.com/datasnaek/youtube-new.

Установка

Я использовал Jetbrains Intellij Idea Community Edition для этого проекта, со Scala и Apache Spark.

Контекст

Данные делятся в мультипликационных регионах: Канада (CA), Германия (DE), Франция (FR), Великобритания (GB), Индия (IN), Япония (JP), Южная Корея (KR), Мексика (MX), Россия (RU) и Соединенные Штаты (США). Для каждого из этих регионов есть два файла:

Файл CSV, содержащий следующие столбцы:

Каждый день YouTube предоставляет около 200 самых популярных видео в каждой стране. YouTube измеряет, сколько видео является модным, основываясь на комбинации факторов, которые не становятся полностью публичными. Этот набор данных состоит в коллекции лучших видеороликов повседневной жизни. Как следствие, одно и то же видео появляется несколько раз, что означает, что оно является трендом в течение нескольких дней.

Файл JSON, содержащий три ключа:
1. вид: строка
2. ETAG: строка
3. Предметы: массив объектов

По сути, элементы полей элементов позволяют нам сопоставить category_id файла CSV в категорию полного имени.

Мы собираемся проанализировать этот набор данных и определить «популярные» видео. Но как мы определяем популярное видео? Мы собираемся определить популярность видео, основанного на его количестве просмотров, лайков, антипатии, количества комментариев и количества трендовых дней.

Это определение явно спорно и произвольно, и мы не стремимся выяснить лучшее определение популярности видео. Мы сосредоточимся только на цели этого проекта: практиковать с помощью платформы SETL.

Введение

Цель этого проекта - найти 100 самых «популярных» видео и самые «популярные» категории видео. Но как мы определили популярность видео? Формула будет:
number of views * views weight + number of trending days * trending days weight + normalized likes percentage * likes weight + normalized comments * comments weight .
Процент лайков - это соотношение лайков, а не антипатия. Это соотношение нормализуется по количеству видов. Та же нормализация выполняется с количеством комментариев.

Ниже приведены инструкции для каждого уровня сложности, чтобы реализовать проект. Для каждого уровня сложности вы можете клонировать репо с конкретной ветвью, чтобы иметь начальный проект.

Для этого проекта мы предполагаем, что у вас уже есть базовые знания Scala и Apache Spark.

Общие советы

Создайте входы папки в папке ресурсов и переместите данные здесь.
Глобальная структура проекта состоит из 3 основных папок: entity , которая содержит классы дела или объекты; factory , которая содержит трансформаторы; и transformer , который содержит преобразования данных.
Попробуйте сохранить все данные DataFrame/DataSet после каждого преобразования или обработки данных. Вы можете взглянуть на них, чтобы увидеть, есть ли ошибки.
Чтобы выполнить задачи, вы можете посмотреть на советы за помощь.
Если вы используете IntelliJ Idea, когда вы создаете Factory SETL или Transformer , вы можете использовать Ctrl+i для автоматического создания необходимых функций.

Жесткий режим

Инструкции

Достижение 1
- Вы сами! Делайте все, что вам нравится, чтобы выполнить задачи.

Нормальный режим

Инструкции

Достижение 1: Чтение входов
Первое, что мы собираемся сделать, это, конечно, прочитать входные данные: файлы CSV, которые я позвоню в файлы видео, а файлы JSON - файлы категорий.
1. Давайте начнем с файлов категорий. Все файлы категорий являются файлами JSON . Создайте класс случаев, который представляет категорию , а затем Factory с Transformer , который будет обрабатывать файлы категорий в класс болезни.
  Советы:
  - Используйте разъем вместо SparkRepository . Это в основном потому, что трудно создать объект, который имитирует файлы категорий, по структуре.
  - Посмотрите на файл local.conf . Объект уже был создан для чтения файлов категорий.
  - Поскольку файлы имеют одинаковую структуру, вы можете переместить их в одну и ту же папку. Установив путь к этой папке, разъем рассмотрит эти файлы как разделы одного файла.
  - Нам нужно только выбрать идентификатор и заголовок категории.
  - Попробуйте посмотреть на функцию Explode от org.apache.spark.sql.functions .
  - Не забудьте использовать coalesce при сохранении файла.
2. Теперь мы можем работать с файлами видео. Точно так же создайте класс случаев, который представляет видео для чтения входов, затем Factory с одним или несколькими Transformers , которые будут выполнять обработку. Поскольку файлы видео отделены от регионов, в наборе данных нет информации о регионе для каждой записи. Попробуйте добавить эту информацию, используя еще одну видеокаунтри , которая очень похожа на видео , и объедините все записи в одном DataFrame/DataSet.
  Советы:
  - Прочитайте файлы один за другим. Это означает создание нескольких SparkRepository для чтения.
  - Создайте единственный SparkRepository для письма.
  - Выберите видео, которые не удалены или не имеют ошибки.
  - Будут полезны два Transformers : один для добавления столбца country , а один для объединения всех видео в один набор данных.

Достижение 2: Получение последней статистики видео
Поскольку видео может быть лучшим трендом на один день и на следующий день, видео может иметь несколько строк, где у каждого есть разные цифры с точки зрения представлений, лайков, не любителей, комментариев ... Как следствие, мы должны получить новейшие статистические данные, доступные для одного видео, для каждого региона, поскольку эти статистические данные являются постепенными. В то же время мы собираемся вычислить количество дней в тренде для каждого видео.
1. Создайте видеостаты класса корпуса, которые очень похожи на предыдущие классы дела, но с информацией о днях в тренде.
2. Во -первых, вычислите количество тенденций дни каждого видео.
  Советы:
  - Посмотрите на функцию window от org.apache.spark.sql.functions .
3. Чтобы получить новейшую статистику, вы должны получить последний трендовый день каждого видео. На самом деле это последняя доступная статистика.
  Советы:
  - Вам нужно будет создать другое window . Первый был для вычисления количества дней в тренде, а второй, чтобы получить новейшую статистику.
  - Небольшой трюк заключается в том, чтобы использовать функцию rank .
4. Сортируйте результаты по региону, количество дний, просмотров, лайков, а затем комментариев. Он подготовит данные для следующего достижения.

Достижение 3: Вычисление балла популярности
Сейчас мы собираемся вычислить оценку популярности каждого видео после получения их последней статистики. Как говорилось ранее, наша формула очень проста и может не представлять реальность.
1. Давайте нормализуем количество лайков/не любит количество просмотров. Для каждой записи разделите количество лайков по количеству просмотров, а затем количество нежеланий на количество просмотров. После этого получите процент «нормализованных» лайков.
2. Давайте теперь нормализуем количество комментариев. Для каждой записи разделите количество комментариев по количеству просмотров.
3. Теперь мы можем вычислить оценку популярности. Напомните, что формула: views * viewsWeight + trendingDays * trendingDaysWeight + normalizedLikesPercentage * likesWeight + normalizedComments * commentsWeight .
  Тем не менее, есть видео, где комментарии отключены. В этом случае формула становится: views * viewsWeight + trendingDays * trendingDaysWeight + normalizedLikesPercentage * (likesWeight + commentsWeight) . Мы произвольно решили, что веса будут:
  - viewsWeight = 0.4
  - trendingDaysWeight = 0.35
  - likesWeight = 0.2
  - commentsWeight = 0.05
  Установите их как Input , чтобы их можно было легко изменить.
  Советы:
  - Проверьте, when и otherwise функционирует из org.apache.spark.sql.functions .
4. Сортировать по score в порядке убывания и возьмите 100 первых записей. Теперь у вас есть 100 самых «популярных» видео из 10 регионов.

Легкий режим

Инструкции

Достижение 1: Чтение входов
Первое, что мы собираемся сделать, это, конечно, читать входные данные: файлы CSV, которые я позвоню в файлы видео, а файлы JSON - файлы категорий.
1. Давайте начнем с файлов категорий. Все файлы категорий являются файлами JSON. Вот рабочий процесс: мы собираемся определить файл конфигурации, который будет указывать файлы категорий для чтения; создать класс случаев, который представляет категорию; Затем Factory с Transformer , который будет обрабатывать файлы категорий в класс дела. Наконец, мы собираемся добавить Stage в Pipeline , чтобы вызвать преобразования.
  1. Конфигурация
    Объект конфигурации уже был создан в resources/local.conf . Обратите внимание на варианты storage и path . Переместите файлы категорий соответственно. Если в одной папке есть несколько файлов, а папка используется в качестве пути, SETL рассматривает файлы как разделы одного файла. Далее, проверьте App.scala . Вы можете видеть, что мы использовали методы setConnector() и setSparkRepository() . Каждый раз, когда вы хотите использовать репозиторий, вам необходимо добавить конфигурацию в конфигурацию и зарегистрировать ее в объекте setl .
  2. Сущность
    Создайте Category Case Class в папке entity . Теперь изучите в файлах категорий поля, которые нам понадобятся.
    Отвечать
    Нам понадобится id и title категории. Обязательно проверьте файлы и используйте одно и то же написание, чтобы создать класс Category .
  3. Фабрика
    Скелет Factory уже был предоставлен. Убедитесь, что вы понимаете логическую структуру.
    Во -первых, Delivery в виде Connector позволяет нам извлечь входные данные. Другая Delivery будет действовать как SparkRepository , где мы напишем вывод преобразования. Проверьте id каждой Delivery и deliveryId в App.scala . Они используются, поэтому нет никакой двусмысленности, когда SETL складывает репозитории. Чтобы иметь возможность прочитать две предыдущие поставки, мы собираемся использовать две другие переменные: DataFrame для чтения Connector и Dataset для хранения выходного SparkRepository . Разница между ними состоит в том, что напечатана SparkRepository , отсюда и Dataset .
    Четыре функции необходимы для Factory SETL :
    read : Идея состоит в том, чтобы взять входы поставки Connector или SparkRepository Delivery , при необходимости предварительно обработать их и хранить в переменных для использования в следующей функции.
    process : Вот где все преобразования данных будут выполнены. Создайте экземпляр используемого вами Transformer , вызовите метод transform() , используйте transformed Getter и сохраните результат в переменной.
    write : Как следует из названия, он используется для сохранения вывода преобразований после того, как они были сделаны. Connector использует метод write() для сохранения данных DataFrame , а SparkRepository использует метод save() для сохранения Dataset .
    get : эта функция используется для передачи вывода в следующую Stage Pipeline . Просто верните Dataset .
    В функции process может быть несколько Transformer . Мы попытаемся следовать этой структуре на протяжении всей остальной части проекта.
    
    Вопросы
    Зачем использовать разъем вместо SparkRepository?
    Это в основном потому, что трудно создать объект, который имитирует файлы категорий, по структуре.
    Почему вы должны писать вывод?
    Это абсолютно не обязательно. Действительно, результат Factory будет автоматически передаваться на следующий Stage через функцию get . Тем не менее, написание вывода на каждой Factory будет проще для визуализации и отладки.
  4. Трансформатор
    Опять же, скелет Transformer уже был предоставлен. Тем не менее, вы будете тем, кто напишет преобразование данных.
    Наш Transformer берет на себя спор. Обычно это DataFrame или Dataset , который мы хотим обработать. В зависимости от вашего приложения вы можете добавить другие аргументы.
    transformedData - это переменная, которая будет хранить результат преобразования данных.
    transformed - это Getter, который будет вызван Factory для извлечения результата преобразования данных.
    transform() - это метод, который будет выполнять преобразование данных.
    Давайте теперь опишем преобразование, которое мы хотим сделать.
    Во -первых, мы собираемся выбрать поле items . Если вы посмотрите файлы категорий, информация, которая нам нужна, находится в этом поле.
    Тем не менее, поле items является массивом. Мы хотим взорвать этот массив и взять только поле id и поле title из поля snippet . Для этого используйте функцию explode от org.apache.spark.sql.functions . Затем, чтобы получить конкретные поля, используйте метод withColumn и метод getField() на id, snippet и title . Не забудьте соответственно разыграть типы на класс, который вы создали.
    Выберите id и столбцы title . Затем раздайте DataFrame в набор данных с as[T] .
    Вы закончили писать Transformer . Чтобы увидеть, что он делает, вы можете запустить файл App.scala , который уже был создан. Он просто запускает Factory , которая содержит только что написанный вами Transformer , и он выведет результат в путь файла конфигурации. Обратите внимание, что соответствующая Factory была добавлена через addStage() , что заставляет Pipeline запустить его.
Что вы должны знать сейчас
- Общая структура: конфигурация, сущность, трансформатор, фабрика и, наконец, стадируют в трубопроводе.
- Читать файлы json.
- Как прочитать входы: создание объекта конфигурации, настройка Connector , используя аннотацию @Delivery , с помощью deliveryId .
- SETL может считывать разделы, установив путь папки в объекте конфигурации.
- Где обрабатывать данные: использование Transformer в методе process Factory .
- Как написать вывод: с помощью метода write Factory .
1. Давайте теперь обработаем файлы видео. Мы хотели бы объединить все файлы в одном DataFrame / Dataset или в одном файле CSV, сохраняя при этом информацию региона для каждого видео. Все файлы видео представляют собой файлы CSV, и они имеют одинаковые столбцы, как ранее указывалось в разделе контекста . Рабочий процесс похож на последнюю: конфигурацию; Класс Кейс; Factory ; Transformer ; Добавьте Stage в Pipeline . На этот раз мы собираемся установить несколько объектов конфигурации.
  1. Конфигурация
    Мы собираемся установить несколько объектов конфигурации в resources/local.conf , один на регион. В каждом объекте конфигурации вам придется установить storage, path, inferSchema, delimiter, header, multiLine и dateFormat .
    Советы
    Для этих файлов конфигурации постарайтесь дать общее имя, например, videos<region>Repository .
    Не забудьте установить объект конфигурации для написания вывода Factory .
    Вопросы
    Почему мы должны устанавливать несколько объектов конфигурации, не использовать ни одного объекта и перемещать все файлы в одной и той же папке, аналогично файлам категорий?
    Это потому, что мы должны сохранить информацию региона. Для каждого из файлов видео региона нам придется добавить столбец, содержащий регион. Если бы мы использовали один объект и рассматривали все файлы как разделы одного файла, мы не сможем писать разные области.
  2. Сущность
    Создайте класс Case Class с именем Video в папке entity . Теперь изучите в файлах видео, поля, которые нам понадобятся. Напомните, что цель состоит в том, чтобы вычислить оценку популярности, и что формула представляет собой number of views * views weight + number of trending days * trending days weight + normalized likes percentage * likes weight + normalized comments * comments weight . Это поможет выбрать поля.
    Создайте еще один класс CASE с именем VideoCountry . Он будет иметь точно такие же поля, что и Video , но с полем страны/региона.
    Советы
    Вы можете посмотреть на аннотацию @ColumnName фонда. Постарайтесь использовать его, поскольку это может быть полезно в некоторых реальных бизнес-ситуациях.
    Используйте java.sql.Date для поля типа даты.
    Отвечать
    Мы хотели бы, чтобы videoId , title , channel_title , category_id , trending_date , views , likes , dislikes , comment_count , comments_disabled и video_error_or_removed Поля.
  3. Фабрика
    Цель этой фабрики состоит в том, чтобы объединить все файлы видео в одну, не удаляя информацию о регионе. Это означает, что мы собираемся использовать два вида Transformer .
    Прежде всего, установите все входные Delivery в форме SparkRepository[Video] . Установите последнюю Delivery в качестве SparkRepository[VideoCountry] , где мы напишем вывод преобразования. Установите Dataset[Video] , как и количество входов.
    Давайте теперь опишем четыре функции Factory :
    read : предварительно обрабатывать SparkRepository , фильтраруя видео, которые удаляются или ошибочны . Затем «бросите» их в качестве Dataset[Video] и храните их в соответствующих переменных.
    process : примените первый Transformer для каждого из входов и примените результаты ко второму Transformer .
    write : Напишите вывод SparkRepository[VideoCountry] .
    get : просто верните результат окончательного Transformer .
    
    Вопросы
    Почему мы не использовали Connector для чтения входных файлов и SparkRepository для вывода?
    Вы можете полностью это сделать! Не стесняйтесь делать это, если вы предпочитаете это. Мы использовали SparkRepository для чтения входов, чтобы предоставить структуру для входных файлов.
    Я чувствую, что есть много SparkRepository и много соответствующих переменных, и я не нахожу это красивым/последовательным. Нет другого решения?
    Вместо использования Delivery в форме SparkRepository вы можете использовать доставки в форме Dataset с опцией autoLoad = true . Итак, вместо того, чтобы иметь:
    @Delivery(id = "id") var videosRegionRepo: SparkRepository[Video] = _ var videosRegion: Dataset[Video]
    Вы можете использовать:
    @Delivery(id = "id", autoLoad = true) var videosRegion: Dataset[Video]
    Не стесняйтесь проверить Wiki Setl, в разделе аннотации.
  4. Трансформатор
    Основная цель первого Transformer - добавить информацию о регионе/стране. Создайте Transformer , который принимает два входа, Dataset[Video] и строку. Добавьте country столбца и верните Dataset[VideoCountry] . Вы также можете отфильтровать видео, которые помечены как удаленные или ошибку . Конечно, этот последний шаг может быть размещен в другом месте.
    Основная цель второго Transformer - перегруппировать все видео вместе, сохраняя при этом информацию о регионе.
    Советы
    Используйте функции reduce и union .
  Чтобы проверить результат вашей работы, перейдите на App.scala , установите SparkRepositories , добавьте сцену VideoFactory и запустите код. Он создаст выходной файл в соответствующем пути.
Что вы должны знать сейчас
- Читать файлы CSV.
- Используйте как Connector , так и SparkRepository .
- Прочитайте несколько Deliveries в Transformer или Connector .
- Используйте несколько Transformers на Factory .

Достижение 2: Получение последней статистики видео
Поскольку видео может быть главным трендом на один день и на следующий день, оно будет иметь разные цифры с точки зрения представлений, лайков, антипатий, комментариев ... Как следствие, мы должны получить новейшую статистику, доступную для одного видео, для каждого региона. В то же время мы собираемся вычислить количество дней в тренде для каждого видео.
Но как мы собираемся это сделать? Прежде всего, мы собираемся сгруппировать записи, которые соответствуют одному и тому же видео, и подсчитывать количество записей, которые в основном представляют собой количество дней в тренде. Затем мы собираемся ранжировать эти сгруппированные записи и взять последние, чтобы получить последнюю статистику.
1. Конфигурация
  Файл конфигурации для вывода VideoFactory уже установлен в предыдущем достижении, поэтому его можно сохранить. Вам нужно будет прочитать его и обработать его, чтобы получить последнюю статистику видео. Не забудьте добавить файл конфигурации для вывода этой новой Factory .
2. Сущность
  Создайте класс CASE с именем VideoStats , которые имеют аналогичные поля для VideoCountry , но вам необходимо учитывать количество дней в тренде.
3. Фабрика
  На этой фабрике все, что вам нужно сделать, это прочитать ввод, передать его Transformer , который будет выполнять обработку данных, и написать выход. Это должно быть довольно просто; Вы можете попытаться подражать другим Factories .
  Советы
  Не забудьте установить входы и Deliveries .
4. Трансформатор
  Как говорилось ранее, мы собираемся сгруппировать видео вместе. Для этого мы собираемся использовать org.apache.spark.sql.expressions.Window . Убедитесь, что вы знаете, что делает Window заранее.
  1. Создайте первое Window , которое вы разделите, чтобы подсчитать количество дней в тренде для каждого видео. Чтобы узнать, какие поля вы собираетесь разбить, посмотрите, какие поля будут такими же для одного видео.
  2. Создайте второе Window , которое будет использоваться для ранжирования видео до даты их трендов. Выбирая самую последнюю дату, мы можем получить последнюю статистику каждого видео.
  3. После создания двух Windows , теперь вы можете добавить новые столбцы trendingDays для количества дний и rank для ранжирования даты тренда путем убывающего порядка.
  4. Чтобы получить самую последнюю статистику, просто отфильтруйте видео по своим rank , взяв только записи с rank 1.
  5. Отбросьте дополнительные столбцы и отмените DataFrame на Dataset[VideoStats] .
  Советы
  Вам нужно будет использовать методы partitionBy и orderBy для Window ; и count , методы rank от org.apache.spark.sql.functions при работе с Dataset .
  Чтобы проверить результат вашей работы, перейдите на App.scala , установите SparkRepositories , добавьте сцену и запустите код. Он создаст выходной файл в соответствующем пути.
Что вы должны знать сейчас
- Как запустить Pipeline .
- Поймите, что такое Connector и SparkRepository , и как установить их Deliveries .

Достижение 3: Вычисление балла популярности
Сейчас мы собираемся вычислить оценку популярности каждого видео после получения их последней статистики. Как говорилось ранее, наша формула очень проста и может не представлять реальность. Давайте напомним, что формула - это views * viewsWeight + trendingDays * trendingDaysWeight + normalizedLikesPercentage * likesWeight + normalizedComments * commentsWeight . Используя предыдущий результат VideoStats , мы просто собираемся применить формулу и сортировать данные с самым высоким баллом до самого низкого.
1. Конфигурация
  Это последнее преобразование данных. Установите конфигурацию, чтобы вы могли сохранить этот последний Dataset[VideoStats] . Чтобы добавить константы, используемые для формулы, вам нужно будет установить Inputs в Pipeline . Перед добавлением этапов в Pipeline используйте setInput[T](<value>, <id>) , чтобы установить константы. Эти входные данные можно найти в любое время на любых Factories , которые были добавлены в Pipeline .
2. Сущность
  Здесь не понадобится. Мы просто сортируем предыдущие данные и отбросим столбцы, используемые для вычисления оценки, чтобы мы все еще могли использовать объект VideoStats .
3. Фабрика
  На этой фабрике все, что вам нужно сделать, это прочитать ввод, передать его Transformer , который будет выполнять обработку данных, и написать выход. Это должно быть довольно просто; Вы можете попытаться подражать другим Factories .
  Советы
  Не забудьте установить входы и выходы, Deliverable : Connector , SparkRepository и/или Input .
4. Трансформатор
  1. Давайте нормализуем количество лайков/не любит количество просмотров. Для каждой записи разделите количество лайков по количеству просмотров, а затем количество нежеланий на количество просмотров. После этого получите процент «нормализованных» лайков.
  2. Давайте теперь нормализуем количество комментариев. Для каждой записи разделите количество комментариев по количеству просмотров.
  3. Теперь мы можем вычислить оценку популярности. Напомните, что формула: views * viewsWeight + trendingDays * trendingDaysWeight + normalizedLikesPercentage * likesWeight + normalizedComments * commentsWeight .
    Тем не менее, есть видео, где комментарии отключены. В этом случае формула становится: views * viewsWeight + trendingDays * trendingDaysWeight + normalizedLikesPercentage * (likesWeight + commentsWeight) . Мы произвольно решили, что веса будут:
    viewsWeight = 0.4
    trendingDaysWeight = 0.35
    likesWeight = 0.2
    commentsWeight = 0.05
    Советы:
    Проверьте, when и otherwise функционирует из org.apache.spark.sql.functions .
  4. Сортировать по score в порядке убывания и возьмите 100 первых записей. Теперь у вас есть 100 самых «популярных» видео из 10 регионов.
  Чтобы проверить результат вашей работы, перейдите на App.scala , установите Inputs , если они еще не установлены, установите выходной SparkRepository , добавьте стадию и запустите код. Он создаст выходной файл в соответствующем пути.
Что вы должны знать сейчас
- Используйте три типа Deliveries : Input , Connector и SparkRepository , с deliveryId .
- Напишите Stage , включая Factory и Transformer(s) .
- Запустите основную задачу ETL.

Спасибо за чтение! ❤

Если вам понравился этот проект, пожалуйста, ознакомьтесь с Setl Framework здесь: https://github.com/setl-developers/setl, и почему бы не внести свой вклад!

Расширять

Дополнительная информация