youtube setl Unduh - youtube setl Sumber Code Unduh

youtube setl

Kode sumber lainnya

1.0.0

Unduh

YouTube Setl

YouTube Setl adalah proyek yang bertujuan memberikan titik awal untuk mempraktikkan kerangka setl: https://github.com/setl-developers/setl. Idenya adalah untuk memberikan proyek konteks yang melibatkan ekstrak, transformasi, dan memuat operasi. Ada tiga tingkat kesulitan untuk latihan: mode mudah, mode normal dan mode keras.

Data yang digunakan adalah dari Kaggle, https://www.kaggle.com/datasnaek/youtube-new.

Instalasi

Saya menggunakan JetBrains Intellij Idea Community Edition untuk proyek ini, dengan Scala dan Apache Spark.

Konteks

Data ini dibagi di daerah berlipat ganda: Kanada (CA), Jerman (DE), Prancis (FR), Inggris Raya (GB), India (IN), Jepang (JP), Korea Selatan (KR), Meksiko (MX), Rusia (RU) dan Amerika Serikat (AS). Untuk masing -masing wilayah ini, ada dua file:

File CSV, yang berisi kolom berikut:

Setiap hari, YouTube menyediakan sekitar 200 video yang paling tren di setiap negara. YouTube mengukur seberapa besar video yang trendi berdasarkan kombinasi faktor yang tidak sepenuhnya dipublikasikan. Dataset ini terdiri dari kumpulan video tren terbaik sehari -hari. Sebagai akibatnya, adalah mungkin bagi video yang sama muncul beberapa kali, yang berarti tren selama beberapa hari.

File JSON, berisi tiga tombol:
1. Jenis: String
2. Etag: String
3. Item: Array objek

Pada dasarnya, elemen -elemen bidang item memungkinkan kita untuk memetakan file category_id dari file CSV ke kategori nama lengkap.

Kami akan menganalisis dataset ini dan menentukan video "populer". Tapi, bagaimana kita mendefinisikan video populer? Kami akan mendefinisikan popularitas video berdasarkan jumlah pandangan, suka, tidak suka, jumlah komentar, dan jumlah hari yang sedang tren.

Definisi ini jelas diperdebatkan dan sewenang -wenang, dan kami tidak ingin mengetahui definisi terbaik untuk popularitas video. Kami hanya akan fokus pada tujuan proyek ini: berlatih dengan kerangka setl.

Perkenalan

Tujuan dari proyek ini adalah untuk menemukan 100 video paling "populer", dan kategori video "populer" yang paling populer. Tapi bagaimana kita mendefinisikan popularitas video? Formulanya akan menjadi:
number of views * views weight + number of trending days * trending days weight + normalized likes percentage * likes weight + normalized comments * comments weight .
Persentase suka adalah rasio suka karena tidak suka. Rasio ini dinormalisasi dalam jumlah tampilan. Normalisasi yang sama dilakukan dengan jumlah komentar.

Di bawah ini adalah instruksi untuk setiap tingkat kesulitan untuk mewujudkan proyek. Untuk setiap tingkat kesulitan, Anda dapat mengkloning repo dengan cabang spesifik untuk memiliki proyek awal.

Untuk proyek ini, kami berasumsi bahwa Anda sudah memiliki pengetahuan dasar tentang Scala dan Apache Spark.

Kiat Umum

Buat input folder di folder sumber daya dan pindahkan data di sini.
Struktur global proyek terdiri dari 3 folder utama: entity yang berisi kelas case atau objek; factory yang berisi transformator; dan transformer yang berisi transformasi data.
Cobalah untuk menyimpan semua DataFrame/Dataset setelah setiap transformasi, atau pemrosesan data. Anda dapat melihat mereka untuk melihat apakah ada kesalahan.
Untuk menyelesaikan tugas, Anda dapat melihat tips untuk bantuan.
Jika Anda menggunakan ide IntelliJ, saat Anda membuat Factory setl atau Transformer , Anda dapat menggunakan Ctrl+i untuk secara otomatis membuat fungsi yang diperlukan.

Mode keras

Instruksi

Prestasi 1
- Anda sendirian! Lakukan apa pun yang Anda sukai untuk mencapai tugas.

Mode normal

Instruksi

Prestasi 1: Bacaan masukan
Hal pertama yang akan kami lakukan adalah, tentu saja, membaca input: file CSV, yang akan saya sebut file video, dan file JSON, file kategori.
1. Mari kita mulai dengan file kategori. Semua file kategori adalah file JSON . Buat kelas case yang mewakili kategori , kemudian Factory dengan Transformer yang akan memproses file kategori ke dalam kelas case.
  Tips:
  - Gunakan konektor alih -alih sparkRepository . Ini sebagian besar karena sulit untuk membuat objek yang akan meniru file kategori, berdasarkan struktur.
  - Lihatlah file local.conf . Suatu objek telah dibuat untuk membaca file kategori.
  - Karena file memiliki struktur yang sama, Anda dapat memindahkan semuanya di folder yang sama. Mengatur jalur ke folder ini, konektor akan menganggap file -file ini sebagai partisi dari satu file.
  - Kita hanya perlu memilih ID dan judul kategori.
  - Cobalah untuk melihat fungsi meledak dari org.apache.spark.sql.functions .
  - Jangan lupa menggunakan coalesce saat menyimpan file.
2. Kami sekarang dapat bekerja dengan file video. Demikian pula, buat kelas case yang mewakili video untuk membaca input, kemudian Factory dengan satu atau beberapa Transformers yang akan melakukan pemrosesan. Karena file video dipisahkan dari daerah, tidak ada informasi wilayah untuk setiap catatan dalam dataset. Cobalah untuk menambahkan informasi ini dengan menggunakan Videocountry kelas kasus lain yang sangat mirip dengan video , dan gabungkan semua catatan dalam satu data dan dataset.
  Tips:
  - Baca file satu per satu. Ini berarti membuat beberapa sparkrepositori untuk membaca.
  - Buat sparkRepository tunggal untuk menulis.
  - Pilih video yang tidak dihapus atau mengalami kesalahan.
  - Dua Transformers akan berguna: satu untuk menambahkan kolom country , dan satu untuk menggabungkan semua video menjadi satu dataset.

Prestasi 2: Mendapatkan Statistik Video Terbaru
Karena video dapat menjadi tren teratas untuk hari dan hari berikutnya, dimungkinkan untuk video memiliki beberapa baris, di mana masing -masing memiliki angka yang berbeda dalam hal pandangan, suka, tidak suka, komentar ... sebagai akibatnya, kita harus mengambil statistik terbaru yang tersedia untuk satu video, untuk setiap wilayah, karena statistik ini tidak dapat diselesaikan. Pada saat yang sama, kami akan menghitung jumlah hari tren untuk setiap video.
1. Buat case class videostats , yang sangat mirip dengan kelas kasus sebelumnya, tetapi dengan informasi hari yang sedang tren.
2. Pertama, hitung jumlah hari tren dari setiap video.
  Tips:
  - Lihatlah fungsi window dari org.apache.spark.sql.functions .
3. Untuk mengambil statistik terbaru, Anda harus mengambil hari tren terbaru dari setiap video. Ini sebenarnya statistik terbaru yang tersedia.
  Tips:
  - Anda perlu membuat window lain. Yang pertama adalah untuk menghitung jumlah hari tren, dan yang kedua untuk mengambil statistik terbaru.
  - Trik kecil adalah menggunakan fungsi rank .
4. Urutkan hasil berdasarkan wilayah, jumlah hari tren, tampilan, suka dan kemudian komentar. Ini akan menyiapkan data untuk pencapaian berikutnya.

Prestasi 3: Menghitung skor popularitas
Kami sekarang akan menghitung skor popularitas setiap video, setelah mendapatkan statistik terbaru mereka. Seperti yang dikatakan sebelumnya, formula kami sangat sederhana dan mungkin tidak mewakili kenyataan.
1. Mari kita normalkan jumlah suka/tidak suka atas jumlah tampilan. Untuk setiap catatan, bagi jumlah suka dengan jumlah tampilan, dan kemudian jumlah ketidaksukaan dengan jumlah tampilan. Setelah itu, dapatkan persentase suka "dinormalisasi".
2. Sekarang mari kita normalisasi jumlah komentar. Untuk setiap catatan, bagi jumlah komentar dengan jumlah tampilan.
3. Kami sekarang dapat menghitung skor popularitas. Ingatkan bahwa rumusnya adalah: views * viewsWeight + trendingDays * trendingDaysWeight + normalizedLikesPercentage * likesWeight + normalizedComments * commentsWeight .
  Namun, ada video di mana komentar dinonaktifkan. Dalam hal ini, formula menjadi: views * viewsWeight + trendingDays * trendingDaysWeight + normalizedLikesPercentage * (likesWeight + commentsWeight) . Kami secara sewenang -wenang memutuskan bobotnya:
  - viewsWeight = 0.4
  - trendingDaysWeight = 0.35
  - likesWeight = 0.2
  - commentsWeight = 0.05
  Aturnya sebagai Input sehingga dapat dengan mudah dimodifikasi.
  Tips:
  - Lihatlah when dan otherwise berfungsi dari org.apache.spark.sql.functions .
4. Urutkan berdasarkan score dalam urutan menurun, dan ambil 100 catatan pertama. Anda sekarang memiliki 100 video paling "populer" dari 10 wilayah.

Mode mudah

Instruksi

Prestasi 1: Bacaan masukan
Hal pertama yang akan kami lakukan adalah, tentu saja, membaca input: file CSV, yang akan saya sebut file video, dan file JSON, file kategori.
1. Mari kita mulai dengan file kategori. Semua file kategori adalah file JSON. Berikut adalah alur kerja: Kami akan menentukan file konfigurasi yang akan menunjukkan file kategori untuk dibaca; Buat kelas case yang mewakili kategori; Kemudian Factory dengan Transformer yang akan memproses file kategori ke dalam kelas case. Akhirnya, kita akan menambahkan Stage ke dalam Pipeline untuk memicu transformasi.
  1. Konfigurasi
    Objek konfigurasi telah dibuat di resources/local.conf . Perhatikan opsi storage dan path . Pindahkan file kategori sesuai. Jika beberapa file berada di folder yang sama dan folder digunakan sebagai jalur, Setl akan menganggap file sebagai partisi dari satu file. Selanjutnya, lihat App.scala . Anda dapat melihat bahwa kami menggunakan metode setConnector() dan setSparkRepository() . Setiap kali Anda ingin menggunakan repositori, Anda harus menambahkan konfigurasi dalam konfigurasi dan mendaftarkannya di objek setl .
  2. Kesatuan
    Buat kelas case bernama Category di folder entity . Sekarang periksa, dalam file kategori, bidang yang akan kita butuhkan.
    Menjawab
    Kami akan membutuhkan id dan title kategori. Pastikan untuk memeriksa file dan menggunakan ejaan yang sama untuk membuat kelas kasus Category .
  3. Pabrik
    Kerangka Factory telah disediakan. Pastikan Anda memahami struktur logis.
    Pertama, Delivery dalam bentuk Connector memungkinkan kita untuk mengambil input. Delivery lain akan bertindak sebagai SparkRepository , di mana kita akan menulis output dari transformasi. Lihatlah id dari setiap Delivery dan deliveryId di App.scala . Mereka digunakan sehingga tidak ada ambiguitas saat setl mengambil repositori. Untuk dapat membaca dua pengiriman sebelumnya, kami akan menggunakan dua variabel lain: DataFrame untuk membaca Connector , dan Dataset untuk menyimpan output SparkRepository . Perbedaan di antara mereka adalah bahwa SparkRepository diketik, oleh karena itu Dataset .
    Empat fungsi diperlukan untuk Factory setl :
    read : Idenya adalah untuk mengambil input pengiriman Connector atau SparkRepository Delivery , preprocess jika diperlukan, dan menyimpannya ke dalam variabel untuk menggunakannya di fungsi berikutnya.
    process : Di sinilah semua transformasi data akan dilakukan. Buat instance dari Transformer yang Anda gunakan, panggil metode transform() , gunakan pengambil transformed dan simpan hasilnya menjadi variabel.
    write : Seperti namanya, ini digunakan untuk menyimpan output transformasi setelah selesai. Connector menggunakan metode write() untuk menyimpan DataFrame , dan SparkRepository menggunakan metode save() untuk menyimpan Dataset .
    get : Fungsi ini digunakan untuk meneruskan output ke Stage Pipeline berikutnya. Kembalikan saja Dataset .
    Dalam fungsi process , mungkin ada beberapa Transformer . Kami akan mencoba mengikuti struktur ini di seluruh proyek lainnya.
    
    Pertanyaan
    Mengapa menggunakan konektor alih -alih sparkRepository?
    Ini sebagian besar karena sulit untuk membuat objek yang akan meniru file kategori, berdasarkan struktur.
    Mengapa Anda harus menulis output?
    Itu sama sekali tidak perlu. Memang, hasil Factory akan secara otomatis ditransfer ke Stage berikutnya melalui fungsi get . Namun, menulis output dari setiap Factory akan lebih mudah untuk visualisasi dan debugging.
  4. Transformator
    Sekali lagi, kerangka Transformer telah disediakan. Namun, Anda akan menjadi orang yang akan menulis transformasi data.
    Transformer kami bertengkar. Biasanya, itu adalah DataFrame atau Dataset yang ingin kami proses. Bergantung pada aplikasi Anda, Anda dapat menambahkan argumen lain.
    transformedData adalah variabel yang akan menyimpan hasil transformasi data.
    transformed adalah pengambil yang akan dipanggil oleh Factory untuk mengambil hasil transformasi data.
    transform() adalah metode yang akan melakukan transformasi data.
    Sekarang mari kita jelaskan transformasi yang ingin kita lakukan.
    Pertama, kita akan memilih bidang items . Jika Anda memeriksa file kategori, informasi yang kami butuhkan ada di bidang ini.
    Namun, bidang items adalah array. Kami ingin meledak array ini dan hanya mengambil bidang id dan bidang title dari bidang snippet . Untuk melakukan itu, gunakan fungsi explode dari org.apache.spark.sql.functions . Kemudian, untuk mendapatkan bidang tertentu, gunakan metode withColumn dan metode getField() pada id, snippet dan title . Jangan lupa untuk melemparkan tipe yang sesuai dengan kelas kasing yang Anda buat.
    Pilih id dan kolom title . Kemudian, masukkan DataFrame ke dalam dataset dengan as[T] .
    Anda telah selesai menulis Transformer . Untuk melihat apa fungsinya, Anda dapat menjalankan file App.scala yang telah dibuat. Ini hanya menjalankan Factory yang berisi Transformer yang baru saja Anda tulis, dan itu akan menghasilkan hasilnya ke jalur file konfigurasi. Perhatikan bahwa Factory yang sesuai telah ditambahkan melalui addStage() yang membuat Pipeline menjalankannya.
Apa yang harus Anda ketahui sekarang
- Struktur Umum: Konfigurasi, Entitas, Transformator, Pabrik, dan Akhirnya Tahap di Pipa.
- Baca file JSON.
- Cara Membaca Input: Membuat Objek Konfigurasi, Menyiapkan Connector , Menggunakan Anotasi @Delivery , dengan deliveryId .
- Setl dapat membaca partisi dengan mengatur jalur folder di objek konfigurasi.
- Tempat memproses data: Menggunakan Transformer dalam metode process sebuah Factory .
- Cara Menulis Output: Dengan metode write sebuah Factory .
1. Sekarang mari kita proses file video. Kami ingin menggabungkan semua file dalam satu DataFrame / Dataset atau dalam file CSV yang sama, sambil menyimpan informasi wilayah tersebut untuk setiap video. Semua file video adalah file CSV dan mereka memiliki kolom yang sama, seperti yang dinyatakan sebelumnya di bagian konteks . Alur kerja mirip dengan yang terakhir: konfigurasi; kelas kasus; Factory ; Transformer ; Tambahkan Stage ke dalam Pipeline . Kali ini, kami akan mengatur beberapa objek konfigurasi.
  1. Konfigurasi
    Kami akan mengatur beberapa objek konfigurasi di resources/local.conf , satu per wilayah. Di setiap objek konfigurasi, Anda harus mengatur storage, path, inferSchema, delimiter, header, multiLine dan dateFormat .
    Tips
    Untuk file konfigurasi ini, cobalah untuk memberikan nama generik, seperti videos<region>Repository .
    Jangan lupa untuk mengatur objek konfigurasi untuk menulis output Factory .
    Pertanyaan
    Mengapa kita harus mengatur beberapa objek konfigurasi, dan tidak menggunakan satu objek dan memindahkan semua file dalam folder yang sama, mirip dengan file kategori?
    Ini karena kita perlu menjaga informasi wilayah. Untuk masing -masing file video wilayah, kami harus menambahkan kolom yang berisi wilayah tersebut. Jika kami menggunakan satu objek dan memperlakukan semua file sebagai partisi dari satu file, kami tidak akan dapat menulis daerah yang berbeda.
  2. Kesatuan
    Buat kelas case bernama Video di folder entity . Sekarang periksa, di file video, bidang yang kita perlukan. Ingatkan bahwa tujuannya adalah untuk menghitung skor popularitas, dan bahwa formulanya adalah number of views * views weight + number of trending days * trending days weight + normalized likes percentage * likes weight + normalized comments * comments weight . Ini akan membantu memilih bidang.
    Buat kelas kasus lain bernama VideoCountry . Ini akan memiliki bidang yang persis sama dengan Video , tetapi dengan bidang negara/wilayah sebagai tambahan.
    Tips
    Anda dapat melihat anotasi kerangka kerja @ColumnName . Cobalah untuk menggunakannya karena dapat berguna dalam beberapa situasi bisnis kehidupan nyata.
    Gunakan java.sql.Date untuk bidang jenis tanggal.
    Menjawab
    Kami ingin memiliki videoId , title , channel_title , category_id , trending_date , views , likes , dislikes , comment_count , comments_disabled dan bidang video_error_or_removed .
  3. Pabrik
    Tujuan dari pabrik ini adalah untuk menggabungkan semua file video menjadi satu, tanpa menghapus informasi wilayah. Itu berarti bahwa kita akan menggunakan dua jenis Transformer .
    Pertama -tama, atur semua Delivery input dalam bentuk SparkRepository[Video] . Tetapkan Delivery terakhir sebagai SparkRepository[VideoCountry] , di mana kami akan menulis output dari transformasi. Tetapkan sebanyak mungkin variabel Dataset[Video] sebagai jumlah input.
    Sekarang mari kita jelaskan empat fungsi Factory :
    read : Preprocess SparkRepository dengan memfilter video yang dihapus atau kesalahan . Kemudian, "cast" mereka sebagai Dataset[Video] dan menyimpannya ke variabel yang sesuai.
    process : Terapkan Transformer pertama untuk masing -masing input, dan terapkan hasilnya ke Transformer kedua.
    write : Tulis output SparkRepository[VideoCountry] .
    get : Kembalikan cukup hasil Transformer akhir.
    
    Pertanyaan
    Mengapa kami tidak menggunakan Connector untuk membaca file input dan SparkRepository untuk output?
    Anda benar -benar bisa melakukannya! Jangan ragu untuk melakukannya jika Anda lebih suka dengan cara ini. Kami menggunakan SparkRepository untuk membaca input hanya untuk menyediakan struktur untuk file input.
    Saya merasa ada banyak SparkRepository dan banyak variabel yang sesuai, dan saya tidak menemukan ini cantik/centise. Bukankah ada solusi lain?
    Alih -alih menggunakan Delivery dalam bentuk SparkRepository , Anda dapat menggunakan pengiriman dalam bentuk Dataset dengan autoLoad = true . Jadi, alih -alih memiliki:
    @Delivery(id = "id") var videosRegionRepo: SparkRepository[Video] = _ var videosRegion: Dataset[Video]
    Anda dapat menggunakan:
    @Delivery(id = "id", autoLoad = true) var videosRegion: Dataset[Video]
    Jangan ragu -ragu memeriksa setl wiki, di bagian anotasi.
  4. Transformator
    Tujuan utama dari Transformer pertama adalah menambahkan informasi wilayah/negara. Bangun Transformer yang mengambil dua input, Dataset[Video] dan string. Tambahkan country kolom dan kembalikan Dataset[VideoCountry] . Anda juga dapat memfilter video yang diberi label sebagai dihapus atau kesalahan . Tentu saja, langkah terakhir ini dapat ditempatkan di tempat lain.
    Tujuan utama dari Transformer kedua adalah untuk menyusun kembali semua video bersama -sama, sambil menjaga informasi wilayah.
    Tips
    Gunakan fungsi reduce dan union .
  Untuk memeriksa hasil pekerjaan Anda, buka App.scala , atur SparkRepositories , tambahkan VideoFactory panggung, dan jalankan kode. Ini akan membuat file output di jalur yang sesuai.
Apa yang harus Anda ketahui sekarang
- Baca file CSV.
- Gunakan Connector dan SparkRepository .
- Baca beberapa Deliveries ke dalam Transformer atau Connector .
- Gunakan beberapa Transformers di sebuah Factory .

Prestasi 2: Mendapatkan Statistik Video Terbaru
Karena video dapat menjadi tren teratas untuk satu hari dan hari berikutnya, itu akan memiliki angka yang berbeda dalam hal pandangan, suka, tidak suka, komentar ... sebagai akibatnya, kita harus mengambil statistik terbaru yang tersedia untuk satu video, untuk setiap wilayah. Pada saat yang sama, kami akan menghitung jumlah hari tren untuk setiap video.
Tapi bagaimana kita akan melakukan itu? Pertama -tama, kita akan mengelompokkan catatan yang sesuai dengan video yang sama, dan menghitung jumlah catatan, yang pada dasarnya adalah jumlah hari yang sedang tren. Kemudian, kami akan memberi peringkat catatan yang dikelompokkan ini dan mengambil yang terbaru, untuk mengambil statistik terbaru.
1. Konfigurasi
  File konfigurasi untuk output VideoFactory sudah diatur dalam pencapaian sebelumnya sehingga dapat disimpan. Anda perlu membacanya dan memprosesnya untuk mendapatkan statistik video terbaru. Jangan lupa menambahkan file konfigurasi untuk output Factory baru ini.
2. Kesatuan
  Buat kelas case bernama VideoStats yang memiliki bidang yang sama dengan VideoCountry , tetapi Anda perlu mempertimbangkan jumlah hari yang sedang tren.
3. Pabrik
  Di pabrik ini, yang perlu Anda lakukan adalah membaca input, meneruskannya ke Transformer yang akan melakukan pemrosesan data, dan menulis output. Seharusnya sangat sederhana; Anda dapat mencoba meniru Factories lain.
  Tips
  Jangan lupa untuk mengatur input dan output Deliveries .
4. Transformator
  Seperti yang dikatakan sebelumnya, kami akan mengelompokkan video bersama. Untuk itu, kita akan menggunakan org.apache.spark.sql.expressions.Window . Pastikan Anda tahu apa yang dilakukan Window sebelumnya.
  1. Buat Window pertama yang akan Anda partisi dengan menghitung jumlah hari yang sedang tren untuk setiap video. Untuk mengetahui bidang mana yang akan Anda selesaikan, lihat bidang apa yang akan sama untuk satu video.
  2. Buat Window kedua yang akan digunakan untuk memberi peringkat video berdasarkan tanggal tren mereka. Dengan memilih tanggal terbaru, kami dapat mengambil statistik terbaru dari setiap video.
  3. Setelah membuat dua Windows , Anda sekarang dapat menambahkan kolom baru trendingDays untuk jumlah hari yang sedang tren dan rank untuk peringkat tanggal tren dengan pesanan menurun.
  4. Untuk mendapatkan statistik terbaru, cukup filter video berdasarkan rank mereka, hanya mengambil catatan dengan rank 1.
  5. Jatuhkan kolom tambahan dan bas DataFrame ke Dataset[VideoStats] .
  Tips
  Anda perlu menggunakan metode partitionBy dan orderBy untuk Window ; dan count , rank metode dari org.apache.spark.sql.functions saat bekerja dengan Dataset .
  Untuk memeriksa hasil pekerjaan Anda, buka App.scala , atur SparkRepositories , tambahkan panggung, dan jalankan kode. Ini akan membuat file output di jalur yang sesuai.
Apa yang harus Anda ketahui sekarang
- Cara menjalankan Pipeline .
- Pahami apa itu Connector dan SparkRepository , dan cara mengatur Deliveries .

Prestasi 3: Menghitung skor popularitas
Kami sekarang akan menghitung skor popularitas setiap video, setelah mendapatkan statistik terbaru mereka. Seperti yang dikatakan sebelumnya, formula kami sangat sederhana dan mungkin tidak mewakili kenyataan. Mari kita ingatkan bahwa formulanya adalah views * viewsWeight + trendingDays * trendingDaysWeight + normalizedLikesPercentage * likesWeight + normalizedComments * commentsWeight . Menggunakan hasil sebelumnya dari VideoStats , kami hanya akan menerapkan formula, dan mengurutkan data berdasarkan skor tertinggi ke yang terendah.
1. Konfigurasi
  Ini adalah transformasi data terakhir. Atur konfigurasi sehingga Anda dapat menyimpan Dataset[VideoStats] . Untuk menambahkan konstanta yang digunakan untuk rumus, Anda harus mengatur Inputs di dalam Pipeline . Sebelum menambahkan tahapan dalam Pipeline , gunakan setInput[T](<value>, <id>) untuk mengatur konstanta. Input ini dapat diambil kapan saja di Factories mana pun yang pernah ditambahkan ke Pipeline .
2. Kesatuan
  Tidak diperlukan entitas di sini. Kami hanya akan mengurutkan data sebelumnya dan menjatuhkan kolom yang digunakan untuk menghitung skor sehingga kami masih dapat menggunakan entitas VideoStats .
3. Pabrik
  Di pabrik ini, yang perlu Anda lakukan adalah membaca input, meneruskannya ke Transformer yang akan melakukan pemrosesan data, dan menulis output. Seharusnya sangat sederhana; Anda dapat mencoba meniru Factories lain.
  Tips
  Jangan lupa untuk mengatur input dan output Deliverable : Connector , SparkRepository dan/atau Input .
4. Transformator
  1. Mari kita normalkan jumlah suka/tidak suka atas jumlah tampilan. Untuk setiap catatan, bagi jumlah suka dengan jumlah tampilan, dan kemudian jumlah ketidaksukaan dengan jumlah tampilan. Setelah itu, dapatkan persentase suka "dinormalisasi".
  2. Sekarang mari kita normalisasi jumlah komentar. Untuk setiap catatan, bagi jumlah komentar dengan jumlah tampilan.
  3. Kami sekarang dapat menghitung skor popularitas. Ingatkan bahwa rumusnya adalah: views * viewsWeight + trendingDays * trendingDaysWeight + normalizedLikesPercentage * likesWeight + normalizedComments * commentsWeight .
    Namun, ada video di mana komentar dinonaktifkan. Dalam hal ini, formula menjadi: views * viewsWeight + trendingDays * trendingDaysWeight + normalizedLikesPercentage * (likesWeight + commentsWeight) . Kami secara sewenang -wenang memutuskan bobotnya:
    viewsWeight = 0.4
    trendingDaysWeight = 0.35
    likesWeight = 0.2
    commentsWeight = 0.05
    Tips:
    Lihatlah when dan otherwise berfungsi dari org.apache.spark.sql.functions .
  4. Urutkan berdasarkan score dalam urutan menurun, dan ambil 100 catatan pertama. Anda sekarang memiliki 100 video paling "populer" dari 10 wilayah.
  Untuk memeriksa hasil pekerjaan Anda, buka App.scala , atur Inputs jika belum diatur, atur output SparkRepository , tambahkan panggung, dan jalankan kode. Ini akan membuat file output di jalur yang sesuai.
Apa yang harus Anda ketahui sekarang
- Gunakan tiga jenis Deliveries : Input , Connector , dan SparkRepository , dengan deliveryId .
- Tulis Stage , termasuk Factory dan Transformer(s) .
- Jalankan pekerjaan ETL SETL dasar.

Terima kasih sudah membaca! ❤️

Jika Anda menyukai proyek ini, silakan periksa Setl Framework di sini: https://github.com/setl-developers/setl, dan mengapa tidak membawa kontribusi Anda!

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-06-05
ukuran 27.95KB
Berasal dari Github

Aplikasi Terkait

youtube ripper

2024-11-07
youtube screenshot extractor

2024-11-06
Youtube dl api

2024-11-05
Pengunduh Video YouTube Pengunduh YouTube

2012-04-18
Pencuri RSS YouTube

2009-05-07
Pengunduh YouTube

2009-05-07

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua