ดาวน์โหลด youtube setl - ดาวน์โหลดซอร์สโค้ด youtube setl

youtube setl

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

youtube setl

YouTube Setl เป็นโครงการที่มีจุดมุ่งหมายในการจัดหาจุดเริ่มต้นในการฝึก SETL Framework: https://github.com/setl-developers/setl แนวคิดคือการให้โครงการบริบทที่เกี่ยวข้องกับสารสกัดแปลงและโหลด มีความยากลำบากสามระดับสำหรับการออกกำลังกาย: โหมดง่ายโหมดปกติและโหมดฮาร์ด

ข้อมูลที่ใช้มาจาก Kaggle, https://www.kaggle.com/datasnaek/youtube-new

การติดตั้ง

ฉันใช้ Jetbrains Intellij Idea Community Edition สำหรับโครงการนี้กับ Scala และ Apache Spark

บริบท

ข้อมูลถูกแบ่งออกเป็นหลายภูมิภาค: แคนาดา (CA), เยอรมนี (DE), ฝรั่งเศส (FR), บริเตนใหญ่ (GB), อินเดีย (IN), ญี่ปุ่น (JP), เกาหลีใต้ (KR), เม็กซิโก (MX), รัสเซีย (RU) และสหรัฐอเมริกา (สหรัฐอเมริกา) สำหรับแต่ละภูมิภาคเหล่านี้มีสองไฟล์:

ไฟล์ CSV ที่มีคอลัมน์ต่อไปนี้:

ทุกวัน YouTube มีวิดีโอที่ได้รับความนิยมมากที่สุดประมาณ 200 รายการในแต่ละประเทศ YouTube วัดจำนวนวิดีโอที่ทันสมัยขึ้นอยู่กับการรวมกันของปัจจัยที่ไม่ได้เปิดเผยต่อสาธารณะอย่างเต็มที่ ชุดข้อมูลนี้ประกอบด้วยคอลเลกชันวิดีโอที่ได้รับความนิยมสูงสุดของทุกวัน ด้วยเหตุนี้จึงเป็นไปได้ที่วิดีโอเดียวกันจะปรากฏหลายครั้งซึ่งหมายความว่ามีแนวโน้มเป็นเวลาหลายวัน

ไฟล์ JSON ที่มีสามปุ่ม:
1. ชนิด: สตริง
2. etag: สตริง
3. รายการ: อาร์เรย์ของวัตถุ

โดยทั่วไปองค์ประกอบของฟิลด์ รายการ ช่วยให้เราสามารถแมป category_id ของไฟล์ CSV กับหมวดหมู่ชื่อเต็ม

เราจะวิเคราะห์ชุดข้อมูลนี้และกำหนดวิดีโอ "ยอดนิยม" แต่เราจะกำหนดวิดีโอยอดนิยมได้อย่างไร? เราจะกำหนดความนิยมของวิดีโอตามจำนวนการดูไลค์ไม่ชอบจำนวนความคิดเห็นและจำนวนวันที่มีแนวโน้ม

คำจำกัดความนี้เป็นที่ถกเถียงกันอย่างชัดเจนและเป็นไปตามอำเภอใจและเราไม่ได้มองหาคำจำกัดความที่ดีที่สุดสำหรับความนิยมของวิดีโอ เราจะมุ่งเน้นไปที่วัตถุประสงค์ของโครงการนี้เท่านั้น: ฝึกฝนกับเฟรมเวิร์ก SETL

การแนะนำ

เป้าหมายของโครงการนี้คือการค้นหาวิดีโอ "ยอดนิยม" 100 รายการและหมวดหมู่วิดีโอยอดนิยม "มากที่สุด แต่เราจะกำหนดความนิยมของวิดีโอได้อย่างไร? สูตรกำลังจะเป็น:
number of views * views weight + number of trending days * trending days weight + normalized likes percentage * likes weight + normalized comments * comments weight
เปอร์เซ็นต์ที่ชอบคืออัตราส่วนของการชอบที่ไม่ชอบ อัตราส่วนนี้ถูกทำให้เป็นมาตรฐานมากกว่าจำนวนมุมมอง การทำให้เป็นมาตรฐานเดียวกันนั้นทำด้วยจำนวนความคิดเห็น

ด้านล่างนี้เป็นคำแนะนำสำหรับแต่ละระดับความยากในการตระหนักถึงโครงการ สำหรับแต่ละระดับความยากคุณสามารถโคลน repo กับสาขาเฉพาะเพื่อมีโครงการเริ่มต้น

สำหรับโครงการนี้เราคิดว่าคุณมีความรู้พื้นฐานเกี่ยวกับ Scala และ Apache Spark แล้ว

เคล็ดลับทั่วไป

สร้าง อินพุต โฟลเดอร์ในโฟลเดอร์ ทรัพยากร และย้ายข้อมูลที่นี่
โครงสร้างทั่วโลกของโครงการประกอบด้วย 3 โฟลเดอร์หลัก: entity ที่มีคลาสเคสหรือวัตถุ; factory ที่มีหม้อแปลง; และ transformer ที่มีการแปลงข้อมูล
ลองบันทึกชุดข้อมูล DataFrame/Dataset ทั้งหมดหลังจากการแปลงแต่ละครั้งหรือการประมวลผลข้อมูล คุณสามารถดูพวกเขาเพื่อดูว่ามีข้อผิดพลาดหรือไม่
ในการทำงานให้สำเร็จคุณสามารถดู เคล็ดลับ เพื่อขอความช่วยเหลือ
หากคุณใช้แนวคิด Intellij เมื่อคุณสร้าง Factory Setl หรือ Transformer คุณสามารถใช้ Ctrl+i เพื่อสร้างฟังก์ชั่นที่จำเป็นโดยอัตโนมัติ

โหมดยาก

คำแนะนำ

ความสำเร็จ 1
- คุณเป็นของคุณเอง! ทำทุกอย่างที่คุณต้องการเพื่อให้บรรลุงาน

โหมดปกติ

คำแนะนำ

ความสำเร็จ 1: การอ่านอินพุต
สิ่งแรกที่เราจะทำคืออ่านอินพุต: ไฟล์ CSV ที่ฉันจะเรียกไฟล์วิดีโอและไฟล์ JSON ไฟล์หมวดหมู่
1. เริ่มต้นด้วยไฟล์หมวดหมู่กันเถอะ ไฟล์หมวดหมู่ทั้งหมดเป็นไฟล์ JSON สร้างคลาสเคสที่แสดงถึง หมวดหมู่ จากนั้น Factory ที่มี Transformer ที่จะประมวลผลไฟล์หมวดหมู่ลงในคลาสเคส
  เคล็ดลับ:
  - ใช้ ตัวเชื่อมต่อ แทน การแยกออกจากกัน ส่วนใหญ่เป็นเพราะมันยากที่จะสร้างวัตถุที่จะเลียนแบบไฟล์หมวดหมู่โครงสร้างที่ชาญฉลาด
  - ดูไฟล์ local.conf วัตถุได้ถูกสร้างขึ้นแล้วเพื่ออ่านไฟล์หมวดหมู่
  - เนื่องจากไฟล์มีโครงสร้างเดียวกันคุณสามารถย้ายไฟล์ทั้งหมดในโฟลเดอร์เดียวกัน การตั้งค่าพา ธ ไปยังโฟลเดอร์นี้ ตัวเชื่อมต่อ จะพิจารณาไฟล์เหล่านี้เป็นพาร์ติชันของไฟล์เดียว
  - เราต้องเลือก ID และชื่อของหมวดหมู่เท่านั้น
  - ลองดูฟังก์ชั่น ระเบิด จาก org.apache.spark.sql.functions
  - อย่าลืมใช้ coalesce เมื่อบันทึกไฟล์
2. ตอนนี้เราสามารถทำงานกับไฟล์วิดีโอได้ ในทำนองเดียวกันสร้างคลาสเคสที่แสดง วิดีโอ สำหรับการอ่านอินพุตจากนั้น Factory ที่มี Transformers หนึ่งหรือหลายตัวที่จะทำการประมวลผล เนื่องจากไฟล์วิดีโอถูกแยกออกจากภูมิภาคจึงไม่มีข้อมูลภูมิภาคสำหรับแต่ละระเบียนในชุดข้อมูล ลองเพิ่มข้อมูลนี้โดยใช้ VideoCountry เคสเคสเคสอื่น ๆ ซึ่งคล้ายกับ วิดีโอ มากและผสานบันทึกทั้งหมดในชุดข้อมูล/ชุดข้อมูลเดียว
  เคล็ดลับ:
  - อ่านไฟล์ทีละตัว หมายถึงการสร้าง SparkRepository หลายตัวสำหรับการอ่าน
  - สร้าง SparkRepository เดียวสำหรับการเขียน
  - เลือกวิดีโอที่ไม่ได้ลบหรือมีข้อผิดพลาด
  - สอง Transformers จะมีประโยชน์: หนึ่งสำหรับการเพิ่มคอลัมน์ country และอีกหนึ่งสำหรับการรวมวิดีโอทั้งหมดเข้ากับชุดข้อมูลเดียว

ความสำเร็จ 2: รับสถิติวิดีโอล่าสุด
เนื่องจากวิดีโอสามารถเป็นหนึ่งในหนึ่งในหนึ่งวันและในวันถัดไปจึงเป็นไปได้ที่วิดีโอจะมีหลายแถวที่แต่ละคนมีตัวเลขที่แตกต่างกันในแง่ของมุมมองการชอบไม่ชอบความคิดเห็น ... เป็นผลให้เราต้องดึงสถิติล่าสุดที่มีให้สำหรับวิดีโอเดียวสำหรับแต่ละภูมิภาคเพราะสถิติเหล่านี้เพิ่มขึ้น ในเวลาเดียวกันเราจะคำนวณจำนวนวันที่ได้รับความนิยมสำหรับวิดีโอทุกรายการ
1. สร้าง videostats คลาสเคสซึ่งคล้ายกับคลาสกรณีก่อนหน้า แต่ด้วยข้อมูลวันที่ได้รับความนิยม
2. ขั้นแรกให้คำนวณจำนวนวันที่ได้รับความนิยมของแต่ละวิดีโอ
  เคล็ดลับ:
  - ดูฟังก์ชัน window จาก org.apache.spark.sql.functions
3. ในการดึงสถิติล่าสุดคุณต้องดึงวันที่ได้รับความนิยมล่าสุดของวิดีโอแต่ละรายการ ในความเป็นจริงแล้วสถิติล่าสุดที่มีอยู่
  เคล็ดลับ:
  - คุณจะต้องสร้าง window อื่น คนแรกคือการคำนวณจำนวนวันที่ได้รับความนิยมและครั้งที่สองเพื่อดึงสถิติล่าสุด
  - เคล็ดลับเล็ก ๆ น้อย ๆ คือการใช้ฟังก์ชั่น rank
4. เรียงลำดับผลลัพธ์ตามภูมิภาคจำนวนวันที่ได้รับความนิยมมุมมองไลค์และความคิดเห็น มันจะเตรียมข้อมูลสำหรับความสำเร็จครั้งต่อไป

ความสำเร็จ 3: การคำนวณคะแนนความนิยม
ตอนนี้เราจะคำนวณคะแนนความนิยมของวิดีโอแต่ละรายการหลังจากได้รับสถิติล่าสุด ดังที่ได้กล่าวไว้ก่อนหน้านี้สูตรของเรานั้นง่ายมากและอาจไม่เป็นตัวแทนของความเป็นจริง
1. ลองทำให้จำนวนไลค์/ไม่ชอบเป็นปกติมากกว่าจำนวนการดู สำหรับแต่ละระเบียนให้แบ่งจำนวนไลค์ตามจำนวนมุมมองจากนั้นจำนวนไม่ชอบตามจำนวนมุมมอง หลังจากนั้นรับเปอร์เซ็นต์ของการชอบ "ปกติ"
2. ตอนนี้ขอให้จำนวนความคิดเห็นปกติ สำหรับแต่ละระเบียนแบ่งจำนวนความคิดเห็นด้วยจำนวนมุมมอง
3. ตอนนี้เราสามารถคำนวณคะแนนความนิยม เตือนว่าสูตรคือ: views * viewsWeight + trendingDays * trendingDaysWeight + normalizedLikesPercentage * likesWeight + normalizedComments * commentsWeight
  อย่างไรก็ตามมีวิดีโอที่ความคิดเห็นถูกปิดใช้งาน ในกรณีนี้สูตรจะกลายเป็น: views * viewsWeight + trendingDays * trendingDaysWeight + normalizedLikesPercentage * (likesWeight + commentsWeight) เราตัดสินใจว่าน้ำหนักเป็น:
  - viewsWeight = 0.4
  - trendingDaysWeight = 0.35
  - likesWeight = 0.2
  - commentsWeight = 0.05
  ตั้งค่าเป็น Input เพื่อให้สามารถแก้ไขได้ง่าย
  เคล็ดลับ:
  - ตรวจสอบว่า when และ otherwise ฟังก์ชั่นจาก org.apache.spark.sql.functions
4. เรียงลำดับตาม score ตามลำดับจากมากไปน้อยและใช้ 100 ระเบียนแรก ตอนนี้คุณมีวิดีโอ "ยอดนิยม" 100 รายการจาก 10 ภูมิภาค

โหมดง่าย

คำแนะนำ

ความสำเร็จ 1: การอ่านอินพุต
สิ่งแรกที่เราจะทำคือการอ่านอินพุต: ไฟล์ CSV ที่ฉันจะเรียกไฟล์วิดีโอและไฟล์ JSON ไฟล์หมวดหมู่
1. เริ่มต้นด้วยไฟล์หมวดหมู่กันเถอะ ไฟล์หมวดหมู่ทั้งหมดเป็นไฟล์ JSON นี่คือเวิร์กโฟลว์: เราจะกำหนดไฟล์การกำหนดค่าที่จะระบุไฟล์หมวดหมู่ที่จะอ่าน; สร้างคลาสเคสที่แสดงถึงหมวดหมู่ จากนั้น Factory ที่มี Transformer ที่จะประมวลผลไฟล์หมวดหมู่ลงในคลาสเคส ในที่สุดเราจะเพิ่ม Stage ลงใน Pipeline เพื่อกระตุ้นการเปลี่ยนแปลง
  1. การกำหนดค่า
    วัตถุการกำหนดค่าได้ถูกสร้างขึ้นแล้วใน resources/local.conf ให้ความสนใจกับตัวเลือก storage และ path ย้ายไฟล์หมวดหมู่ตามนั้น หากหลายไฟล์อยู่ในโฟลเดอร์เดียวกันและใช้โฟลเดอร์เป็นพา ธ SetL จะพิจารณาไฟล์เป็นพาร์ติชันของไฟล์เดียว ถัดไปตรวจสอบ App.scala คุณจะเห็นว่าเราใช้วิธีการ setConnector() และ setSparkRepository() ทุกครั้งที่คุณต้องการใช้ที่เก็บข้อมูลคุณจะต้องเพิ่มการกำหนดค่าในการกำหนดค่าและลงทะเบียนในวัตถุ setl
  2. กิจการ
    สร้างคลาสเคสชื่อ Category ในโฟลเดอร์ entity ตอนนี้ตรวจสอบในไฟล์หมวดหมู่ฟิลด์ที่เราต้องการ
    คำตอบ
    เราจะต้องใช้ id และ title ของหมวดหมู่ ตรวจสอบให้แน่ใจว่าได้ตรวจสอบไฟล์และใช้การสะกดคำเดียวกันเพื่อสร้างคลาสเคส Category
  3. โรงงาน
    โครงกระดูกของ Factory ได้รับการจัดเตรียมแล้ว ตรวจสอบให้แน่ใจว่าคุณเข้าใจโครงสร้างเชิงตรรกะ
    ขั้นแรก Delivery ในรูปแบบของ Connector ช่วยให้เราสามารถดึงอินพุตได้ Delivery อื่นจะทำหน้าที่เป็น SparkRepository ที่เราจะเขียนผลลัพธ์ของการเปลี่ยนแปลง ตรวจสอบ id ของ Delivery แต่ละครั้งและ deliveryId ใน App.scala พวกเขาจะใช้ดังนั้นจึงไม่มีความคลุมเครือเมื่อ Setl ดึงข้อมูลที่เก็บ เพื่อให้สามารถอ่านการส่งมอบก่อนหน้านี้สองครั้งเราจะใช้ตัวแปรอื่นอีกสองตัว: DataFrame สำหรับการอ่าน Connector และ Dataset สำหรับการจัดเก็บเอาท์พุท SparkRepository ความแตกต่างระหว่างพวกเขาคือการพิมพ์ SparkRepository ดังนั้น Dataset
    จำเป็นต้องใช้ฟังก์ชั่นสี่ฟังก์ชั่นสำหรับ Factory Setl :
    read : แนวคิดคือการใช้ Connector หรืออินพุต SparkRepository Delivery ให้ประมวลผลล่วงหน้าหากจำเป็นและจัดเก็บไว้ในตัวแปรเพื่อใช้ในฟังก์ชั่นถัดไป
    process : นี่คือที่ที่การแปลงข้อมูลทั้งหมดจะทำ สร้างอินสแตนซ์ของ Transformer ที่คุณใช้เรียกใช้วิธี transform() ใช้ getter transformed และเก็บผลลัพธ์ไว้ในตัวแปร
    write : ตามชื่อของมันมันถูกใช้เพื่อบันทึกเอาต์พุตของการแปลงหลังจากที่พวกเขาได้ทำไปแล้ว Connector ใช้วิธี write() เพื่อบันทึก DataFrame และ SparkRepository ใช้วิธี save() เพื่อบันทึก Dataset
    get : ฟังก์ชั่นนี้ใช้เพื่อส่งเอาต์พุตไปยัง Stage ต่อไปของ Pipeline เพียงส่งคืน Dataset
    ในฟังก์ชั่น process อาจมี Transformer หลายตัว เราจะพยายามติดตามโครงสร้างนี้ตลอดส่วนที่เหลือของโครงการ
    
    คำถาม
    ทำไมต้องใช้ตัวเชื่อมต่อแทนการแยกออกจากกัน?
    ส่วนใหญ่เป็นเพราะมันยากที่จะสร้างวัตถุที่จะเลียนแบบไฟล์หมวดหมู่โครงสร้างที่ชาญฉลาด
    ทำไมคุณต้องเขียนผลลัพธ์?
    ไม่จำเป็นอย่างยิ่ง อันที่จริงผลลัพธ์ของ Factory จะถูกถ่ายโอนไปยัง Stage ต่อไปโดยอัตโนมัติผ่านฟังก์ชั่น get อย่างไรก็ตามการเขียนผลลัพธ์ของ Factory ทุกแห่งจะง่ายขึ้นสำหรับการสร้างภาพและการดีบัก
  4. หม้อแปลงไฟฟ้า
    อีกครั้งโครงกระดูกของ Transformer ได้รับการจัดเตรียมแล้ว อย่างไรก็ตามคุณจะเป็นคนที่จะเขียนการแปลงข้อมูล
    Transformer ของเรามีข้อโต้แย้ง โดยปกติแล้วมันคือ DataFrame หรือ Dataset ที่เราต้องการประมวลผล ขึ้นอยู่กับแอปพลิเคชันของคุณคุณอาจเพิ่มอาร์กิวเมนต์อื่น ๆ
    transformedData เป็นตัวแปรที่จะเก็บผลลัพธ์ของการแปลงข้อมูล
    transformed เป็น Getter ที่จะถูกเรียกโดย Factory เพื่อดึงผลลัพธ์ของการแปลงข้อมูล
    transform() เป็นวิธีการที่จะทำการแปลงข้อมูล
    ตอนนี้เราอธิบายถึงการเปลี่ยนแปลงที่เราต้องการทำ
    ก่อนอื่นเราจะเลือกฟิลด์ items หากคุณตรวจสอบไฟล์หมวดหมู่ข้อมูลที่เราต้องการอยู่ในฟิลด์นี้
    อย่างไรก็ตามฟิลด์ items เป็นอาร์เรย์ เราต้องการระเบิดอาร์เรย์นี้และใช้เฉพาะฟิลด์ id และฟิลด์ title จากฟิลด์ snippet ในการทำเช่นนั้นให้ใช้ฟังก์ชั่น explode จาก org.apache.spark.sql.functions จากนั้นเพื่อให้ได้ฟิลด์เฉพาะให้ใช้วิธี withColumn และวิธี getField() บน id, snippet และ title อย่าลืมที่จะโยนประเภทตามคลาสเคสที่คุณสร้างขึ้น
    เลือก id และคอลัมน์ title จากนั้นโยน dataframe ลงในชุดข้อมูลด้วย as[T]
    คุณเขียน Transformer เสร็จแล้ว หากต้องการดูว่ามันทำอะไรคุณสามารถเรียกใช้ไฟล์ App.scala ที่สร้างขึ้นแล้ว มันเพียงแค่เรียกใช้ Factory ที่มี Transformer ที่คุณเพิ่งเขียนและมันจะส่งออกผลลัพธ์ไปยังเส้นทางของไฟล์การกำหนดค่า โปรดทราบว่ามีการเพิ่ม Factory ที่เกี่ยวข้องผ่าน addStage() ที่ทำให้ Pipeline ส่งข้อมูล
สิ่งที่คุณควรรู้ตอนนี้
- โครงสร้างทั่วไป: config, เอนทิตี, หม้อแปลง, โรงงานและในที่สุดก็อยู่ในขั้นตอนในท่อ
- อ่านไฟล์ JSON
- วิธีการอ่านอินพุต: การสร้างวัตถุการกำหนดค่าการตั้งค่า Connector โดยใช้คำอธิบายประกอบ @Delivery พร้อม deliveryId
- SETL สามารถอ่านพาร์ติชันได้โดยการตั้งค่าเส้นทางโฟลเดอร์ในวัตถุการกำหนดค่า
- สถานที่ประมวลผลข้อมูล: การใช้ Transformer ในวิธี process ของ Factory
- วิธีการเขียนเอาต์พุต: ด้วยวิธี write ของ Factory
1. ตอนนี้มาประมวลผลไฟล์วิดีโอกันเถอะ เราต้องการรวมไฟล์ทั้งหมดใน DataFrame / Dataset เดียวหรือในไฟล์ CSV เดียวกันในขณะที่เก็บข้อมูลของภูมิภาคสำหรับแต่ละวิดีโอ ไฟล์วิดีโอทั้งหมดเป็นไฟล์ CSV และมีคอลัมน์เดียวกันตามที่ระบุไว้ก่อนหน้านี้ในส่วน บริบท เวิร์กโฟลว์คล้ายกับอันสุดท้าย: การกำหนดค่า; คลาสกรณี; Factory ; Transformer ; เพิ่ม Stage ลงใน Pipeline เวลานี้เราจะตั้งค่าวัตถุการกำหนดค่าหลายรายการ
  1. การกำหนดค่า
    เราจะตั้งค่าวัตถุการกำหนดค่าหลายรายการใน resources/local.conf หนึ่งต่อภูมิภาค ในแต่ละวัตถุการกำหนดค่าคุณจะต้องตั้งค่า storage, path, inferSchema, delimiter, header, multiLine และ dateFormat
    เคล็ดลับ
    สำหรับไฟล์การกำหนดค่าเหล่านี้ลองให้ชื่อสามัญเช่น videos<region>Repository
    อย่าลืมตั้งค่าวัตถุการกำหนดค่าสำหรับการเขียนผลลัพธ์ของ Factory
    คำถาม
    ทำไมเราต้องตั้งค่าวัตถุการกำหนดค่าหลายรายการและไม่ใช้วัตถุเดียวและย้ายไฟล์ทั้งหมดในโฟลเดอร์เดียวกันคล้ายกับไฟล์หมวดหมู่
    นี่เป็นเพราะเราต้องเก็บข้อมูลภูมิภาค สำหรับไฟล์วิดีโอแต่ละภูมิภาคเราจะต้องเพิ่มคอลัมน์ที่มีภูมิภาค หากเราใช้วัตถุเดียวและปฏิบัติต่อไฟล์ทั้งหมดเป็นพาร์ติชันของไฟล์เดียวเราจะไม่สามารถเขียนภูมิภาคต่าง ๆ ได้
  2. กิจการ
    สร้างคลาสเคสชื่อ Video ในโฟลเดอร์ entity ตอนนี้ตรวจสอบในไฟล์วิดีโอฟิลด์ที่เราต้องการ เตือนว่าวัตถุประสงค์คือการคำนวณคะแนนความนิยมและสูตรคือ number of views * views weight + number of trending days * trending days weight + normalized likes percentage * likes weight + normalized comments * comments weight มันจะช่วยในการเลือกฟิลด์
    สร้างคลาสเคสอื่นที่ชื่อว่า VideoCountry มันจะมีฟิลด์เดียวกันกับ Video แต่กับเขตประเทศ/ภูมิภาคนอกจากนี้
    เคล็ดลับ
    คุณสามารถดูที่คำอธิบายประกอบ @ColumnName ของเฟรมเวิร์ก ลองใช้มันเพราะมันจะเป็นประโยชน์ในสถานการณ์ธุรกิจในชีวิตจริง
    ใช้ java.sql.Date สำหรับฟิลด์ประเภทวันที่
    คำตอบ
    เราต้องการมี videoId , title , channel_title , category_id , trending_date , views , likes , dislikes , comment_count , comments_disabled และ video_error_or_removed ฟิลด์
  3. โรงงาน
    เป้าหมายของโรงงานนี้คือการรวมไฟล์วิดีโอทั้งหมดเข้าด้วยกันเป็นไฟล์เดียวโดยไม่ต้องลบข้อมูลภูมิภาค นั่นหมายความว่าเราจะใช้ Transformer สองชนิด
    ก่อนอื่นให้ตั้งค่า Delivery ทั้งหมดในรูปแบบของ SparkRepository[Video] ตั้งค่า Delivery ครั้งสุดท้ายเป็น SparkRepository[VideoCountry] ซึ่งเราจะเขียนผลลัพธ์ของการแปลง ตั้ง Dataset[Video] เป็นจำนวนอินพุต
    ตอนนี้อธิบายฟังก์ชั่นทั้งสี่ของ Factory :
    read : ประมวลผล preprocess SparkRepository โดยการกรองวิดีโอที่ ถูกลบ หรือ ข้อผิดพลาด จากนั้น "หล่อ" พวกเขาเป็น Dataset[Video] และเก็บไว้ในตัวแปรที่เกี่ยวข้อง
    process : ใช้ Transformer แรกสำหรับแต่ละอินพุตและใช้ผลลัพธ์กับ Transformer ที่สอง
    write : เขียนเอาท์พุท SparkRepository[VideoCountry]
    get : เพียงส่งคืนผลลัพธ์ของ Transformer สุดท้าย
    
    คำถาม
    ทำไมเราไม่ใช้ Connector เพื่ออ่านไฟล์อินพุตและ SparkRepository สำหรับเอาต์พุต?
    คุณสามารถทำได้โดยสิ้นเชิง! อย่าลังเลที่จะทำเช่นนั้นถ้าคุณชอบวิธีนี้ เราใช้ SparkRepository เพื่ออ่านอินพุตเพียงเพื่อให้โครงสร้างสำหรับไฟล์อินพุต
    ฉันรู้สึกว่ามี SparkRepository มากมายและตัวแปรที่สอดคล้องกันจำนวนมากและฉันไม่พบสิ่งนี้/เป็นที่ถกเถียงกัน ไม่มีทางออกอื่นหรือ?
    แทนที่จะใช้ Delivery ในรูปแบบของ SparkRepository คุณสามารถใช้การส่งมอบในรูปแบบของ Dataset ที่มีตัวเลือก autoLoad = true ดังนั้นแทนที่จะมี:
    @Delivery(id = "id") var videosRegionRepo: SparkRepository[Video] = _ var videosRegion: Dataset[Video]
    คุณสามารถใช้:
    @Delivery(id = "id", autoLoad = true) var videosRegion: Dataset[Video]
    อย่าลังเลที่จะตรวจสอบ setl wiki ในส่วนคำอธิบายประกอบ
  4. หม้อแปลงไฟฟ้า
    เป้าหมายหลักของ Transformer แรกคือการเพิ่มข้อมูลภูมิภาค/ประเทศ สร้าง Transformer ที่ใช้สองอินพุต Dataset[Video] และสตริง เพิ่ม country คอลัมน์และส่งคืน Dataset[VideoCountry] นอกจากนี้คุณยังสามารถกรองวิดีโอที่มีป้ายกำกับว่า ถูกลบหรือผิดพลาด แน่นอนว่าขั้นตอนสุดท้ายนี้สามารถวางไว้ที่อื่นได้
    เป้าหมายหลักของ Transformer ที่สองคือการจัดกลุ่มวิดีโอทั้งหมดเข้าด้วยกันใหม่ในขณะที่เก็บข้อมูลภูมิภาค
    เคล็ดลับ
    ใช้ฟังก์ชั่น reduce และ union
  หากต้องการตรวจสอบผลลัพธ์ของงานของคุณให้ไปที่ App.scala ตั้งค่า SparkRepositories เพิ่ม VideoFactory เวทีและเรียกใช้รหัส มันจะสร้างไฟล์เอาต์พุตในเส้นทางที่สอดคล้องกัน
สิ่งที่คุณควรรู้ตอนนี้
- อ่านไฟล์ CSV
- ใช้ทั้ง Connector และ SparkRepository
- อ่าน Deliveries หลายรายการลงใน Transformer หรือ Connector
- ใช้ Transformers หลายตัวใน Factory

ความสำเร็จ 2: รับสถิติวิดีโอล่าสุด
เนื่องจากวิดีโอสามารถเป็นหนึ่งในหนึ่งในหนึ่งวันและในวันถัดไปมันจะมีตัวเลขที่แตกต่างกันในแง่ของการดูการชอบไม่ชอบความคิดเห็น ... เป็นผลให้เราต้องดึงสถิติล่าสุดที่มีให้สำหรับวิดีโอเดียวสำหรับแต่ละภูมิภาค ในเวลาเดียวกันเราจะคำนวณจำนวนวันที่ได้รับความนิยมสำหรับวิดีโอทุกรายการ
แต่เราจะทำอย่างไร? ก่อนอื่นเราจะจัดกลุ่มระเบียนที่สอดคล้องกับวิดีโอเดียวกันและนับจำนวนระเบียนซึ่งโดยทั่วไปเป็นจำนวนวันที่ได้รับความนิยม จากนั้นเราจะจัดอันดับระเบียนที่จัดกลุ่มเหล่านี้และนำไฟล์ล่าสุดเพื่อดึงสถิติล่าสุด
1. การกำหนดค่า
  ไฟล์การกำหนดค่าสำหรับเอาต์พุตของ VideoFactory ถูกตั้งค่าไว้แล้วในความสำเร็จก่อนหน้านี้เพื่อให้สามารถบันทึกได้ คุณจะต้องอ่านและประมวลผลเพื่อรับสถิติวิดีโอล่าสุด อย่าลืมเพิ่มไฟล์การกำหนดค่าสำหรับผลลัพธ์ของ Factory ใหม่นี้
2. กิจการ
  สร้างคลาสเคสชื่อ VideoStats ซึ่งมีฟิลด์ที่คล้ายกันกับ VideoCountry แต่คุณต้องคำนึงถึงจำนวนวันที่ได้รับความนิยม
3. โรงงาน
  ในโรงงานนี้สิ่งที่คุณต้องทำคืออ่านอินพุตส่งผ่านไปยัง Transformer ที่จะทำการประมวลผลข้อมูลและเขียนเอาต์พุต มันควรจะค่อนข้างง่าย คุณสามารถลองเลียนแบบ Factories อื่น ๆ
  เคล็ดลับ
  อย่าลืมตั้งค่าอินพุตและ Deliveries
4. หม้อแปลงไฟฟ้า
  อย่างที่กล่าวไว้ก่อนหน้านี้เราจะจัดกลุ่มวิดีโอด้วยกัน สำหรับสิ่งนั้นเราจะใช้ org.apache.spark.sql.expressions.Window ตรวจสอบให้แน่ใจว่าคุณรู้ว่า Window ทำอะไรล่วงหน้า
  1. สร้าง Window แรกที่คุณจะพาร์ติชันโดยการนับจำนวนวันที่ได้รับความนิยมสำหรับแต่ละวิดีโอ หากต้องการทราบว่าคุณกำลังจะพาร์ติชันฟิลด์ใดให้ดูว่าฟิลด์ใดจะเหมือนกันสำหรับวิดีโอเดียว
  2. สร้าง Window ที่สองที่จะใช้สำหรับการจัดอันดับวิดีโอตามวันที่ได้รับความนิยม โดยการเลือกวันที่ล่าสุดเราสามารถดึงสถิติล่าสุดของแต่ละวิดีโอได้
  3. หลังจากสร้างสอง Windows นี้คุณสามารถเพิ่มคอลัมน์ใหม่ trendingDays สำหรับจำนวนวันที่ได้รับความนิยมและ rank สำหรับการจัดอันดับของวันที่แนวโน้มโดยการสั่งซื้อลดลง
  4. เพื่อให้ได้สถิติล่าสุดเพียงกรองวิดีโอด้วย rank ของพวกเขาโดยใช้เฉพาะบันทึกที่ rank 1
  5. วางคอลัมน์เพิ่มเติมและส่ง DataFrame ไปยัง Dataset[VideoStats]
  เคล็ดลับ
  คุณจะต้องใช้ partitionBy และวิธี orderBy สำหรับ Window และ count วิธี rank จาก org.apache.spark.sql.functions เมื่อทำงานกับ Dataset
  หากต้องการตรวจสอบผลลัพธ์ของงานของคุณให้ไปที่ App.scala ตั้งค่า SparkRepositories เพิ่มเวทีและเรียกใช้รหัส มันจะสร้างไฟล์เอาต์พุตในเส้นทางที่สอดคล้องกัน
สิ่งที่คุณควรรู้ตอนนี้
- วิธีเรียกใช้ Pipeline
- ทำความเข้าใจว่า Connector และ SparkRepository คืออะไรและวิธีการตั้งค่า Deliveries ของพวกเขา

ความสำเร็จ 3: การคำนวณคะแนนความนิยม
ตอนนี้เราจะคำนวณคะแนนความนิยมของวิดีโอแต่ละรายการหลังจากได้รับสถิติล่าสุด ดังที่ได้กล่าวไว้ก่อนหน้านี้สูตรของเรานั้นง่ายมากและอาจไม่เป็นตัวแทนของความเป็นจริง มาเตือนว่าสูตรนี้เป็น views * viewsWeight + trendingDays * trendingDaysWeight + normalizedLikesPercentage * likesWeight + normalizedComments * commentsWeight การใช้ผลลัพธ์ก่อนหน้าของ VideoStats เราจะใช้สูตรและเรียงลำดับข้อมูลด้วยคะแนนสูงสุดให้ต่ำที่สุด
1. การกำหนดค่า
  นี่คือการแปลงข้อมูลครั้งสุดท้าย ตั้งค่าการกำหนดค่าเพื่อให้คุณสามารถบันทึก Dataset[VideoStats] ในการเพิ่มค่าคงที่ที่ใช้สำหรับสูตรคุณจะต้องตั้ง Inputs ใน Pipeline ก่อนที่จะเพิ่มขั้นตอนใน Pipeline ให้ใช้ setInput[T](<value>, <id>) เพื่อตั้งค่าค่าคงที่ อินพุตเหล่านี้สามารถเรียกคืนได้ตลอดเวลาใน Factories ใด ๆ เมื่อเพิ่มลงใน Pipeline
2. กิจการ
  ไม่จำเป็นต้องมีเอนทิตีที่นี่ เราจะเรียงลำดับข้อมูลก่อนหน้าและวางคอลัมน์ที่ใช้สำหรับการคำนวณคะแนนเพื่อให้เรายังสามารถใช้เอนทิตี VideoStats ได้
3. โรงงาน
  ในโรงงานนี้สิ่งที่คุณต้องทำคืออ่านอินพุตส่งผ่านไปยัง Transformer ที่จะทำการประมวลผลข้อมูลและเขียนเอาต์พุต มันควรจะค่อนข้างง่าย คุณสามารถลองเลียนแบบ Factories อื่น ๆ
  เคล็ดลับ
  อย่าลืมตั้งค่าอินพุตและเอาต์พุต Deliverable : Connector , SparkRepository และ/หรือ Input
4. หม้อแปลงไฟฟ้า
  1. ลองทำให้จำนวนไลค์/ไม่ชอบเป็นปกติมากกว่าจำนวนการดู สำหรับแต่ละระเบียนให้แบ่งจำนวนไลค์ตามจำนวนมุมมองจากนั้นจำนวนไม่ชอบตามจำนวนมุมมอง หลังจากนั้นรับเปอร์เซ็นต์ของการชอบ "ปกติ"
  2. ตอนนี้ขอให้จำนวนความคิดเห็นปกติ สำหรับแต่ละระเบียนแบ่งจำนวนความคิดเห็นด้วยจำนวนมุมมอง
  3. ตอนนี้เราสามารถคำนวณคะแนนความนิยม เตือนว่าสูตรคือ: views * viewsWeight + trendingDays * trendingDaysWeight + normalizedLikesPercentage * likesWeight + normalizedComments * commentsWeight
    อย่างไรก็ตามมีวิดีโอที่ความคิดเห็นถูกปิดใช้งาน ในกรณีนี้สูตรจะกลายเป็น: views * viewsWeight + trendingDays * trendingDaysWeight + normalizedLikesPercentage * (likesWeight + commentsWeight) เราตัดสินใจว่าน้ำหนักเป็น:
    viewsWeight = 0.4
    trendingDaysWeight = 0.35
    likesWeight = 0.2
    commentsWeight = 0.05
    เคล็ดลับ:
    ตรวจสอบว่า when และ otherwise ฟังก์ชั่นจาก org.apache.spark.sql.functions
  4. เรียงลำดับตาม score ตามลำดับจากมากไปน้อยและใช้ 100 ระเบียนแรก ตอนนี้คุณมีวิดีโอ "ยอดนิยม" 100 รายการจาก 10 ภูมิภาค
  หากต้องการตรวจสอบผลลัพธ์ของงานของคุณให้ไปที่ App.scala ตั้ง Inputs หากยังไม่ได้ตั้งค่าให้ตั้งค่า SparkRepository เอาต์พุตเพิ่มเวทีและเรียกใช้รหัส มันจะสร้างไฟล์เอาต์พุตในเส้นทางที่สอดคล้องกัน
สิ่งที่คุณควรรู้ตอนนี้
- ใช้ Deliveries สามประเภท: Input , Connector และ SparkRepository พร้อม deliveryId
- เขียน Stage รวมถึง Factory และ Transformer(s)
- เรียกใช้งาน ETL SETL พื้นฐาน

ขอบคุณสำหรับการอ่าน!

หากคุณชอบโครงการนี้โปรดตรวจสอบ Setl Framework ที่นี่: https://github.com/setl-developers/setl และทำไมไม่นำการบริจาคของคุณ!

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-06-05
ขนาด 27.95KB
มาจาก Github

แอปที่เกี่ยวข้อง

youtube ripper

2024-11-07
youtube screenshot extractor

2024-11-06
Youtube dl api

2024-11-05
โปรแกรมดาวน์โหลดวิดีโอ YouTube โปรแกรมดาวน์โหลด YouTube

2012-04-18
โจร RSS YouTube

2009-05-07
เครื่องมือดาวน์โหลด YouTube

2009-05-07

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด