ดาวน์โหลด yt semantic search download

yt semantic search

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

ค้นหาพอดคาสต์ All-in โดยใช้ AI

การค้นหาความหมายของ YouTube

OpenAi-Powered Semantic Search สำหรับเพลย์ลิสต์ YouTube ใด ๆ-มีพอดคาสต์ All-in

อินโทร
วิธีเริ่มต้นใช้งาน
แบบสอบถามตัวอย่าง
ภาพหน้าจอ
มันทำงานอย่างไร
สิ่งที่ต้องทำ
ข้อเสนอแนะ
เครดิต
ใบอนุญาต

อินโทร

ฉันชอบพอดคาสต์ All-in แต่การค้นหาและการค้นพบด้วยพอดคาสต์อาจเป็นเรื่องที่ท้าทายจริงๆ

ฉันสร้างโครงการนี้เพื่อแก้ปัญหานี้ ... และฉันก็อยากจะเล่นกับสิ่งที่ยอดเยี่ยมของ AI -

โครงการนี้ใช้รุ่นล่าสุดจาก OpenAI เพื่อสร้างดัชนีการค้นหาความหมายในทุกตอนของ POD ช่วยให้คุณค้นหาช่วงเวลาที่คุณชื่นชอบด้วยความแม่นยำระดับ Google และดูคลิปที่แน่นอนที่คุณสนใจอีกครั้ง

คุณสามารถใช้มันเพื่อค้นหาการค้นหาขั้นสูงผ่าน ช่อง YouTube หรือเพลย์ลิสต์ใด ๆ การสาธิตใช้พอดคาสต์ All-in เพราะเป็นที่ชื่นชอบของฉัน แต่มันถูกออกแบบมาเพื่อทำงานกับเพลย์ลิสต์ใด ๆ

วิธีเริ่มต้นใช้งาน

โคลนพื้นที่เก็บข้อมูลไปยังเครื่องในพื้นที่ของคุณ
นำทางไปยังไดเรกทอรีรากของที่เก็บในเทอร์มินัลของคุณ
เรียกใช้คำสั่ง npm install เพื่อติดตั้งการพึ่งพาที่จำเป็นทั้งหมด
เรียกใช้คำสั่ง npx tsx src/bin/resolve-yt-playlist.ts เพื่อดาวน์โหลดการถอดเสียงภาษาอังกฤษสำหรับแต่ละตอนของเพลย์ลิสต์เป้าหมาย (ในกรณีนี้เพลย์ลิสต์พ็อดคาสต์ All-in)
เรียกใช้คำสั่ง npx tsx src/bin/process-yt-playlist.ts เพื่อประมวลผลการถอดเสียงและดึงข้อมูลจาก OpenAI จากนั้นแทรกลงในดัชนีการค้นหา pinecone
ตอนนี้คุณสามารถเรียกใช้คำสั่ง npx tsx src/bin/query.ts เพื่อสอบถามดัชนีการค้นหา PINECONE (ไม่บังคับ) เรียกใช้คำสั่ง npx tsx src/bin/generate-thumbnails.ts เพื่อสร้างภาพขนาดย่อที่มีการประทับเวลาของวิดีโอแต่ละรายการในเพลย์ลิสต์ ขั้นตอนนี้ใช้เวลา ~ 2 ชั่วโมงและต้องมีการเชื่อมต่ออินเทอร์เน็ตที่มั่นคง
ส่วนหน้าของโครงการคือ Next.js Webapp ที่ปรับใช้กับ Vercel ที่ใช้ดัชนี Pinecone เป็นที่เก็บข้อมูลหลัก คุณสามารถเรียกใช้คำสั่ง npm run dev เพื่อเริ่มต้นเซิร์ฟเวอร์การพัฒนาและดู webapp ในพื้นที่

โปรดทราบว่าบางตอนอาจไม่มีการถอดความภาษาอังกฤษอัตโนมัติและโครงการใช้วิธีการขูด HTML แบบแฮ็คสำหรับสิ่งนี้ดังนั้นทางออกที่ดีกว่าคือการใช้ Whisper เพื่อถ่ายโอนเสียงของตอน นอกจากนี้โครงการสนับสนุนการเรียงลำดับโดยความสัมพันธ์กับความเกี่ยวข้อง

แบบสอบถามตัวอย่าง

เสื้อกันหนาวกะเหรี่ยง
คำแนะนำที่ดีที่สุดสำหรับผู้ก่อตั้ง
เรื่องโป๊กเกอร์เมื่อคืนที่ผ่านมา
Crypto Scam Ponzi Scheme
เสื้อกันหนาวสุดหรู Chamath
Phil Helmuth
ความซื่อสัตย์ทางปัญญา
SBF FTX
มุมวิทยาศาสตร์

ภาพหน้าจอ

โหมดไฟเดสก์ท็อป เดสก์ท็อปโหมดมืด

มันทำงานอย่างไร

ภายใต้ประทุนมันใช้:

OpenAI-เรากำลังใช้โมเดลการฝังตัวที่ทำจากข้อความใหม่-ADA-002 ซึ่งรวบรวมข้อมูลที่ลึกซึ้งเกี่ยวกับข้อความในพื้นที่แฝงด้วยมิติ 1536
- สิ่งนี้ช่วยให้เราก้าวข้ามการค้นหาคำหลักและค้นหาตามหัวข้อระดับสูงกว่า
Pinecone - การค้นหาเวกเตอร์โฮสต์ซึ่งช่วยให้เราสามารถทำการค้นหา K -NN ได้อย่างมีประสิทธิภาพในการฝังตัวเหล่านี้
Vercel - ฟังก์ชั่นโฮสติ้งและ API
next.js - React Web Framework

เราใช้ node.js และ YouTube API V3 เพื่อดึงวิดีโอของเพลย์ลิสต์เป้าหมายของเรา ในกรณีนี้เรามุ่งเน้นไปที่เพลย์ลิสต์ตอนพอดคาสต์ All-in ซึ่งมีวิดีโอ 108 รายการในขณะที่เขียน

npx tsx src/bin/resolve-yt-playlist.ts

เราดาวน์โหลดการถอดเสียงภาษาอังกฤษสำหรับแต่ละตอนโดยใช้โซลูชันการขูด HTML HACKY เนื่องจาก YouTube API ไม่อนุญาตให้เข้าถึงคำบรรยายใต้ภาพที่ไม่ได้ใช้ OAUTH โปรดทราบว่าบางตอนไม่มีการถอดความภาษาอังกฤษอัตโนมัติดังนั้นเราจึงข้ามไปในขณะนี้ ทางออกที่ดีกว่าคือการใช้ Whisper เพื่อคัดลอกเสียงของแต่ละตอน

เมื่อเรามีการถอดเสียงทั้งหมดและข้อมูลเมตาดาวน์โหลดในท้องถิ่นเราจะประมวลผลการถอดเสียงของวิดีโอแต่ละรายการก่อนที่จะแบ่งเป็นชิ้นขนาดพอสมควรของโทเค็น ~ 100 และดึงมันเป็น embedding-ADA-002 ที่ฝังตัวจาก Openai ส่งผลให้ ~ 200 embeddings ต่อตอน

การฝังตัวทั้งหมดเหล่านี้จะถูกยกเข้าไปในดัชนีการค้นหา pinecone ที่มีมิติของ 1536 มี ~ 17,575 embeddings รวมทั้งหมด ~ 108 ตอนของพอดคาสต์ All-in

npx tsx src/bin/process-yt-playlist.ts

เมื่อตั้งค่าดัชนีการค้นหา pinecone ของเราแล้วเราสามารถเริ่มสอบถามได้ทั้งผ่าน WebApp หรือผ่านตัวอย่าง CLI:

npx tsx src/bin/query.ts

นอกจากนี้เรายังสนับสนุนการสร้างภาพขนาดย่อตามเวลาของวิดีโอ YouTube ทุกรายการในเพลย์ลิสต์ รูปขนาดย่อถูกสร้างขึ้นโดยใช้ puppeteer แบบไม่มีส่วนร่วมและอัปโหลดไปยัง Google Cloud Storage นอกจากนี้เรายังโพสต์ประมวลผลภาพขนาดย่อแต่ละรูปแบบด้วย LQIP-Modern เพื่อสร้างภาพตัวยึดตัวอย่างที่ดี

หากคุณต้องการสร้างภาพขนาดย่อ (ไม่บังคับ) ให้เรียกใช้:

npx tsx src/bin/generate-thumbnails.ts

โปรดทราบว่าการสร้างภาพขนาดย่อใช้เวลา ~ 2 ชั่วโมงและต้องใช้การเชื่อมต่ออินเทอร์เน็ตที่ค่อนข้างเสถียร

ส่วนหน้าเป็น next.js webapp ที่ปรับใช้กับ Vercel ที่ใช้ดัชนี Pinecone ของเราเป็นที่เก็บข้อมูลหลัก

สิ่งที่ต้องทำ

ใช้ Whisper เพื่อการถอดความที่ดีขึ้น
รองรับการเรียงลำดับโดย Recency Vs Relevancy

ข้อเสนอแนะ

มีความคิดเกี่ยวกับวิธีการปรับปรุง WebApp นี้หรือไม่? ค้นหาคำค้นหาที่สนุกสนานเป็นพิเศษ?

อย่าลังเลที่จะส่งข้อเสนอแนะให้ฉันไม่ว่าจะเป็น GitHub หรือ Twitter -

เครดิต

แรงบันดาลใจจากโครงการของ Riley Tomasek สำหรับการค้นหาช่อง Huberman YouTube
โปรดทราบว่าโครงการนี้ไม่ได้เป็นพันธมิตรกับพอดคาสต์ All-in มันเพียงแค่ดึงข้อมูลจากช่อง YouTube ของพวกเขาและประมวลผลโดยใช้ AI

ใบอนุญาต

หากคุณพบว่าโครงการนี้น่าสนใจโปรดพิจารณาสนับสนุนฉันหรือติดตามฉันทาง Twitter

ค่าใช้จ่าย API และเซิร์ฟเวอร์เพิ่มขึ้นเมื่อเวลาผ่านไปดังนั้นหากคุณสามารถสำรองไว้ได้การสนับสนุนจาก GitHub จะได้รับการชื่นชมอย่างมาก -

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-03-11
ขนาด 1.31MB
มาจาก Github

แอปที่เกี่ยวข้อง

yt channel downloader

2024-11-11
yt music archive

2024-11-11
YT DOW

2024-11-10
ค้นหาคำ 800

2024-11-08
azure search python samples

2024-11-05
yt dlp

2024-11-01

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด