yt semantic search Download - yt semantic search Source Code Download

yt semantic search

شفرة المصدر الأخرى

1.0.0

تنزيل

ابحث في البودكاست الكل في AI

YouTube البحث الدلالي

البحث الدلالي الذي يعمل بنفط Openai عن أي قائمة تشغيل على YouTube-يتميز ببودكاست الكل في

مقدمة
كيف تبدأ
مثال على الاستفسارات
لقطات الشاشة
كيف تعمل
تودو
تعليق
ائتمان
رخصة

مقدمة

أنا أحب البودكاست الكل في. لكن البحث والاكتشاف مع البودكاست يمكن أن يكون تحديا حقا.

لقد قمت ببناء هذا المشروع لحل هذه المشكلة ... وأردت أيضًا أن ألعب مع أشياء Cool AI. ؟

يستخدم هذا المشروع أحدث النماذج من Openai لإنشاء فهرس البحث الدلالي عبر كل حلقة من POD. يتيح لك العثور على لحظاتك المفضلة بدقة مستوى Google وإعادة مشاهدة المقاطع الدقيقة التي تهتم بها.

يمكنك استخدامه لتطوير البحث المتقدم عبر أي قناة أو قائمة تشغيل على YouTube . يستخدم العرض التوضيحي البودكاست الكل لأنه المفضل لدي؟ ، لكنه مصمم للعمل مع أي قائمة تشغيل.

كيف تبدأ

استنساخ المستودع إلى جهازك المحلي.
انتقل إلى دليل الجذر للمستودع في المحطة الخاصة بك.
قم بتشغيل Command npm install لتثبيت جميع التبعيات اللازمة.
قم بتشغيل الأمر npx tsx src/bin/resolve-yt-playlist.ts لتنزيل النصوص الإنجليزية لكل حلقة من قائمة التشغيل الهدف (في هذه الحالة ، قائمة تشغيل حلقات البودكاست).
قم بتشغيل الأمر npx tsx src/bin/process-yt-playlist.ts للمعالجة المسبقة للنصوص وجلب التضمينات من Openai ، ثم أدخلها في فهرس البحث pinecone.
يمكنك الآن تشغيل الأمر npx tsx src/bin/query.ts للاستعلام عن فهرس البحث Pinecone. (اختياري) قم بتشغيل الأمر npx tsx src/bin/generate-thumbnails.ts لإنشاء صور مصغرة من كل مقطع فيديو في قائمة التشغيل. تستغرق هذه الخطوة ~ ساعتين وتتطلب اتصال إنترنت مستقر.
الواجهة الأمامية للمشروع هي webapp next.js التي تم نشرها على Vercel والتي تستخدم فهرس Pinecone كمخزن بيانات أساسي. يمكنك تشغيل الأمر NPM Run Dev لبدء خادم التطوير وعرض WebApp محليًا.

لاحظ أن بعض الحلقات قد لا تحتوي على نسخ آلية للإنجليزية ، وأن المشروع يستخدم حل كشط HTML المتسلل لهذا ، وبالتالي فإن الحل الأفضل هو استخدام Whisper لنسخ صوت الحلقة. أيضا ، دعم المشروع فرز حسب الحداثة مقابل الصلة.

مثال على الاستفسارات

سترة كارين
أفضل نصيحة للمؤسسين
قصة البوكر من الليلة الماضية
مخطط الاحتيال
سترة فاخرة شاماث
فيل هيلموث
الصدق الفكري
SBF ftx
ركن العلوم

لقطات الشاشة

وضع ضوء سطح المكتب وضع سطح المكتب الظلام

كيف تعمل

تحت الغطاء ، يستخدم:

Openai-نحن نستخدم نموذج التضمين الجديد لـ Embedding -ADA-002 ، والذي يلتقط معلومات أعمق حول النص في مساحة كامنة بأبعاد 1536
- يتيح لنا ذلك تجاوز البحث عن الكلمات الرئيسية والبحث عن طريق مواضيع المستوى الأعلى.
Pinecone - البحث المتجه المستضاف والذي يمكّننا من إجراء عمليات البحث K -NN بكفاءة عبر هذه التضمينات
Vercel - وظائف الاستضافة و API
next.js - رد فعل إطار عمل الويب

نستخدم Node.js و youtube API V3 لجلب مقاطع الفيديو الخاصة بقائمة التشغيل المستهدفة الخاصة بنا. في هذه الحالة ، نركز على قائمة تشغيل حلقات البودكاست ، والتي تحتوي على 108 مقطع فيديو في وقت كتابة هذا التقرير.

npx tsx src/bin/resolve-yt-playlist.ts

نقوم بتنزيل النصوص الإنجليزية لكل حلقة باستخدام حل Drassing HTML HTML ، نظرًا لأن واجهة برمجة تطبيقات YouTube لا تسمح بالوصول إلى التسميات التوضيحية. لاحظ أن بعض الحلقات لا تتوفر نسخًا آلية للإنجليزية ، لذلك نحن فقط نتخطىها في الوقت الحالي. سيكون الحل الأفضل هو استخدام Whisper لنسخ صوت كل حلقة.

بمجرد أن يتم تنزيل جميع النصوص والبيانات الوصفية محليًا ، نقوم بتجهيز نسخ كل فيديو مسبقًا ، ونقسمها إلى قطع بحجم معقولة من ~ 100 رمز ونحضر التضمين Embedding-ADA-002 من Openai. وهذا يؤدي إلى ~ 200 تضمين لكل حلقة.

ثم يتم تناقض كل هذه التضمينات في مؤشر بحث بينيكون مع أبعاد قدره 1536. هناك حوالي 17575 تدمير في المجموع عبر 108 حلقات من البودكاست الكل.

npx tsx src/bin/process-yt-playlist.ts

بمجرد إعداد فهرس البحث Pinecone الخاص بنا ، يمكننا البدء في الاستعلام عنه إما عبر WebApp أو عبر مثال CLI:

npx tsx src/bin/query.ts

نحن ندعم أيضًا توليد الصور المصغرة المستندة إلى الطابع الزمني لكل فيديو على YouTube في قائمة التشغيل. يتم إنشاء Thumbnails باستخدام Puppeteer مقطوعة الرأس ويتم تحميلها على تخزين السحابة Google. نحن أيضًا نتعامل مع كل صورة مصغرة مع LQIP-Modeter لإنشاء صور نائبة معاينة لطيفة.

إذا كنت ترغب في إنشاء صور مصغرة (اختيارية) ، قم بتشغيل:

npx tsx src/bin/generate-thumbnails.ts

لاحظ أن توليد الصورة المصغرة يستغرق حوالي ساعتين ويتطلب اتصال إنترنت مستقر للغاية.

الواجهة الأمامية هي webapp next.js تم نشرها في Vercel والتي تستخدم فهرس Pinecone الخاص بنا كمخزن بيانات أساسي.

تودو

استخدم الهمس للحصول على نسخ أفضل
دعم الفرز عن طريق الحداثة مقابل الصلة

تعليق

هل لديك فكرة عن كيفية تحسين هذا webapp؟ هل تجد استعلام بحث ممتع بشكل خاص؟

لا تتردد في إرسال ملاحظات لي ، إما على Github أو Twitter. ؟

ائتمان

مستوحى من مشروع رايلي توماسيك للبحث في قناة هوبرمان يوتيوب
لاحظ أن هذا المشروع لا ينتمي إلى البودكاست الكل. إنه يسحب البيانات فقط من قناة YouTube الخاصة بهم ويعالجها باستخدام الذكاء الاصطناعي.

رخصة

إذا وجدت هذا المشروع مثيرًا للاهتمام ، فيرجى التفكير في رعايتي أو متابعتي على Twitter

تضيف تكاليف API وتكاليف الخادم مع مرور الوقت ، لذلك إذا كنت تستطيع تجنيبها ، فإن الرعاية على Github موضع تقدير كبير. ؟

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-03-11
الحجم 1.31MB
من Github

تطبيقات ذات صلة

yt channel downloader

2024-11-11
yt music archive

2024-11-11
YT DOW

2024-11-10
كلمة البحث 800

2024-11-08
azure search python samples

2024-11-05
yt dlp

2024-11-01

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل