هذا برنامج Python يقوم تلقائيًا بإنشاء "قائمة رهيبة" لكلمة رئيسية محددة كملف تخفيض. "قائمة رائعة" هي قائمة بالموارد المتعلقة بموضوع محدد. في الوقت الحالي ، تشمل الموارد مشاريع GitHub ، ومقالات الباحث العلمي من Google ، ومقاطع فيديو YouTube ، والدورات ، والشرائح والعروض التقديمية ، والبرامج والأدوات والبودكاست. يتم إنشاء القائمة الرائعة تلقائيًا باستخدام نماذج GPT ؛ يمكنك الاختيار بين النماذج المختلفة لإنشاء القائمة ، مثل GPT 3.5 أو GPT 4.
poetry install OPENAI_API_KEY=<your_openai_api_key>
حساب Google.
قم بزيارة وحدة التحكم السحابة من Google.
إذا لم تكن قد لم تقم بالفعل ، فقم بإنشاء مشروع جديد من خلال النقر فوق المنسدلة "SELECT A Project" في الزاوية العلوية اليمنى ، ثم انقر فوق "New Project".
بمجرد إنشاء مشروعك وتحديده ، انتقل إلى قائمة التنقل (ثلاثة خطوط أفقية في الزاوية العلوية اليسرى) ، ثم انقر على "APIs & Services"> "بيانات الاعتماد".
انقر على زر "إنشاء بيانات الاعتماد" وحدد "مفتاح API". بمجرد إنشائها ، سيتم عرض مفتاح API الخاص بك.
انسخ مفتاح API الخاص بك وحفظه بشكل آمن. ستستخدم هذا المفتاح في التطبيق الخاص بك لمصادقة طلباتك.
انتقل إلى صفحة Google Custom Search Homepage.
انقر فوق "إنشاء محرك بحث مخصص".
في قسم "المواقع إلى البحث" ، يمكنك تحديد مواقع الويب التي تريد البحث فيها أو اختيار "ابحث عن الويب بأكمله" للسماح بقدرات بحث أوسع. ومع ذلك ، إذا اخترت "ابحث عن الويب بأكمله" ، فتأكد من تبديل "البحث فقط عن المواقع" تحت قسم "المواقع إلى البحث".
املأ حقول أخرى مطلوبة مثل اسم محرك البحث الخاص بك.
انقر على زر "إنشاء" في الأسفل.
بمجرد إنشاء محرك البحث الخاص بك ، سيتم توجيهك إلى صفحة الإعداد. هنا ، ابحث ونسخ "معرف محرك البحث" (يسمى أيضًا "CX" في بعض السياقات). ستستخدم هذا المعرف في التطبيق الخاص بك لتحديد محرك البحث المخصص الذي يجب استخدامه للاستعلامات.
أخيرًا ، أضف متغيرات البيئة التالية إلى ملف .env:
GOOGLE_CLOUD_API_KEY='<google cloud api key>'
CUSTOM_SEARCH_ENGINE_ID='<custom search engine id>'
لقد قدمنا واجهة بديل لتشغيل هذا التطبيق. لاستخدامه:
قم بتشغيل تطبيق SPEREMLIT باستخدام الشعر:
poetry run streamlit run streamlit_run.py افتح http://localhost:8501
يمكنك بسهولة إدخال المعلمات اللازمة (مثل نوع النموذج والكلمة الرئيسية والوصف) من خلال واجهة المستخدم وإنشاء قائمتك الرائعة!
الطبقة الرئيسية المستخدمة في هذا المشروع هي AwesomeListGenerator . تقبل هذه الفئة المعلمات التالية:
keyword : سلسلة تمثل الكلمة الرئيسية التي سيتم إنشاء القائمة الرائعة لها.description : سلسلة توفر وصفًا يتعلق بالكلمة الرئيسية.model : سلسلة تمثل نموذج Openai المراد استخدامه لإنشاء تخفيض الطلب (الافتراضي هو "GPT-3.5-TURBO-16K").data_extraction_batch_size : يوجد عدد صحيح يمثل عدد عناصر البيانات للمعالجة في كل دفعة (افتراضي هو 10). على سبيل المثال ، إذا كان حجم الدُفعة 10 ، فسيتم جلب البيانات من مصادر البيانات على دفعات من 10 (مثل 10 مشاريع github في وقت واحد).number_of_results : عدد صحيح يمثل عدد النتائج التي يجب إحضارها من كل مصدر بيانات (الافتراضي هو 20). عدد النتائج التي يجب جلبها من كل مصدر بيانات (الافتراضي هو 20). على سبيل المثال ، جلب 20 مشاريع github ثم معالجتها باستخدام نموذج LLM على دفعات بناءً على data_extraction_batch_size. بعد تهيئة الفئة باستخدام هذه المعلمات ، استدعاء طريقة save_and_return_awesome_list لإنشاء ملف Markdown. هذا مثال:
# Initialize an instance of the AwesomeListGenerator
generator = AwesomeListGenerator ( keyword = "Your Keyword" ,
description = "Your Description" ,
model = "gpt-3.5-turbo-16k" ,
data_extraction_batch_size = 10 ,
number_of_results = 20 )
# Generate and save the markdown
markdown_content = generator . save_and_return_awesome_list () سيقوم البرنامج بإنشاء ملف Markdown في دليل output الذي تم تسميته على اسم كلمة الأمر الرئيسي (على سبيل المثال ، Your_Keyword.md ). يحتوي هذا الملف على "القائمة الرائعة" التي تم إنشاؤها بواسطة البرنامج.
يعمل برنامج AwesomeListGenerator في مرحلتين رئيسيتين: تجريد البيانات ومعالجة البيانات.
في مرحلة تجريف البيانات ، يجلب البرنامج موارد تتعلق بكلمة رئيسية مقدمة من مصادر بيانات متعددة. في الوقت الحالي ، تشمل الموارد مستودعات GitHub ، ومقالات الباحث العلمي من Google ، ومقاطع فيديو YouTube ، والبودكاست. يستخدم البرنامج كاشطات متخصصة لكل مصدر ، تم تصميم كل منها لجلب الموارد الأكثر صلة وأعلى جودة.
على سبيل المثال ، يجلب مكشطة Github مستودعات تتطابق مع الكلمة الرئيسية ، المرتبة بعدد النجوم (مؤشر شائع لأهمية المستودع وجودةها). وبالمثل ، يسترجع مكشطة الباحث العلمي من Google المقالات المتعلقة بالكلمة الرئيسية وفرزها عدد الاقتباس.
بمجرد إلغاء البيانات ، يتم تمريرها إلى مرحلة معالجة البيانات. في هذه المرحلة ، يستخدم البرنامج نموذج GPT المحدد لمعالجة الموارد التي تم جلبها. يقوم النموذج بتصفية الموارد وتصنيفها على أساس الصلة للكلمة الرئيسية وجودة المحتوى والفائدة المحتملة للمستخدمين. يقوم نموذج GPT أيضًا بتنظيم البيانات في قائمة تخفيضات ، مع إضافة التنسيق اللازم مثل الروابط والأوصاف الموجزة.
والجدير بالذكر أن كل من عمليات الكشط والمعالجة يتم تنفيذها على دفعات. تتيح هذه العملية الدُفعات للبرنامج دعم أكبر عدد ممكن من النتائج حسب الحاجة ، استنادًا إلى الرقم المكون number_of_results و data_extraction_batch_size . وبهذه الطريقة ، يمكنك التحكم في مدى المعالجة في كل مرة ، مما يضمن استخدام الموارد الفعال.
نتطلع إلى توسيع عدد مصادر البيانات في المستقبل. فيما يلي بعض الأفكار التي نضعها في الاعتبار:
إذا كنت مهتمًا بالمساهمة ، فيمكنك اختيار إحدى المهام المذكورة أعلاه أو اقتراح أفكارك الخاصة. نرحب بجميع أنواع المساهمات ونقدر اهتمامك بمشروعنا!
نحن نحب رؤية القوائم الرائعة المذهلة التي يخلقها مجتمعنا. إذا كنت قد استخدمت أداةنا لإنشاء قائمة رائعة ، فلا تتردد في إخبارنا ، وسنظهر مشروعك هنا!
هل وجدت هذا المشروع مفيدًا؟ إذا كان قد جلبت قيمة لك ، فيرجى إعطائنا على جيثب. لا تؤدي هذه الإيماءة إلى صحة جهودنا فحسب ، بل تساعد هذا المشروع أيضًا في الوصول إلى المزيد من الأشخاص ومواصلة التنمية.
لا تتردد في توتر المستودع ، أو المساهمة عن طريق تقديم طلبات السحب ، أو فتح مشكلة. ملاحظاتك ومساهماتك دائما موضع ترحيب!