pypi scout Download - تنزيل رمز المصدر pypi scout

pypi scout

شفرة المصدر الأخرى

1.0.0

تنزيل

جربه على pypiscout.com

ماذا يفعل هذا؟

يمكن أن يكون العثور على حزمة Python المناسبة على PYPI أمرًا صعبًا بعض الشيء ، لأن PYPI غير مصمم حقًا لاكتشاف الحزم بسهولة. على سبيل المثال ، يمكنك البحث عن كلمة "مؤامرة" والحصول على قائمة بمئات الحزم التي تحتوي على كلمة "مؤامرة" بترتيب عشوائي على ما يبدو.

مستوحاة من منشور المدونة هذا حول العثور على مقالات Arxiv باستخدام ضمانات Vector ، قررت إنشاء تطبيق صغير يساعدك على العثور على حزم Python مع نهج مماثل. على سبيل المثال ، يمكنك أن تسألها "أريد أن أصنع مؤامرات وتصورات لطيفة" ، وسوف يوفر لك قائمة قصيرة من الحزم التي يمكن أن تساعدك في ذلك.

كيف يعمل هذا؟

يعمل المشروع من خلال جمع ملخصات المشروع والأوصاف لجميع الحزم على PYPI مع أكثر من 100 تنزيل أسبوعي. ثم يتم تحويلها إلى تمثيلات متجه باستخدام محولات الجملة. عندما يدخل المستخدم استعلامًا ، يتم تحويله إلى تمثيل متجه ، ويتم جلب أوصاف الحزمة الأكثر تشابهًا من قاعدة بيانات المتجه. يتم إعطاء وزن إضافي لكمية التنزيلات الأسبوعية قبل تقديم النتائج إلى المستخدم في لوحة القيادة.

كومة

يستخدم المشروع التقنيات التالية:

fastapi لخلفية API
NextJS و Tailwindcss للواجهة الأمامية
محولات الجملة لتضمينات المتجهات

ابدء

بناء وإعداد

1. (اختياري) إنشاء ملف `.env`

بشكل افتراضي ، سيتم تخزين جميع البيانات على جهازك المحلي. من الممكن أيضًا تخزين بيانات API على تخزين Azure Blob ، وقراءة API من هناك. للقيام بذلك ، قم بإنشاء ملف .env :

cp .env.template .env

وملء الحقول المطلوبة.

2. قم بتشغيل البرنامج النصي الإعداد

سوف البرنامج النصي الإعداد:

قم بتنزيل ومعالجة مجموعة بيانات PYPI وتخزين النتائج في دليل data .
قم بإنشاء تضمينات متجه لمجموعة بيانات PYPI.
إذا تم تعيين متغير بيئة STORAGE_BACKEND على BLOB : قم بتحميل مجموعات البيانات إلى تخزين blob.

هناك ثلاث طرق لتشغيل البرنامج النصي للإعداد ، يعتمد على ما إذا كان لديك NVIDIA GPU ومجموعة أدوات حاوية NVIDIA مثبتة. يرجى تشغيل البرنامج النصي الإعداد باستخدام الطريقة القابلة للتطبيق بالنسبة لك:

الخيار 1: استخدام الشعر
الخيار 2: استخدام Docker مع Nvidia GPU و NVIDIA Container Toolkit
الخيار 3: استخدام Docker بدون NVIDIA GPU و NVIDIA Container Toolkit

ملحوظة

تحتوي مجموعة البيانات على حوالي 100.000 حزمة على PYPI مع أكثر من 100 تنزيل أسبوعي. لتسريع التطوير المحلي ، يمكنك خفض كمية الحزم التي تتم معالجتها محليًا عن طريق خفض قيمة FRAC_DATA_TO_INCLUDE في pypi_scout/config.py .

3. قم بتشغيل التطبيق

ابدأ التطبيق باستخدام Docker Compose:

docker-compose up

بعد فترة قصيرة ، سيكون طلبك مباشرًا على http: // localhost: 3000.

بيانات

يتم إنشاء مجموعة البيانات لهذا المشروع باستخدام مجموعة بيانات PYPI على Google BigQuery. يمكن العثور على استعلام SQL المستخدم في pypi_bigquery.sql. تتوفر مجموعة البيانات الناتجة كملف CSV على Google Drive.

يوسع

معلومات إضافية