تم تصميم هذا المشروع المنزلي في إطار زمني أقل من 72 ساعة ، ويكون بمثابة خطوة في عملية التوظيف لدور MLOPS كبير.
PDF Bundle هي أداة مصممة لاستخراج النص من مستندات PDF المخزنة في دلو AWS S3 ، وتحطيم هذه المستندات إلى قطع أصغر ، وتوليد تضمينات ناقلات باستخدام محول الجملة. ثم يتم تخزين هذه التضمينات في قاعدة بيانات متجه Pinecone للتخزين والاسترجاع الفعال.
توفر حزمة PDF واجهة سهلة الاستخدام من خلال Fastapi. تسهل نقطة النهاية query_search عمليات البحث المستندة إلى الموجهات ، مما يسمح للمستخدمين بإدخال استعلامات واسترداد بسرعة التضمينات المتجهات الأكثر تشابهًا. يتم تحديد هذا التشابه باستخدام تشابه جيب التمام ، وهو مقياس يلتقط التشابه الدلالي بين المتجهات. أثناء تبسيط استجابة قابلية الاستخدام ، يضمن حزمة PDF الشفافية عن طريق تحميل الاستجابات التفصيلية تلقائيًا على دلو S3. من خلال تكامله السلس ووظائفه القوية ، تكشف حزمة PDF بكفاءة عن تضمينات المتجهات الأكثر تشابهًا.
تأكد من أن خادم API PDF Bundle يعمل على الخادم التالي:
يتم نشر التطبيق ويمكن الوصول إليه على: السكك الحديدية.
تحذير: تأخير مجاني للمثال
يرجى ملاحظة أن الحالة المجانية التي توفرها Render قد تواجه الدوران بسبب عدم النشاط. قد يؤدي هذا إلى تأخير 50 ثانية أو أكثر عند معالجة الطلبات. يرجى التحلي بالصبر بينما يحاول متصفح الويب تحميل الصفحة.
أرسل طلبًا نشرًا إلى نقطة نهاية API /query_search مع حمولة JSON التالية:
{
"prompt" : " your_user_defined_prompt " ,
"n_top" : 5
} استبدل "your_user_defined_prompt" بالمطالبة التي تريد استخدامها ، "n_top" مع عدد التضمينات المماثلة التي تريد استردادها استنادًا إلى جيب التمام.
الحصول على استجابة تحتوي على أكثر التضمينات مماثلة لمطالبة المقدمة.
المساهمات مرحب بها! لا تتردد في تقديم طلب سحب أو فتح مشكلة إذا واجهت أي أخطاء أو لديك اقتراحات للتحسينات.
للحصول على أي استفسارات أو دعم ، يرجى الاتصال بـ [email protected]