Construction_Doc_Semantic_Search
1.0.0
هذا البرنامج النصي Python مصمم لاستخراج بيانات الموقع من النص غير المنسق لقدرة على قابلية قراءة الجهاز. مثال على ذلك ، يمكن أن يكون تطبيق معالجة التقارير المكتوبة بخط اليد التي تم مسحها ضوئيًا والرسائل المستخرجة من التقارير. يقرأ البرنامج النصي المحتويات الكاملة لملف نصي في متغير سلسلة ، ثم يستخدم نموذج معالجة اللغة الطبيعية GPT-3.5-Turbo من Openai للبحث في النص لبيانات الموقع. أولاً ، يقوم البرنامج النصي بتقسيم النص في علامة ثابتة ، ثم يبحث في عدد ثابت من الخطوط لبيانات الموقع باستخدام مفتاح تصنيف ثنائي مدعوم من GPT. إذا لم يجد أي بيانات موقع أو تنسيق PDF لا يتطابق مع التنسيق المفترض ، فإن البرنامج النصي يستخدم نموذج GPT للبحث في استخراج النص بالكامل للمواقع. الإخراج عبارة عن سلسلة تحتوي على بيانات الموقع الموجودة في النص.