gpt all local - gpt all local Source Code Download

gpt all local

شفرة المصدر الأخرى

1.0.0

تنزيل

باستخدام LLMS على البيانات الخاصة ، كل ذلك محليًا

هذا المشروع هو تمرين تعليمي حول استخدام نماذج اللغة الكبيرة (LLMS) لاسترداد المعلومات من البيانات الخاصة ، وتشغيل جميع القطع (بما في ذلك النموذج) محليًا. الهدف هو تشغيل LLM على جهاز الكمبيوتر الخاص بك لطرح أسئلة على مجموعة من الملفات أيضًا على جهاز الكمبيوتر الخاص بك. يمكن أن تكون الملفات أي نوع من المستندات ، مثل ملفات PDF أو Word أو Text Files.

تُعرف طريقة الجمع بين LLMs والبيانات الخاصة باسم الجيل المتمثل في الاسترجاع (RAG). تم تقديمه في هذه الورقة.

الائتمان عند مستحقه: لقد استندت إلى هذا المشروع على الخصوصية الأصلية (ما يسمونه الآن النسخة البدائية ). لقد قمت بإعداد القطع لفهم كيفية عملها. انظر المزيد في قسم المصادر.

ما نحاول تحقيقه: بالنظر إلى مجموعة من الملفات على جهاز كمبيوتر (أ) ، نريد نموذج لغة كبير (ب) يعمل على هذا الكمبيوتر للإجابة على الأسئلة (ج) عليها.

ما نحاول تحقيقه

ومع ذلك ، لا يمكننا إطعام الملفات مباشرة إلى النموذج. تحتوي نماذج اللغة الكبيرة (LLMS) على نافذة سياق يحد من مقدار المعلومات التي يمكننا إطعامها (ذاكرتها العاملة). للتغلب على هذا القيد ، نقوم بتقسيم الملفات إلى قطع أصغر ، تسمى القطع ، ونغذي فقط تلك ذات الصلة بالنموذج (D).

الحل الجزء 1

ولكن بعد ذلك ، يصبح السؤال "كيف نجد القطع ذات الصلة؟" . نستخدم البحث عن التشابه (E) لمطابقة السؤال والقطع. يتطلب البحث عن التشابه ، بدوره ، تضمينات متجه (F) ، وهو تمثيل للكلمات ذات المتجهات التي تشفر العلاقات الدلالية (من الناحية الفنية ، تضمّن المتجه الكثيف ، وليس الخلط بينه وبين تمثيلات المتجهات المتفرقة مثل حقيبة الكلمات و TF-IDF). بمجرد أن يكون لدينا القطع ذات الصلة ، فإننا نجمعها مع السؤال لإنشاء موجه (ز) يرشد LLM للإجابة على السؤال.

الحل الجزء 2

نحن بحاجة إلى قطعة أخيرة: التخزين المستمر. إنشاء التضمينات للقطع يستغرق وقتًا. لا نريد أن نفعل ذلك في كل مرة نطرح فيها سؤالاً. لذلك ، نحتاج إلى حفظ التضمينات والنص الأصلي (القطع) في متجر متجه (أو قاعدة بيانات) (H). يمكن أن ينمو متجر Vector بشكل كبير لأنه يخزن قطع النص الأصلية وتضمينات المتجهات. نستخدم فهرس المتجه (1) للعثور على القطع ذات الصلة بكفاءة.

الحل الجزء 3

الآن لدينا كل القطع التي نحتاجها.

يمكننا تقسيم التنفيذ إلى جزأين: تناول البيانات واستردادها.

الابتلاع: الهدف هو تقسيم الملفات المحلية إلى أجزاء أصغر تتناسب مع حجم إدخال LLM (نافذة السياق). نحتاج أيضًا إلى إنشاء تضمينات متجه لكل قطعة. تتيح لنا تضمينات المتجهات العثور على أكثر القطع ذات الصلة للمساعدة في الإجابة على السؤال. نظرًا لأن التثبيت والتضمين يستغرقان وقتًا ، نريد أن نفعل ذلك مرة واحدة فقط ، لذلك نقوم بحفظ النتائج في متجر متجه (قاعدة بيانات).
الاسترجاع: بالنظر إلى سؤال مستخدم ، نستخدم البحث عن التشابه للعثور على القطع الأكثر صلة (أي أجزاء الملفات المحلية المتعلقة بالسؤال). بمجرد تحديد القطع الأكثر صلة ، يمكننا استخدام LLM للإجابة على السؤال. للقيام بذلك ، نجمع بين سؤال المستخدم مع الأجزاء ذات الصلة وتوجيهات موجه LLM للإجابة على السؤال.

يتم توضيح هاتين الخطوتين في الرسم البياني التالي.

الابتلاع والاسترجاع

كيفية استخدام هذا المشروع

إذا لم تكن قد فعلت ذلك بعد ، فقم بإعداد البيئة. إذا كنت قد قمت بالفعل بإعداد البيئة ، فقم بتنشيطها باستخدام source venv/bin/activate .

هناك طريقتان لاستخدام هذا المشروع:

واجهة سطر الأوامر: استخدم هذا واحد لرؤية المزيد من السجلات وفهم ما يجري (انظر العلم --verbose أدناه).
تطبيق STREMLIT: استخدم هذا لتجربة أكثر سهولة في الاستخدام.

واجهة سطر الأوامر

انسخ الملفات التي تريد استخدامها في مجلد data .
قم بتشغيل python main.py ingest الملفات في متجر Vector.
تشغيل python main.py retrieve لاسترداد البيانات من متجر المتجهات. سوف يطالبك على سؤال.

استخدم علامة --verbose للحصول على مزيد من التفاصيل حول ما يفعله البرنامج وراء الكواليس.

لإعادة تأجيل البيانات ، قم بحذف مجلد vector_store وتشغيل python main.py ingest مرة أخرى.

تطبيق STERMELIT

قم بتشغيل streamlit run app.py سيفتح التطبيق في نافذة المتصفح.

قد يفشل هذا الأمر في أول قيام بتشغيله. هناك خلل في مكان ما في كيفية عمل بيئة Python مع Pyenv. إذا تُظهر SPERAMELIT "لا يمكن استيراد رسالة الوحدة النمطية" ، فقم بإلغاء تنشيط بيئة Python مع deactivate ، وتفعيلها مرة أخرى باستخدام source venv/bin/activate ، streamlit run app.py

تصميم

تناول البيانات

إذا لم تكن قد فعلت ذلك بعد ، فقم بإعداد البيئة. إذا كنت قد قمت بالفعل بإعداد البيئة ، فقم بتنشيطها باستخدام source venv/bin/activate .

الأمر: python main.py ingest [--verbose]

الهدف من هذه المرحلة هو جعل البيانات قابلة للبحث. ومع ذلك ، قد لا يتطابق سؤال المستخدم ومحتويات البيانات تمامًا. لذلك ، لا يمكننا استخدام محرك بحث بسيط. نحتاج إلى إجراء بحث عن التشابه بدعم من التضمينات المتجهات. التضمين المتجه هو الجزء الأكثر أهمية في هذه المرحلة.

إن تناول البيانات له الخطوات التالية:

قم بتحميل الملف: قارئ مستند يطابق نوع المستند يستخدم لتحميل الملف. في هذه المرحلة ، لدينا مجموعة من الأحرف مع محتويات الملف ("مستند" من الآن فصاعدًا). يتم تجاهل البيانات الوصفية ، الصور ، وما إلى ذلك.
تقسيم المستند إلى قطع: يقسم مستند فاصل المستند إلى أجزاء من الحجم المحدد. نحتاج إلى تقسيم المستند لتناسب حجم سياق النموذج (وإرسال عدد أقل من الرموز عند استخدام نموذج مدفوع). يعتمد الحجم الدقيق لكل قطعة على تقسيم المستند. على سبيل المثال ، يحاول فاصل الجملة الانقسام على مستوى الجملة ، مما يجعل بعض الأجزاء أصغر من الحجم المحدد.
قم بإنشاء تضمينات متجه لكل قطعة: ينشئ نموذج التضمين ناقلًا لكل قطعة. هذه هي الخطوة الحاسمة التي تسمح لنا بالعثور على أكثر القطع ذات الصلة للمساعدة في الإجابة على السؤال.
احفظ التضمينات في قاعدة بيانات المتجه (المتجر): استمر في كل العمل الذي قمنا به أعلاه ، لذلك لا يتعين علينا تكرارها في المستقبل.

التحسينات المستقبلية:

تحليل وثيقة أكثر ذكاء. على سبيل المثال ، لا تقم بخلط التسميات التوضيحية مع نص القسم ؛ لا تقم بتحليل القسم المرجعي (بدلاً من ذلك ، استبدل المراجع المضمنة بالنص المرجعي الفعلي).
تحسين التوازي. من الناحية المثالية ، نريد تشغيل سير العمل بأكمله (وثيقة تحميل ، قطعة ، تضمين ، مستمر) بالتوازي لكل ملف. يتطلب هذا حلًا لا يتوازى ليس فقط في مهام I/O ولكن أيضًا في مهام وحدة المعالجة المركزية. يجب أن يدعم متجر المتجهات أيضًا العديد من الكتاب.
جرب استراتيجيات التقطيع المختلفة ، على سبيل المثال ، تحقق مما إذا كانت الجملة المقسمة ( NLTKTextSplitter أو SpacyTextSplitter ) تحسين الإجابات.
اختر حجم الصراخ بناءً على حجم إدخال LLM (السياق). يتم ترميزه حاليًا إلى عدد صغير ، مما قد يؤثر على جودة النتائج. من ناحية أخرى ، فإنه يوفر التكاليف على واجهة برمجة تطبيقات LLM. نحن بحاجة إلى إيجاد توازن.
أتمتة عملية الابتلاع: اكتشف ما إذا كانت هناك ملفات جديدة أو تم تغييرها وتلغيها.

استرداد البيانات

إذا لم تكن قد فعلت ذلك بعد ، فقم بإعداد البيئة. إذا كنت قد قمت بالفعل بإعداد البيئة ، فقم بتنشيطها باستخدام source venv/bin/activate .

الأمر: python main.py retrieve [--verbose]

الهدف من هذه المرحلة هو استرداد المعلومات من البيانات المحلية. نحن نفعل ذلك عن طريق جلب أكثر القطع ذات الصلة من متجر المتجهات ودمجها مع سؤال المستخدم ومطالبة. يرشد المطالبة نموذج اللغة (LLM) للإجابة على السؤال.

استرداد البيانات له الخطوات التالية:

ابحث عن أكثر القطع ذات الصلة: تم الاستعلام عن متجر Vector للعثور على القطع الأكثر صلة بالسؤال.
الجمع بين القطع مع السؤال ومطالبة: يتم دمج القطع مع السؤال ومطالبة. يرشد المطالبة LLM للإجابة على السؤال.
أرسل النص المشترك إلى LLM: يتم إرسال النص المشترك إلى LLM للحصول على الإجابة.

التحسينات المستقبلية:

أضف عمليات الاسترجاعات Langchain لعرض خطوات عملية الاسترجاع.
تحسين مطالبة الإجابة فقط بما هو موجود في المستندات المحلية ، على سبيل المثال ، "استخدم فقط المعلومات من المستندات التالية: ...". بدون هذه الخطوة ، يبدو أن النموذج يحلم بإجابة من بيانات التدريب ، والتي ليست ذات صلة دائمًا.
إضافة الاعتدال لتصفية الإجابات الهجومية.
قم بتحسين الإجابات باستخدام Reranking: "قم بإلغاء تحديد نتائج البحث لدينا ، ثم Rerank بشكل حتمي استنادًا إلى معدّل أو مجموعة من المعدلات." .
جرب أنواع سلسلة مختلفة (تتعلق بالنقطة السابقة).

تحسين النتائج

اضطررنا إلى تقديم بعض التسويات لجعله يعمل على جهاز محلي في فترة زمنية معقولة.

نستخدم نموذج صغير. من الصعب تغيير هذا واحد. يجب أن يعمل النموذج على وحدة المعالجة المركزية وتناسب الذاكرة.
نستخدم حجم التضمين الصغير. يمكننا زيادة حجم التضمين إذا الانتظار لفترة أطول لعملية الابتلاع.
حافظ على كل شيء على حاله وجرب سلاسل مختلفة.

مصادر

يعتمد معظم رمز الاستعداد/الاسترداد على الخصوصية الأصلية ، الرمز الذي يسمونه الآن البدائية .

ما هو مختلف:

تطبيق STREMLIT لواجهة المستخدم.
استخدم تضمينات أحدث وإصدارات نموذج اللغة الكبيرة.
تحديث رمز بيثون. على سبيل المثال ، يستخدم pathlib بدلاً من os.path وله تسجيل مناسب بدلاً من عبارات الطباعة.
تمت إضافة المزيد من التسجيل لفهم ما يجري. استخدم علامة --verbose لمعرفة التفاصيل.
تمت إضافة برنامج رئيسي لتشغيل خطوات الاستيعاب/استرداد.
ملء في requirements.txt مع التبعيات غير المباشرة ، على سبيل المثال ، لمحولات Luggingface ووادر مستند Langchain.

راجع هذا الملف لمزيد من الملاحظات التي تم جمعها أثناء تطوير هذا المشروع.

إعداد البيئة

هذه خطوة لمرة واحدة. إذا كنت قد قمت بذلك بالفعل ، فما عليك سوى تنشيط البيئة الافتراضية باستخدام source venv/bin/activate .

بيئة بيثون

قم بتشغيل الأوامر التالية لإنشاء بيئة افتراضية وتثبيت الحزم المطلوبة.

python3 -m venv venv
source venv/bin/activate
pip install --upgrade pip
pip install -r requirements.txt

PDF تحليل

محلل PDF في unstructured هو طبقة أعلى حزم المحلل الفعلي. اتبع الإرشادات الواردة في readme unstructured ، تحت الرصاص "تثبيت تبعيات النظام التالية". حزم poppler و tesseract مطلوبة (تجاهل الآخرين).

نموذج

أقترح البدء بنموذج صغير يعمل على وحدة المعالجة المركزية. GPT4ALL لديه قائمة من النماذج هنا. لقد اختبرت مع MISTRAL-7B-Openorca Q4. يتطلب 8 غيغابايت من ذاكرة الوصول العشوائي للركض. لاحظ أن بعض النماذج لديها تراخيص تقييدية. تحقق من الترخيص قبل استخدامها في المشاريع التجارية.

إنشاء مجلد يسمى models .
انقر هنا لتنزيل MISTRAL 7B Openorca (3.8 GB Download ، 8 GB RAM).
انسخ النموذج إلى مجلد models .

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-05-24
الحجم 220.18KB
من Github

تطبيقات ذات صلة

أحدث نسخة من GPT للسينما والتلفزيون

2023-10-30
الحب في كل مكان

2023-10-24
كل إي

2022-09-02
كل يوم يموت

2022-08-23
تدمير جميع البشر

2022-08-10
مستيقظين طوال الليل

2022-07-24

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل