تنزيل ScholarSense - تنزيل رمز المصدر ScholarSense

ScholarSense

شفرة المصدر الأخرى

v0.1.0-alpha

تنزيل

الباحثون: بناء نظام توصية الورق الخاص بك.

العلماء

جدول المحتويات

ما هو العلماء
كيف يتم التثبيت
كيف تفعل لاستخدامه
تطبيق SCHONARSENSENT STREMELIT
خط أنابيب
- الواجهة الخلفية البسيطة
- في الذاكرة الخلفية
- Qdrant الخلفية
أداة CliRsense CLI
- كشط
- تضمين
- فِهرِس
- التدفق
مراجع

ما هو العلماء

Scholarsense هي أداة تساعدك على العثور على الأوراق ذات الصلة التي يمكنك قراءتها بناءً على اهتماماتك. يسمح لك بالبحث عن الأوراق باستخدام استعلام. يستخدم نموذج لغة لتضمين معلومات الأوراق (العنوان ، الملخص ، إلخ) في مساحة متجه. بعد ذلك ، فهرسة تضمينات الأوراق في قاعدة بيانات متجه (في الذاكرة أو QDrant).

كيفية التثبيت

لتشغيل Scholarsense محليًا ، تحتاج إلى تثبيت البيئة الافتراضية وكذلك جميع التبعيات باستخدام Poetry Python Package Manager.

 poetry install

لتفعيل البيئة الافتراضية ، يمكنك تشغيل الأمر التالي:

 poetry shell

للتحقق من تنشيط البيئة الافتراضية ، يمكنك استيراد الحزمة وطباعة الإصدار:

 python -c "import scholarsense; print(scholarsense.__version__)"

كيف تفعل لاستخدامه

بعد تثبيت الحزمة ، قد تحتاج إلى إنشاء بنية المجلدات. يمكنك القيام بذلك عن طريق تشغيل الأمر التالي:
```
 ./bash/create_dirs.sh
```
يخلق الهيكل التالي:
```
 .
├── artifacts
│   ├── data
│   │   ├── csv
│   │   ├── json
|   └── embeddings
```
ثم ، تحتاج إلى إنشاء ملف تكوين. يمكنك استخدام ملف config.yaml كقالب. يمكنك تغيير الكلمات الرئيسية للبحث عنها.
يمكن استخدام هذه الأداة بطريقتين:
- استخدام أداة CLAINSENSES CLI التي تم شرحها في القسم التالي ،
- أو استخدام البرامج النصية في مجلد البرامج النصية.
يمكنك تشغيل البرامج النصية مباشرة من سطر الأوامر. على سبيل المثال ، لكشط الأوراق من Arxiv ، يمكنك تشغيل الأمر التالي:
```
 python scripts/run_scraping.py --config ./config/config.yaml --output_path ./artifacts/data/json --max_results 1000000
```
يمكنك أيضًا استخدام البرامج النصية باش في مجلد باش. على سبيل المثال ، لكشط الأوراق من Arxiv ، يمكنك تشغيل الأمر التالي:
```
 ./bash/scrap.sh
```

تطبيق SCHONARSENSENT STREMELIT

تطبيق SPEREMLIT هو تطبيق ويب يسمح لك بالبحث عن أوراق باستخدام استعلام. داخل واجهة المستخدم ، يمكنك إدخال استعلام في مربع النص والنقر فوق الزر "إرسال" للحصول على النتائج. يمكنك أيضًا طلب النتائج حسب التاريخ. يتم عرض النتائج كقائمة قابلة للتوسيع من الأوراق. كل ورقة لها عنوان وملخص ورابط لملف PDF.

العلماء

خط أنابيب

يقترح هذا الريبو ثلاثة مباريات خلفية لاستخدامها مع تطبيق SPEMANLIT: العلماء

الواجهة الخلفية البسيطة

هذه الواجهة الخلفية هي أبسط واحد. يستخدم ملف CSV يحتوي على معلومات الأوراق وملف مخلل يحتوي على تضمينات الأوراق. يحتوي ملف CSV على الأعمدة التالية:

title : عنوان الورقة.
abstract : ملخص الورقة.
pdf_url : عنوان URL لملف PDF.
id : معرف الورقة.

يحتوي ملف المخلل على مجموعة من الشكل (N ، D) ، حيث N هو عدد الأوراق و D هو بُعد التضمينات.

لاستخدام هذه الواجهة الخلفية ، يجب عليك استخدام الأوامر الثلاثة scrape embed streamlit . لمزيد من المعلومات حول هذه الأوامر ، يرجى الرجوع إلى قسم أداة CLI.

في الذاكرة الخلفية

تستخدم هذه الواجهة الخلفية ملفات JSON التي تحتوي على معلومات الأوراق وفهرس كل من الأوراق والتضمينات في قاعدة بيانات في الذاكرة. يتم حفظ الفهرس كملف .bin. لاستخدام هذه الواجهة الخلفية ، يجب عليك استخدام الأوامر الثلاثة scrape ، index ، و streamlit . لمزيد من المعلومات حول هذه الأوامر ، يرجى الرجوع إلى قسم أداة CLI.

Qdrant الخلفية

تستخدم هذه الواجهة الخلفية ملفات JSON التي تحتوي على معلومات الأوراق وفهرس كل من الأوراق والتضمينات في قاعدة بيانات QDrant. لاستخدام هذه الواجهة الخلفية ، يجب عليك استخدام الأوامر الثلاثة scrape ، index ، و streamlit . لمزيد من المعلومات حول هذه الأوامر ، يرجى الرجوع إلى قسم أداة CLI.

لتشغيل خادم QDrant ، يمكنك تشغيل الأمر التالي:

 docker-compose up -d

أداة CliRsense CLI

أبسط طريقة لاستخدام Scholarsense هي استخدام أداة CLI. يمكنك تشغيل الأمر التالي للحصول على رسالة المساعدة:

 scholarsense --help

تحتوي أداة CLI على أوامر foor:

scrape : لكشط الأوراق من Arxiv
embed : لتضمين الأوراق باستخدام نموذج محول الجملة أو نموذج AI Open
index : لتضمين وفهرسة الأوراق باستخدام قاعدة بيانات المتجهات (في الذاكرة أو QDrant)
streamlit : لتشغيل تطبيق STREMLIT والبحث عن الأوراق

كشط

لكشط الأوراق من Arxiv ، يمكنك تشغيل الأمر التالي:

 scholarsense scrape --help

يأخذ الأمر الوسائط التالية:

config : المسار إلى ملف تكوين YAML ، يحتوي على الكلمات الرئيسية للبحث عنها.
output_path : المسار إلى ملف الإخراج ، حيث سيتم حفظ الأوراق كملفات JSON.
max_results : الحد الأقصى لعدد الأوراق التي يجب كشطها لكل كلمة رئيسية ، الافتراضي هو 1000000.

تضمين

يتم استخدام هذا الأمر لتضمين الأوراق باستخدام نموذج محول الجملة أو نموذج AI Open. ثم يحفظ التضمينات في ملف المخلل. لتضمين الأوراق ، يمكنك تشغيل الأمر التالي:

 scholarsense embed --help

يأخذ الأمر الوسائط التالية:

input_path : المسار إلى ملف JSON يحتوي على الأوراق.
output_path : المسار إلى ملف الإخراج ، حيث سيتم حفظ الأوراق كملفات المخلل.
csv_file_path : مسار إلى ملف CSV ، حيث سيتم حفظ معلومات Pepers.
model_type : نوع النموذج المراد استخدامه ، إما sentence-transformers أو openai ، هو sentence-transformers .
model_name : اسم النموذج لاستخدام النوع المختار ، الافتراضي هو all-MiniLM-L6-v2 .
encoding_method : نوع طريقة الترميز لاستخدام {title ، الملخص ، concat ، إلخ} ، الافتراضي هو title .

فِهرِس

يتم استخدام هذا الأمر لتضمين الأوراق وفهرستها باستخدام قاعدة بيانات المتجه (في الذاكرة أو QDrant). لتضمين الأوراق وفهرسها ، يمكنك تشغيل الأمر التالي:

 scholarsense index --help

يأخذ الأمر الوسائط التالية:

db_path : المسار إلى ملفات JSON التي تحتوي على الأوراق.
model_type : نوع النموذج المراد استخدامه ، إما sentence-transformers أو openai ، هو sentence-transformers .
model_name : اسم النموذج لاستخدام النوع المختار ، الافتراضي هو all-MiniLM-L6-v2 .
encoding_method : نوع طريقة الترميز لاستخدام {title ، الملخص ، concat ، إلخ} ، الافتراضي هو title .
indexing_method : الطريقة التي يجب استخدامها لفهرسة الأوراق ، إما in-memory أو qdrant ، تكون الافتراضي in-memory .
host : مضيف خادم QDrant ، الافتراضي هو لا شيء.
port : منفذ خادم QDrant ، الافتراضي هو لا شيء.
collection_name : اسم المجموعة المراد استخدامها في QDrant ، الافتراضي هو لا شيء.
index_file_path : المسار إلى ملف الفهرس المحفوظ كملف .bin لفهرسة في الذاكرة ، لا شيء.

التدفق

يتم استخدام هذا الأمر لتشغيل تطبيق STREMLIT والبحث عن الأوراق. لتشغيل تطبيق SPEREMLIT ، يمكنك تشغيل الأمر التالي:

 scholarsense streamlit --help

يأخذ الأمر الوسائط التالية:

backend : الواجهة الخلفية لاستخدامها ، إما simple ، in-memory أو qdrant .
model_type : نوع النموذج المراد استخدامه ، إما sentence-transformers أو openai .
model_name : اسم النموذج لاستخدام النوع المختار.
encoding_method : نوع طريقة الترميز لاستخدام {title ، Abstract ، concat ، etc.}.
limit : الحد الأقصى لعدد الأوراق لعرضه.
collection_name : اسم المجموعة لاستخدامها في QDrant.
csv_file_path : مسار إلى ملف CSV يحتوي على معلومات الأوراق ، مفيدة إذا كنت تستخدم الواجهة الخلفية البسيطة.
embedding_file_path : المسار إلى ملف المخلل الذي يحتوي على التضمين ، مفيد إذا كنت تستخدم الواجهة الخلفية البسيطة.
index_file_path : المسار إلى ملف الفهرس المحفوظ كملف .bin لفهرسة في الذاكرة ، مفيد إذا كنت تستخدم الواجهة الخلفية في الذاكرة.

مراجع

ARXIV API
محول الجملة
Openai التضمين
Qdrant
التدفق
شبح

يوسع

معلومات إضافية

الإصدار v0.1.0-alpha
النوع شفرة المصدر الأخرى
وقت التحديث 2025-05-27
الحجم 370.83KB
من Github

تطبيقات ذات صلة

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل