revery تنزيل - revery تنزيل رمز المصدر

revery

شفرة المصدر الأخرى

1.0.0

تنزيل

استعاد؟

Revery هو محرك بحث دلالي يعمل على مؤشر البحث Monocle الخاص بي. على الرغم من أن Revery يتيح لي البحث من خلال نفس قاعدة البيانات لعشرات الآلاف من الملاحظات ، والإشارات المرجعية ، وإدخالات المجلات ، والتغريدات ، وجهات الاتصال ، ومشاركات المدونة كمونوكلي ، فإن تركيز Revery ليس على البحث القائم على الكلمات الرئيسية التي يؤديها Monocle ، ولكن بدلاً من ذلك على البحث الدلالي -العثور على نتائج تشبه إلى حد ما لبعض صفحة الويب أو الاستعلام المحددة ، حتى لو لم تشارك نفس الكلمات. يتوفر كملحق متصفح يمكن أن يبرز النتائج ذات الصلة إلى الصفحة الحالية ، بالإضافة إلى تطبيق ويب أكثر قياسيًا يشبه صفحة البحث في Monocle.

امتداد متصفح Revery وواجهة الويب تعمل على جهاز iPad وجهاز كمبيوتر محمول

على عكس معظم مشاريعي الجانبية ، بسبب حجم البيانات وكمية العمل الحسابي الذي يتطلبه الأمر ، يتم كتابة الواجهة الخلفية في GO. تم تصميم كل من العملاء - تطبيق الويب وملحق المتصفح - مع Torus.

على الرغم من أنه يعمل بشكل جيد بما يكفي لاستخدامه كل يوم ، إلا أن Revery هو نموذج أولي من إثبات المفهوم من المنتج النهائي. أردت أن أثبت أنه يمكن بناء أداة كهذه للاستخدام الشخصي أعلى أدوات الإنتاجية الشخصية مثل الملاحظات والإشارات المرجعية ، وتجربة ما سيكون عليه تصفح الويب والكتابة بهذه الأداة.

سمات

REDERY ، في جوهرها ، هي مجرد واجهة برمجة تطبيقات واحدة. يأخذ واجهة برمجة التطبيقات في بعض النصوص ، وينزح من خلال مجموعتي من المستندات والملاحظات الشخصية للعثور على أعلى الدرجات التي تبدو أكثر ارتباطًا بالنص المحدد. لجعل هذا الأمر مثيرًا للاهتمام للاستخدام ، قمت بلفه في واجهتين مختلفتين: امتداد المتصفح ، وواجهة بحث أكثر قياسية على الويب.

تمديد المتصفح

Ctrl-Shift-L امتداد المتصفح REDERY في الداخل ./extension

امتداد متصفح REDERY يعرض قائمة بالنتائج ذات الصلة

عندما يكون Monocle ، مع خوارزمية البحث المستندة إلى الكلمات الرئيسية ، مفيدًا للتذكر ، فقد وجدت امتدادًا كبيرًا لاستكشافات حول موضوع معين . إذا كنت أقرأ عن معالجة اللغة الطبيعية ، على سبيل المثال ، يمكنني الوصول إلى بعض ضربات المفاتيح لإظهار مقالات أخرى قرأتها ، أو الملاحظات التي أخذتها في الماضي ، والتي يمكنني الرجوع إليها عقلياً أثناء قراءة وأتعرف على الأفكار الجديدة في NLP.

نتعلم أفضل أفكار جديدة عندما نتمكن من العثور على النقاط المرجعية الحالية في ذاكرتنا والتي يمكننا إرفاق معلومات جديدة عليها. يعد امتداد Revery أتمتة ويسرع هذه المهمة جزئيًا. على سبيل المثال ، أثناء قراءة مقال عن الوضع الثقافي والاقتصادي الفريد لكوريا الجنوبية في العالم ، ظهرت على عدد قليل من النشرات الإخبارية والمقالات ذات الصلة من مؤلفين ومصادر مختلفة تمامًا عن ثقافة البوب الكورية وانخفاض سكانها ، مما ساعدني على تأطير ما كنت أقرأه في سياق أكثر إدراكًا ومستفيدًا.

واجهة الويب

واجهة بحث الويب ، بالنسبة لي ، هي ثانوية قليلاً للتمديد. إنه موجود في المقام الأول كدليل على التكنولوجيا الأساسية لـ Revery ، وكذلك بالمناسبة كوسيلة بالنسبة لي لاستخدام REDERY عندما لا يكون التمديد متاحًا (مثل متصفح الهاتف المحمول).

تعرض واجهة الويب الخاصة بـ Revery قائمة بالنتائج

يمكن أن يأخذ شريط البحث في واجهة الويب إما عنوان URL أو عبارة رئيسية. بالنظر إلى عنوان URL (كما في لقطة الشاشة أعلاه) ، ستقوم Revery بتنزيل وقراءة صفحة الويب نفسها للعثور على المستندات ذات الصلة في فهرس البحث. بالنظر إلى عبارة رئيسية ، ستحاول Revery اقتراح مستندات تحتوي على كلمات مماثلة وتتحدث عن مواضيع مماثلة.

يعد هذا النوع من واجهة البحث (على عكس التمديد) مفيدًا بالنسبة لي لبدء التفكير في شيء جديد ، حيث يمكنني كتابة قائمة بالكلمات ذات الصلة في مربع البحث والحصول على قائمة بالأفكار والمستندات التي أعرفها على الفور ، دون الاضطرار إلى تصميم استعلامات البحث المحددة والمصممة جيدًا التي تتطلب محركات البحث القائمة على الكلمات الرئيسية مثل Monocle.

كيف تعمل

كما ذكر أعلاه ، فإن REDERY's Core هي نقطة نهاية API واحدة تأخذ في بعض المستندات وتُرجع قائمة بأكثر المستندات ذات الصلة من فهرس البحث الخاص بي. ما يجعل REDERY مميزًا هو أن واجهة برمجة التطبيقات هذه تقوم ببحث دلالي ، وليس مجرد فحص لمطابقة الكلمات الرئيسية. هذا يعني أن النتائج العليا قد لا تحتوي حتى على نفس الكلمات مثل الاستعلام ، طالما أن محتوياته ذات صلة موضعيا.

يتم تمكين هذا النوع من البحث الدلالي من خلال خوارزمية البحث التي تستخدم تشابه جيب التمام لتضمينات المستندات الكتلة للمستندات المفهرسة. إذا كان هذا يبدو وكأنه حفنة من الكلمات العشوائية لك (كما فعلت بالنسبة لي عندما بدأت هذا المشروع) ، دعني أتقسمه:

أولاً ، سنحتاج إلى فهم تضمينات الكلمات . تعد كلمة تضمينها وسيلة لتخطيط مفردات من كلمات اللغة الطبيعية إلى بعض النقاط في الفضاء (عادةً ما تكون مساحة رياضية عالية الأبعاد) ، بحيث تكون الكلمات المتشابهة في المعنى قريبة معًا في هذا الفضاء. على سبيل المثال ، ستكون كلمة "العلم" في كلمة تضمينها قريبة جدًا من كلمة "عالم" ، قريبة بشكل معقول من "البحث" ، ومن المحتمل أن تكون بعيدة جدًا عن "Circus". عندما نتحدث عن "المسافة" في سياق تضمينات الكلمات ، عادة ما نستخدم تشابه جيب التمام بدلاً من المسافة الإقليدية ، لأسباب تجريبية ونظرية على حد سواء لن أغطيها هنا.

على الرغم من أن مفهوم تضمينات الكلمات ليس بالأمر الجديد للغاية ، إلا أنه لا يزال هناك بحث نشط ينتج طرقًا جديدة لتوليد المزيد من تضمينات الكلمات الدقة والمفيدة من نفس مجموعة البيانات. يستخدم نشري الشخصي لـ REDERY مجموعة بيانات تضمين الكلمات المرخصة من Creative Commons التي تنتجها أداة FastText على Facebook ، وتحديداً مجموعة بيانات مكونة من 50000 كلمة مع 300 أبعاد مدربة على مجموعة الزحف المشتركة.

دعنا نطالب الكلمات التي ترسم استنتاجات حول الكلمات ذات الصلة ، ولكن من أجل العودة ، نريد أن نرسم نفس النوع من الاستدلال حول المستندات ، والتي هي قائمة بالكلمات. لحسن الحظ ، هناك أدبيات وافرة تشير إلى أن مجرد أخذ متوسط مرجح من ناقلات الكلمات لكل كلمة في المستند يمكن أن تجعلنا تقريبا جيدا لـ "متجه المستند" الذي يمثل المستند ككل. على الرغم من أن هناك طرقًا أكثر تقدمًا يمكننا استخدامها ، مثل متجهات الفقرة أو النماذج التي تأخذ ترتيب الكلمات في الاعتبار مثل Bert ، فإن متوسط ناقلات الكلمات تعمل بشكل جيد بما يكفي من أجل استخدام حالات استخدام ، وبسيطة في التنفيذ واختبارها ، لذلك تتمسك بهذا النهج.

بمجرد أن نتمكن من إنشاء متجهات المستندات خارج المستندات باستخدام تضمين كلماتنا ، فإن بقية الخوارزمية تقع في مكانها. في بدء التشغيل ، تقوم REPY'S API Server بفهارس وإنشاء متجهات المستندات لجميع المستندات التي يمكن أن تجدها في مجموعة البيانات الخاصة بي (وهي ليست كبيرة جدًا - حوالي 25000 وقت في كتابة هذا التقرير) ، وعلى كل طلب ، تقوم الخوارزمية بحساب ناقل المستند للوثيقة المطلوبة ، وفرز كل مستند في مؤشر البحث عن طريق مسافة مسافة التجميل إلى وثيقة الفاصل ، لإرجاع بعض النتائج.

في غضون عودة ، كل جزء من هذه الخوارزمية مكتوب يدويًا. هذا لعدة أسباب:

أردت أن أشجع نفسي على فهم هذه الخوارزميات الأساسية للتجارة بالكامل ، من خلال كتابة الكود بنفسي
يتم توفير معظم المكتبات مفتوحة المصدر للقيام بهذا النوع من الحساب في حزم بيثون ، وليس لدي بنية تحتية شخصية رائعة لنشر تطبيق Python والحفاظ عليه.
GO سريع بما فيه الكفاية ، قصصية ، لهذه المهمة.

كل من عملاء REDERY - الامتداد وتطبيق الويب - يتحدثون إلى نقطة نهاية API الفردية هذه. العملاء أنفسهم عاديون تمامًا ، لذلك لن أخوض في التفاصيل واصفًا كيف يعملون هنا.

التنمية والانتشار

هنا ، ينطبق نفس إخلاء المسؤولية التي شاركتها مع Monocle:

️ ملاحظة : إذا كنت تقرأ هذا القسم لمحاولة إعداد وتشغيل مثيل REDERY الخاص بك ، فأنا أشيد بجرأتك ، ولكن قد لا يكون الأمر سهلاً أو مثمرًا - يعد إعداد Revery (خاصة على جانب البيانات وفهرسة) محددًا تمامًا ليس فقط لمصادر البيانات الخاصة بي ، ولكن أيضًا الطريقة التي أقوم بإنشائها في تلك الملفات. لن أمنعك من محاولة بناء فهرس البحث الخاص بك ، لكن كن حذرًا: قد لا ينجح ، وربما لن أقوم بدعم فني. لهذا السبب ، يتم كتابة هذا القسم أيضًا في أول شخص ، معظمهم من أجل مرجعتي المستقبلية.

يعتمد Revery على فهرس البحث الذي ينتج عن Monocle's Indexer ، لذلك عادةً ما أتأكد من أن Revery لديه نسخة حديثة من فهرس البحث Monocle المتاحة قبل التشغيل.

Revery لديه اثنين من codebases مستقلة في نفس المستودع. الأول هو امتداد الكروم ، الذي يعيش بالكامل داخل مجلد ./extension . إليك كيفية إعداده:

يحتاج الامتداد إلى رمز مصادقة API للتحدث إلى API REDERY. عادة ما أختار سلسلة عشوائية طويلة بشكل تعسفي. ثم أضع ملفًا في ./extension يسمى token.js مع المحتوى:
```
 const REVERY_TOKEN = '<some API key here>' ;
```
أذهب إلى chrome://extensions وانقر فوق "تحميل إلغاء التعبئة" لتحميل مجلد ./extension كـ "امتداد غير معبأ" في متصفحي ، مما سيجعل التمديد متاحًا في كل علامة تبويب.

هذا كل شيء لإعداد التمديد. بعد ذلك ، قمت بإعداد الخادم:

خذ نفس رمز المصادقة من الأعلى ، ووضع سلسلة الرمز المميز نفسها داخل tokens.txt في جذر مجلد المشروع. سيحصل خادم REDERY على المحتوى المقطوع من مساحة البيضاء لهذا الملف ويستخدمه كمفتاح API.
ببساطة تشغيل make سيقوم ببناء الثنائي revery للتنفيذ في مجلد المشروع.
يحتاج Revery إلى مجموعتين إضافيتين من البيانات للعمل: نموذج تضمين الكلمة ، ومجموعة بيانات مستندات Monocle.
- قم بتنزيل ملف تضمين الكلمات (على سبيل المثال ، من FastText) وقم بتقطيعه إلى بعض الحجم المعقول (يبدو أن أفضل الكلمات 50-100K تعمل بشكل جيد). تقليم السطر الأول ، والذي يشير عادة إلى إجمالي عدد الكلمات وعدد الأبعاد. يفترض رمز Revery 300 بعد ، لذلك إذا لم يكن الأمر كذلك ، قم بمراجعة الرمز.
- نسخ مجموعة بيانات مستندات docs.json Monocle التي تم إنشاؤها بواسطة المفهرس إلى ./corpus/docs.json .
يجب تشغيل revery COMMANT الآن بشكل صحيح معالجة النموذج وفهرس البحث ، وبدء تشغيل خادم تطبيق الويب.

الفن السابق والعمل المستقبلي

على الرغم من أن REDERY مفيد بما يكفي بالنسبة لي لاستخدام اليومية ، إلا أن هناك الكثير من الأبحاث النشطة في مساحة البحث في اللغة الطبيعية العامة ، ويتمتع Revery نفسها بالكثير من التحسينات.

على جانب البيانات:

تجربة تضمينات الكلمات الأخرى التي قد توفر أداء أفضل. لقد جربت FastText و Lexvec ، ولكن هناك العديد من النماذج المفتوحة الأخرى المتاحة.
إنشاء كلمة مخصصة تضمين محسّنة لمجموعة البيانات الخاصة بي وللاستخدام في تكوين متجهات المستندات

على جانب الكود:

تحسين الخوارزميات التي تلمس البيانات بشكل أفضل ، باستخدام قدر من التخزين المؤقت وتحسين اليد القديمة الجيدة للرمز
طرق أفضل لتسطح المستندات في السياق في المتصفح. في الوقت الحالي ، يتطلب البحث عن REDERY داخل المتصفح إجراءً مستخدمًا صريحًا. ربما يمكننا تسهيلها تلقائيًا تمامًا ، أو حتى اكتشاف عندما يقوم المستخدم بالتمرير إلى نهاية الصفحة أو تسليط الضوء على قسم مثير للاهتمام من المستند لاقتراح المستندات ذات الصلة تلقائيًا.
طرق أفضل لتحقيق التوازن بين فوائد البحث القائم على الكلمات الرئيسية والدلالية. في الوقت الحالي ، يعد Monocle و Revery تطبيقين منفصلين تمامًا ، ولكن قد يكون وجود كلا النوعين من البحث التعاون مع بعضهما البعض أو حتى عرضًا جنبًا إلى جنب على الشاشة أكثر فائدة.

هناك أيضا الكثير من الفن السابق الرائع في هذا الفضاء. على الرغم من أنني لا أستطيع إدراجهم جميعًا هنا ، إلا أن هناك بعضًا يبرز كإلهام للعودة.

Monocle ، السلف المباشر لإعادة استخدام مجموعة البيانات نفسها للبحث عن الكلمات الرئيسية
نفس
Semantica ، التي تستخدم تضمينات الكلمات لتوفير أداة ذات مستوى أقل لاستكشاف العلاقات بين الكلمات والمفاهيم الفردية
غابة معلومات Tyler Angert ، وهي ملاحظة خيالية حول متصفحات الويب في المستقبل
تقنيات تضمين المستندات ، والتي كانت بمثابة نظرة عامة مفيدة على الحقل عندما بدأت هذا المشروع

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-03-13
الحجم 2MB
من Github

تطبيقات ذات صلة

يعود

2024-09-12
كل جهد برنامج الأحذية الذكية

2024-06-29
تطبيق "REVERTO".

2024-04-22
عكس الأزرق

2023-08-08
عكس الملابس اليومية الزرقاء

2023-08-08
الحب يتبعك كل

2023-05-24

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل