تنزيل fts encrypted - تنزيل رمز المصدر fts encrypted

fts encrypted

شفرة المصدر الأخرى

1.0.0

تنزيل

FTS insrypted

يبحث جانب العميل المدمج ، على جانب القرص ، مع التشفير المتماثل (AES-128)
البحث الأساسي FTS: أو ، و
يتم تشفير الرموز النصية ومعرفات المستندات
يوفر رمز اللغة اللاتينية الافتراضية

ملاحظة: يشير الرمز المميز إلى الرمز المميز المعجمي ، وليس الرمز المميز للتشفير . على سبيل المثال ، قد يتحول الرمز المميز إلى "تعلم" ، "تعلم" ، "تعلم" في الرمز المميز ".

إذا كنت لا تحتاج إلى تشفير ، فإن Tantivy أفضل في كل طريقة.

تصميم

يتم إنشاء معرفات المستندات المشفرة إلى معرف عداد (رقم 32 بت فريد من عداد تدريجي)
الفهرسة باستخدام فهرس مستوى السجل المقلوب ، ويخزن رسم خرائط لتجزئة مشفرة من الرموز إلى معرفات العداد المفرزة والمفردة
يتم استخدام الزلاجات كمتجر القيمة الرئيسية

العرض التوضيحي

يتوفر عرض GUI الأساسي باستخدام Dioxus ومجموعة Enron Email على github هنا. في المقام الأول لإظهار أن سرعة البحث لائقة لنوع مجموعات البيانات التي شوهدت مخزنة على التطبيقات الجانبية العميل.

تحذير أمني

هذا لا يزال عمل مستمر. لا توجد ضمانات حول هذه المكتبة أو تبعياتها ، في التنفيذ ، من الناحية المفاهيمية أو غير ذلك. لم يتم إجراء أي عمليات تدقيق أمنية. استخدم على مسؤوليتك الخاصة.

المعجمية (الكلمة الرئيسية) التشفير الرمزي

كل كلمة رئيسية في البحث أو الفهرس مميز. هذا الرمز المميز واسم الجدول الذي يحدث فيه ، يتم تجزئة مع blake2b-128 ثم مشفرة مع AES-128-ECB قبل تخزينها أو استخدامها للاستعلامات.

 Encrypt(Hash(token + table_name))

يستخدم وضع البنك المركزي الأوروبي للتشفير. يتسبب البنك المركزي الأوروبي في أن يصبح النص العادي متطابقًا متطابقًا ، ولكن هذا ليس مصدر قلق للقيم الفريدة مثل تجزئة اسم الرمز المميز والجدول. هذا يعني أن نفس الرمز المميز سيكون له نص مشفر مختلف إذا حدث في جداول منفصلة.

تشفير معرف المستند

يتم تشفير معرف المستند باستخدام AES-128-ECB. ويرتبط هذا بعد ذلك بعداد 32 بت.

ضغط معرف الوثيقة

نظرًا لأن معرف المستند يظهر عدة مرات ويكون عدد معرفات المستند أصغر بكثير مما يمكن تعداده بـ 128 بت ، يمكن ضغط معرفات المستند.

ترميزات 32 بت

على افتراض 1000 رمز / وثيقة فريدة ، فإن تكلفة تخزين حوادث رمز في المستندات هي:

وثائق	غير محسوس	32 بت
1000	16 ميجابايت	4 ميجابايت
10K	160 ميجابايت	40 ميجابايت
50 كيلو	800 ميجابايت	200 ميجابايت
100 كيلو	1.6 جيجابايت	400 ميجابايت
250k	4 غيغابايت	1 جيجا بايت
مليون	16 جيجابايت	4 غيغابايت
مليار	16 تيرابايت	4 تيرابايت

الاختلاف والتخفيف

الاختلاف يمثل القيم في تسلسل كفرق بينهما. هذا يخلق قيمًا يمكن تمثيلها مع عدد أقل من البتات ، مما يسمح بتعبئة أكثر إحكاما.

يتم استخدام قفص bitpacking للاختلاف و bitpacking كتل من 128 أعداد صحيحة.

bitpacking المطفأة

يعمل الاختلاف بشكل أفضل عند فرز القيم ، ولكن الحفاظ على القيم المرتبة والبيئة سيتطلب إعادة ترميز جميع القيم عند إضافة إدخال خارج الطلب. يمكن أن يؤدي استخدام نهج مبهج مع مجموعة من قيم Out Out Order إلى تقليل تكلفة التغييرات عن طريق إطفاءها.

رقم الطبقة	مخطط التعبئة	فرز	الانتشار
0	لا شيء - 32 بت (<128 ints)	لا أحد	لا
1+	bitpacker4x (128 ints)	طبقات amoung على مستوى العالم فوق 0	نعم

مثال

تم ضغط ما يقرب من 9،000-10،000 من رسائل البريد الإلكتروني Enron الأقصر وكان حجم FTS DB الناتج 235 ميجابايت باستخدام ترميز 32 بت. باستخدام bitpacking الاختلاف المطفأ والطبقات غير ذلك إلى 21 ميجابايت.

شواهد القبور

حذف ملف هو ... مكلف ... إطفاء tod

في الذاكرة اكتب التخزين المؤقت

تودو استكشاف. شيء مثل rocksdb memtable أو الزلاجات. يتغير المتجر في الذاكرة ، ثم قم بتدفق كل 500 مللي ثانية أو عند الوصول إلى حد الذاكرة.

محتوى إدراك الإكمال التلقائي

قم بفرز الدلو بأحرف 3 أو 4 أحرف (وليس رمزية) ، ضغط؟ وتشفير. كتلة تشفير بشيء مع انتشار مثل CBC أو GCM (تشفير Autheniced). هذا يعني أن الإكمال التلقائي سيركل بعد 3 أو 4 أحرف. هذا لا يزال في المرحلة المفاهيمية.

القيود

متطلبات

عدد حوادث الرمز المميز المعجمي المشفرة والهجال غير مخفي ؛ يجب تخفيف هجمات التردد
هناك حاجة إلى حماية ضد هجمات النص المعروفة لتجنب الهجمات القائمة على التردد
الحماية من هجمات الاختيار المختارة ، وحشو هجمات Oracle غير مطلوبة ، لأن العميل يوفر المفتاح والنص العادي
الحماية ضد هجمات النص المختار هو المطلوب لأن المهاجم يمكنه تعديل ملفات الفهرس.

هجمات النزاهة

تعتبر تكامل البيانات اختياريًا عن طريق تجزئة ملف قاعدة البيانات في وقت قريب وتخزين نسخة مشفرة من التجزئة.

الخوارزميات

AES-128 البنك المركزي الأوروبي

المقدمة من قفص: AES
لا متجه التهيئة
عرضة لنوبات النص العادي والنص المشفر المختار ، ولكن هذا خارج النطاق
يتم تشفير كتل النص العادي المتطابق ككتل مشفر متطابقة
نظرًا لأن نفس قيمة الرمز المميز يمكن أن تحدث في جدولين منفصلين ، يتم إلحاق اسم الجدول بالرمز المميز قبل التجزئة
يستخدم لترميز اسم الجدول + القيم الرمزية ، كاسم الجدول + قيم الرمز المميز فريد
نظرًا لأن النص الواضح الذي يتم ترميزه مضمون ليكون فريدًا ، فإن مخاطر هذه الخوارزمية لا تنطبق
يمكن إضافة دعم AES-256 (لا يزال حجم الكتلة هو نفسه عند 128 بت ، فقط يتغير حجم المفتاح إلى 256 بت)

Blake2

المقدمة من قفص: Blake2
وظيفة تجزئة التشفير مع طول الإخراج المختار
مقاومة تصادم جيدة بما فيه الكفاية للرموز

أوجه القصور

لا يوجد انتشار على معرفات المستند المشفرة. تتطلب إضافة الانتشار تشفير معرفات المستند باستخدام IV تم إنشاؤها عشوائيًا. هذا من شأنه أن يجعل الضغط مستحيل. سيؤدي تخزين IV إلى إضافة 128 بت لكل رمز وزوج مستند (لـ AES CBC).

ما يلي مرئي للمهاجم بدون مفتاح:

عدد الرموز (ولكن ليس طول الرمز المميز)
عدد الرموز في وثيقة (ولكن ليس أي وثيقة)
عدد المستندات في الفهرس
ما إذا كان هناك مستندتان تشتركان في نفس الرمز المميز (ولكن ليس معرف أي من المستندات)

في حالة وجود فهرس في قائمة المرضى في مكتب الطبيب ، يمكن للمهاجم الذي لا يتمكن من رؤية عدد المرضى وتوزيع الرموز المستخدمة في المستندات. لم يتمكنوا من رؤية أي نص عادي ، مثل الأسماء أو المعرفات الأخرى ، ولم يتمكنوا حتى من رؤية معرف المستند لأي مرضى. يمكن أن يروا ما إذا كان اثنان من المرضى يشتركان في رمز بحث ، ولكن لا شيء حول من هو المرضى أو ما هي المعلومات المشتركة.

على سبيل المثال ، إذا كان فهرس البحث مبنيًا فقط على أسماء في بلد له أسماء أخرى شائعة ، مثل فيتنام ، فيمكنك إجراء تحليل للتردد ومعرفة العدد المحتمل للمرضى الذين يعانون من الاسم الأخير Nguyen (38 ٪ من سكان فيتنام). يعتمد هذا على أن تكون سابقة (توزيع الألقاب) صالحة لمجموعة البيانات في متناول اليد. سيكون أيضًا فعالًا فقط ضد الأسماء الشائعة ، والتي لا تحدد ، ومن غير المرجح أن تميز وثقة المستندات التي تحتوي حتى على الثانية من اللقب الثالث الأكثر شيوعًا في فيتنام (Tran بنسبة 11 ٪ و LE بنسبة 10 ٪).

بمجرد إضافة مزيد من المعلومات إلى مؤشر البحث ، مثل العمر ، مسقط رأس ، العنوان ، الوصف ، وما إلى ذلك ، تختفي القدرة على إجراء تحليل التردد تقريبًا.

قيود عدم التعبئة

قد يكون أحد القلقين هو عدم تعبئة تخزين مجموعات البيانات الفريدة ، حيث يمكن استخدام تحليل تردد لمجموعة بيانات النص العادي المعروفة الكبيرة لإظهار أنه بما لا يدع مجالًا للشك ، كان هناك جهاز معين تم فهرسة مجموعة البيانات. هذا يبدو على ما يبدو يؤثر فقط على المنشقين في البلدان الاستبدادية أو المجرمين. يمكن تخفيف ذلك عن طريق تشفير القرص الكامل عند إيقاف تشغيل الجهاز.

آثار تصادم التجزئة الرمزية

دع d1 يكون وثيقة مع رمز t1 . دع t2 يكون رمزًا يصطدم بجامع تجزئة t1 وليس رمزًا للوثيقة d1 .

يمكن أن تحدث الإيجابيات الخاطئة ، حيث تم تضمين نتائج إضافية غير ذات صلة في نتيجة بحث ، إلى d1 إذا كان البحث يحتوي على t2 وليس t1 .

يمكن أن تحدث السلبيات الخاطئة ، حيث تم حذف النتائج ذات الصلة من نتيجة بحث ، فقط إذا تم حذف أحد الرموز المتصاعدة لمستند. هذا من شأنه أن يؤدي إلى "حذف" الرمز الآخر أيضًا.

تنطبق الإيجابيات أو السلبيات الخاطئة فقط على المستندات التي تحتوي على واحدة من الرموز المتصاعدة ، عندما يكون الرمز المميز الآخر موجودًا في استعلام البحث. هذا يجعل حصص مثل هذا الاصطدام منخفضة للغاية.

الخطر الفعلي للتصادم هو صغير هزلي لتجزئة 128 بت (انظر مشكلة عيد الميلاد على ويكيبيديا).

أولويات الأداء

كن سريعًا بما فيه الكفاية حتى لا يؤثر سلبًا على أداء المستخدم (10 مللي ثانية -100 مللي ثانية على ما يرام)
يعد أداء التخزين أولوية رئيسية

خارج النطاق

فهرس مقلوب على مستوى الكلمات أو البحث المتقدم مثل عمليات البحث عن العبارة
تشفير مصادقة
إزالة جميع الرموز المقابلة لمستند ، دون معرفة ماهية هذه الرموز
البحث الغامض

العمل المستقبلي

قدم المستخدم مميزات بديلة
اختياريات الاختيارية لفحوصات النزاهة عند بدء التشغيل والإغلاق
في الذاكرة اكتب المخزن المؤقت؟
الخيارات في الواجهة الخلفية ، أو اجعلها مستخدمًا قابلاً للتجميع (ROCKSDB ، LMDB تتبادر إلى الذهن)
AES-256؟ (مفتاح 256 بت ، ولكن لا يزال يحتفظ بحجم كتلة 128 بت = لا توجد زيادة في المساحة المطلوبة)
معايير أفضل؟
محتوى إدراك الإكمال التلقائي؟

لماذا لا 64 بت التجزئة والتشفير؟

يؤدي تشفير 64 بت فقط إلى عدد قليل من ميغابايت من توفير المساحة للفهارس الكبيرة جدًا. اللغة الإنجليزية لديها حوالي 1،000،000 كلمة وأقل رموز. 64 مليون بت هي فقط 8 ميجابايت. بالنظر إلى توزيعات نوع قانون الطاقة التي شوهدت باللغات ، حيث يمكن أن تشتمل الكلمات الأولى أو نحو ذلك على نصف التردد ، ستكون المدخرات الفعلية أقل بكثير.

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-05-28
الحجم 89.12KB
من Github

تطبيقات ذات صلة

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل