OpenDiscoverPlatformCaseStudy Download - OpenDiscoverPlatformCaseStudy Download Code Code

OpenDiscoverPlatformCaseStudy

شفرة المصدر الأخرى

1.0.0

تنزيل

دراسة الحالة: استخدام منصة Open Discover® ومتجر مستندات Ravendb في تقييم الحالة المبكر Ediscovery (ECA).

انظر https://github.com/dotfurther/open-discover-whitepaper-1/ لدراسة حالة حقيقية توضح أحدث نظام إدارة سير العمل الموزعة (WMS) لمعالجة المستندات الموزعة و OCR.

ECA "تشير إلى تقدير المخاطر لمقاضاة أو الدفاع عن قضية قانونية. تتعامل المنظمات العالمية مع طلبات الاكتشاف القانوني والإفصاح عن المعلومات المخزنة إلكترونيًا" ESI "والوثائق الورقية بشكل منتظم."

Open Discover® Platform هو مستوى أعلى من واجهة برمجة تطبيقات/معالجة محتوى المستند المبني على Open Discover® SDK لـ .NET.

انظر Open Discover® SDK للحصول على أمثلة .NET مستودع github

يظهر هذا المستودع حالات ما يلي:

باستخدام Open Discover® Platform API لمعالجة مجموعة بيانات Enron Microsoft Outlook PST التي نشرتها EDRM و ZL Technologies ، Inc. ، فإن مجموعة البيانات هي 189 ملفات Microsoft Outlook PST (.PST) التي يبلغ حجمها حوالي 53 جيجابايت. إنها مجموعة بيانات مفتوحة المصدر.
باستخدام قاعدة بيانات مستند RAVENDB لتخزين ، الفهرس ، والاستعلام عن الإخراج الناتج عن API Open Discover Platform. في الدراسة ، نستخدم RAVENDB 5.1 كقاعدة بيانات المستندات الخاصة بنا. يسمح RavendB 5.1 الآن بفهرسة مرفقات النص ؛ ومع ذلك ، سيتم تخزين النص المستخرج من دراسة الحالة هذه كخاصية سجل المستند وفهرستها.
"Ediscovery Early Case Evaluation (ECA) دليل على المفهوم" تطبيق العرض التجريبي (مثال على تطبيق C#/WPF مع رمز المصدر المتاح لأولئك الذين يقومون بتكتشف العرض التجريبي). من هنا فصاعدًا ، سنشير إلى هذا التطبيق التجريبي باعتباره "تطبيق ECA التجريبي". يستخدم تطبيق Demo Proof هذا العرض الفهارس المخصصة لـ RAVENDB للاستعلام والعرض:
- ملخصات تعداد المستندات وأنواع الملفات وأحجام الملفات
- مخططات جميع المستندات تعداد "Sortdate" (Sortdate هو تاريخ محسوب من مواد الوثيقة أو خصائص نظام ملفات المستندات ، وعادة ما يمثل التاريخ الذي قام فيه مالك المستند آخر مرة بتعديل المستند).
- ملخص لجميع اللغات الموجودة في جميع المستندات في مجموعة البيانات.
- ملخص لجميع العناصر/الكيانات الحساسة المدعومة في جميع نصوص الوثيقة/البيانات الوصفية
- البحث عن النص الكامل باستخدام RAVENDB
- البحث عن جميع المستندات التي لها نوع معين من العناصر الحساسة (على سبيل المثال ، ابحث عن جميع المستندات ذات الحساب المصرفي أو أرقام IBAN).
- العديد من ميزات تطبيق تقييم الحالة المبكر (ECA)
Open Discover Platform API + متجر المستندات مثل RavendB يؤدي إلى تطبيقات البحث/Ediscovery/Ediscovery/المعلومات السريعة والضرورية.

اخترنا مجموعة بيانات Enron Microsoft Outlook PST للأسباب التالية:

إنها مجموعة بيانات معايير شائعة تستخدم في صناعات الحوكمة القانونية/Ediscovery/المعلومات (معظمها لمقارنة تعداد المستندات/التعلق ، وإلغاء الاشتراك ، وسرعات المعالجة/الفهرسة النسبية)
لا تزال مجموعة البيانات هذه ، حتى بعد جولات من تطهير المعلومات الشخصية ، ومعلومات العناصر الحساسة (PII) مثل أرقام بطاقات الائتمان ، وأرقام الضمان الاجتماعي ، وحسابات IBAN ، وأرقام حسابات الاستثمار ، وتراخيص السائق ، وأكثر من ذلك بكثير. نظرًا لأنها مجموعة بيانات "قديمة" (حوالي 20 عامًا) ، وهي مجموعة بيانات متاحة للجمهور ، تم إخطار تلك التي تم تنفيذها بفقدان المعلومات الشخصية منذ فترة طويلة.

Open Discover Platform API موجهة للمعالجة متعددة الخيوط لمجموعات المستندات (عادة ما تكون المجموعة 1000-5000 مستند في وقت واحد). "معالجة" مجموعة من المستندات تشمل:

تحديد أنواع تنسيق الملفات لكل مستند (1540+ تنسيق ملفات مدعوم لتحديد الهوية)
تجزئة بايت و/أو المحتوى (يتم استخدام تجزئة المستندات لتحديد المستندات المكررة)
de-nist-ing المستندات (أي ، مقارنة كل مستند تجزئة بقاعدة بيانات NIST المعروفة من NIST المعروفة للملفات الشائعة/المعروفة).
استخراج نص المستند ، والبيانات الوصفية ، والسمات ، والمستندات الفرعية (المرفقات/الكائنات المدمجة/عناصر الحاوية)
تحديد اللغات الموجودة في النص المستخرج
تحديد العناصر الحساسة وأنواع الكيانات المدعومة الموجودة في النص المستخرج والبيانات الوصفية. تشمل العناصر الحساسة المدعومة أرقام الضمان الاجتماعي ، وأرقام بطاقات الائتمان ، وأرقام الحسابات المصرفية ، وأرقام حسابات الاستثمار ، والعناوين ، وأرقام الهواتف ، وأرقام رخصة القيادة ، وأرقام تحديد مركبة (VIN) ، وأرقام أعضاء الرعاية الصحية ، والمزيد. Open Discover SDK يكتشف ويستخلص معلومات عن العديد من أنواع الكيانات المتعلقة بـ: السجلات الطبية ، والرعاية الصحية/التأمين ، وسجلات الطلاب ، والمسائل القانونية ، والحسابات العامة ، والجنس ، والدين ، والتأمين العام ، والرموز التعبيرية (كيانات الرموز التعبيرية لديها مجموعتها ، ومجموعة فرعية ، والوصف).
إذا كان المستند يحتوي على مرفق أو عنصر مضمن ، فسيتم معالجة هذا العنصر الطفل أيضًا من خلال الخطوات المذكورة أعلاه ، فهذا يستمر حتى لا يتم ترك مستندات طفل مزيد من المعالجة (على سبيل المثال ، تتم معالجة جميع المستندات/المرفقات/العناصر المدمجة تمامًا ويشمل ذلك أنواع الحاويات المدعومة مثل المحفوظات ومحلات البريد)

عادةً ما تكون مثيل واحد من واجهة برمجة تطبيقات نظام Open Discover قادرًا على معالجة مجموعات المستندات بمعدل 40-70 جيجابايت/ساعة* (* ستعتمد المعدلات على أجهزة المستخدم وأنواع الملفات في مجموعة البيانات). إنه سريع للغاية في معالجة المستندات مع استخراج المزيد من المحتوى أكثر من معظم برامج eDiscovery (على سبيل المثال ، الكشف عن العنصر/الكيان الحساس و de-nist-ing أثناء المعالجة). تم استخدام تطبيق Open Discover Platform API التجريبي ، platformapidemo.exe ، لمعالجة مجموعة بيانات Enron Outlook PST. يلف تطبيق platformapidemo.exe demo مثيلًا واحدًا من فئة معالجة مستندات API منصة. يتم عرض لقطات الشاشة لمثال PlatformAPideMo.exe معالجة الإخراج في القسم التالي أدناه.

يتم توزيع platformapidemo.exe مع تقييم منصة Discover Open جنبا إلى جنب مع:

Open Discover SDK لـ .NET و Platform Platform
C# مثال مشروع لإدخال الجزء الأكبر في RavendB
C# مثال المشروع مع فهارس RAVENDB المتقدمة
رمز المصدر "تطبيق ECA Demo" الذي يستخدم اثنين أعلاه اثنين من مشاريع Ravendb C#
مثال C# ينشئ نظام مراجعة Ediscovery "تحميل ملفات" من إخراج Platform API
مثال فهرسة البحث عن النص الكامل لوكين (فهرسات النص/البيانات الوصفية/العناصر الحساسة من إخراج API منصة)

في اختبار الأداء حديثًا ، قامت Open Discover SDK بمعالجة مجموعة بيانات Microsoft Outlook 53 جيجابايت من Microsoft PST وإدراجها بشكل كبير في إخراج API من النظام الأساسي (النص/البيانات الوصفية/العناصر الحساسة (PXI) إلى RAVENDB في ما يزيد قليلاً عن 30 دقيقة باستخدام سطح مكتب Windows 4-core.

** كان معدل معالجة دراسة الحالة هذا للإصدار .NET 4.62 من SDK ، إصدار .NET 6 الجديد أكثر أسرع بنسبة 100 ٪ في المتوسط ، جميع مهام معالجة PST على إصدار .NET 6 من OPENDISCOVERPLAT مع معالجتها ، يتم معالجتها في المعالجة (معالجة هذه المعالجة - معالجتها. كمبيوتر سطح المكتب مع وحدة المعالجة المركزية Intel I7 و RAM 16 جيجابايت).

إلقاء نظرة سريعة على أنواع المحتوى المفتوح Discover Platform API المستخرجة من مجموعة بيانات Enron Microsoft Outlook PST (أي أنواع المحتوى التي تم إدخالها بشكل كبير في متجر مستند Ravendb لكل مستند):

تعرض لقطة الشاشة أدناه عنصر بريد إلكتروني (ومرفقاته) تم استخلاصه من حاوية Outlook PST ومعالجته بواسطة تطبيق platformapidemo.exe. البريد الإلكتروني من أحد Enron Microsoft Outlook PSTS. يُظهر التحكم في عرض الأشجار على الجانب الأيسر من الصورة التسلسل الهرمي للأصل/الطفل لجميع المستندات/الحاويات المعالجة ، والنقر على عنصر في التحكم في الشجرة سيظهر محتواه المستخرج. بالنسبة لعنصر بريد Outlook المحدد في عرض الشجرة ، يمكننا أن نرى أنه يحتوي على مستندات Word Office 6 مللي ثانية كمرفقات تم استخراجها من البريد الإلكتروني. تم استخراج كل عنصر من العناصر المدمجة/المدمجة أيضًا (معالجة أي تسلسل هرمي للطفل ، بغض النظر عن مدى تعقيدها). ملاحظة: نتائج تحديد تنسيق الملف ، محسوبة "sortdate" ، تجزئة المستندات المختلفة ، البيانات الوصفية المستخرجة ، وغيرها من عناصر علامات التبويب على الجانب الأيمن العلوي من الصورة التي تحتوي على محتوى آخر مستخرج:

البريد الإلكتروني محتوى محدد مثل جميع المستلمين وتجزئة إضافية:

تعرض لقطة شاشة البريد الإلكتروني المعالجة رقم حساب مصرفي تم استخلاصه/تحديده على أنه "عنصر حساس" في النص المستخرج من البريد الإلكتروني (يتم فحص جميع النصوص المستخرجة وجميع البيانات الوصفية للعناصر الحساسة):

تم تحديد بعض "الكيانات" واستخراجها في بريد إلكتروني مختلف. من خلال فحص أنواع الكيانات الموجودة في هذا البريد الإلكتروني ، يمكننا أن نتوقع أن البريد الإلكتروني يناقش مسألة قانونية:

الاستعلام عن متجر المستندات (RAVENDB) مع "تطبيق ECA Demo"

تُظهر لقطة الشاشة أدناه قاعدة بيانات Enron في Ravendb Studio الملغوبين مع إخراج معالجة API منصة. فقط بعض حقول مستندات قاعدة البيانات المخزنة في Ravendb يمكن أن تتناسب مع لقطة الشاشة ، وهناك العديد من الحقول الأخرى. أسماء الأعمدة ذات التعليقات التوضيحية الحدودية الحمراء هي مجموعات من الكائنات:

تُظهر لقطة الشاشة أدناه بعضًا من فهارس RAVENDB الـ 31 التي يستخدمها "تطبيق ECA Demo" للاستعلام عن متجر المستندات (لاحظ أن "MetaDataProPertyIndex" يوضح أن هناك 37.7 مليون من خصائص بيانات التعريف المخزنة في قاعدة البيانات هذه ، ومعظمها من بيانات تعريف البريد الإلكتروني ، بالإضافة إلى جميع النص المستخرج):

يتم عرض رمز الفئة "metadatapropertyIndex" C# أدناه. مستمدة من فئة الفهرس هذه من RavendB's AbstractIndExcreationTask (كما تفعل جميع الفهارس الأخرى في هذا العرض التوضيحي). سيسمح هذا الفهرس باستعلامات Lucene "مثل" جميع حقول البيانات الوصفية. يوجد فهرس مماثل لـ nativedocument.custommetadata:

يتم إنشاء جميع فهارس RAVENDB المحددة في قاعدة بيانات RAVENDB ENRON من "تطبيق ECA Demo" عبر مكالمة API RavendB البسيطة:

تطبيق "ECA Demo App"

توضح لقطة الشاشة أدناه إحصائيات ملخص المعالجة لمجموعة بيانات Microsoft Outlook PST Enron 189 (1،221،542 رسالة بريد إلكتروني ومرفقات تمت معالجتها في المجموع). معظم رسائل البريد الإلكتروني والمرفقات الموجودة في مجموعة البيانات هذه هي مستندات مكررة بسبب حقيقة أن موظفي Enron الذين تم جمع بياناتهم خلال مرحلة الاكتشاف القانوني كانوا إرسال بريد إلكتروني إلى بعضهم البعض ذهابًا وإيابًا - استندت إحصائيات التكلفة الوهمية الموضحة في الصورة أدناه إلى تجزئة Binary/Content ، في المستقبل ، سنقوم بتحديث دراسة الحالة هذه (إلى جانب فهرس Ravendb) لتشمل الصناعة القانونية "Deduplication". ملاحظة مخطط فطيرة تصنيف تنسيق الملف ، وملخص مخطط فطيرة تنسيق الملفات المحدد ، وملخص نتائج المعالجة (نوع التعداد مع قيم OK/ORCHERPASSWORD/DATAERROR/etc).

تعداد الملفات بواسطة مخططات ملخص Sortdate:

ملخص البيانات الوصفية (اسم حقل البيانات الوصفية/العدد الإجمالي للمستندات) - 715 أسماء حقل البيانات الوصفية الفريدة المعروفة في جميع المستندات و 636 حقول بيانات التعريف المخصصة. يمكن أن يساعد هذا الاستعلام مديري القضايا القانونية على معرفة ما هي حقول البيانات الوصفية المتوفرة في المجموعة للبحث في:

ملخص العنصر/العنصر الحساس لجميع المستندات:

ملخص جميع عناوين URL الفريدة الموجودة في جميع المستندات (قد تكون عناوين URL من كل مستند مفيدة ، على سبيل المثال ، إذا كانت الشركة ترغب في تعقب نقاط دخول URL الضارة المحتملة). Open Discover SDK يكتشف جميع عناوين URL من الارتباطات التشعبية المستند ونص المستند (أي ، غير hyperlink):

ملخص لجميع كلمات المرور الموجودة في جميع المستندات. تعد كلمات المرور وأسماء المستخدمين فقط 2 من أصل 25 نوعًا مدمجًا "عنصرًا حساسًا" مدعومًا من قبل Open Discover SDK/Platform. يمكن أن تكون بيانات اعتماد كلمة المرور/اسم المستخدم في المستندات بمثابة مخاطر أمان ، ويمكن أيضًا استخدامها لإعادة تشغيل أي وثيقة لها نتيجة معالجة "WrongPassword" (حيث غالبًا ما يقوم الموظفون في نفس الشركة بالبريد الإلكتروني إلى بعض كلمات مرور أخرى إلى مستندات المكتب المشفرة المشتركة):

ملخص اللغات المكتشفة في النص المستخرج من المستندات المعالجة:

مثال استعلام البحث الكامل للنص (ملاحظة: Ravendb يدعم استعلامات لوسين):

استعلام Lucene أعلاه ، يستفسر حقل ExtractedText ويستخدم (اختياريًا) min/max مستند Sortdate لتصفية نتائج البحث التي تم إرجاعها. سيكون من السهل جدًا أيضًا إضافة تصفية للنتائج حسب تصنيف تنسيق المستند أو تصنيف المستند (WordProcessing/جدول البيانات/البريد الإلكتروني/الخ). يبدو رمز C# الذي يؤدي استعلام Lucene مثل هذا:

خلال مرحلة ECA ، يحب محامو المراجعة القانونية إنشاء العديد من استعلامات البحث المختلفة للعثور على المستندات المستجيبة. تُظهر لقطة الشاشة أدناه عدد قليل من استعلامات Lucene المحفوظة والنتائج (عدد زيارات المستندات والحجم الكلي للمستندات). لاحظ أن تعداد المستندات في عمليات البحث التي تم إنشاؤها من قبل المستخدم تحتوي على عدد من المستندات المكررة ، على الرغم من أن لدينا فهارس RAVENDB التي تحسب عدد المستندات المكررة ، على هذا الإثبات للمفهوم ، لم نقم بعد "بمثابة" مستندات في متجر المستندات مع علامة تشير إلى الماجستير/التكرار (هذا هو "من قبل المستخدم":

مثال على البحث عن طريق حساس youstype (خاصية على كائنات حساسة يتم اكتشافها تحدد نوع العنصر الحساس) ، في هذا المثال ، نبحث عن جميع المستندات التي لها عنصر حساس من النوع الحساس.

مثال على البحث بواسطة entityitemtype (خاصية على كائنات entityitem المكتشفة التي تحدد نوع عنصر الكيان) ، في هذا المثال ، نبحث عن جميع المستندات التي لها عنصر كيان من النوع entityitemtype.patientNameentry:

في لقطة الشاشة أدناه ، نستخدم مؤشر RavendB الذي تم إنشاؤه خصيصًا والذي يفهرس Open Open Discover SDK المستخرجة من أنواع الكيانات المتعلقة بمعلومات الطالب للعثور على مستندات قد يكون لها معلومات طالب (في لقطة الشاشة ، ويتم تمييز اسم الطالب ومعرف الطالب ، ويبدو أن معرف الطالب هو رقم ضمان اجتماعي كان شائعًا قبل 2000). وبالمثل ، لدينا فهارس خاصة أخرى للبحث عن السجلات الطبية ومعلومات المريض:

ملخص

يمكن أن يؤدي إخراج منصة Open Discover® المخزنة في قاعدة بيانات المستندات مثل RAVENDB إلى تطبيقات تقييم الحالة القانوني القانوني (ECA) القوية للغاية. بالإضافة إلى ذلك ، يمكن أيضًا تطوير تطبيقات مثل ما يلي:

البحث الكامل للنص (بما في ذلك البيانات الوصفية وحقل العناصر الحساسة/الكيان)
حوكمة المعلومات
eDiscovery
استجابة الحوادث (IR)/تحليل خرق البيانات
البحث عن المؤسسة وإدارة المحتوى
أنظمة إدارة المحتوى
تطبيقات قسم تكنولوجيا المعلومات - تحديد المستندات ذات المعلومات الحساسة و/أو التي يتم إعادة صياغتها ، عفا عليها الزمن ، والتافهة (ROT).

إذا كانت دراسة الحالة هذه قد استخدمت قاعدة بيانات علائقية بدلاً من قاعدة بيانات المستندات مثل RavendB ، فستستغرق شهورًا من تصميم مخطط قاعدة البيانات وتطوير إجراءات المتجر وليس الأسبوعين في الوقت الذي استغرقته المؤلف لتطوير دليل تقييم الحالة المبكر (ECA).

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-05-25
الحجم 2.13MB
من Github

تطبيقات ذات صلة

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل