OpenDiscoverPlatformCaseStudy下載OpenDiscoverPlatformCaseStudy源代碼下載

OpenDiscoverPlatformCaseStudy

其他源碼

1.0.0

下載

案例研究：在Ediscovery早期案例評估（ECA）中使用OpenDiscover®平台和Ravendb文檔商店。

有關現實世界的案例研究，請參見https://github.com/dotfurther/open-discover-whitepaper-1/，該案例研究演示了分佈式文檔處理和OCR的最新分佈式工作流管理系統（WMS）。

ECA“是指估計起訴或捍衛法律案件的風險。全球組織應定期處理法律發現和披露請求“ ESI”和紙質文件。”

OpenDiscover®平台是較高的文檔內容提取/處理API，以.NET為OPENDISCOVER®SDK。

有關.NET示例GITHUB存儲庫，請參見OpenDiscover®SDK

該存儲庫顯示以下情況：

使用OpenDiscover®平台API處理由EDRM和ZL Technologies，Inc.發布的Enron Microsoft Outlook PST數據集。數據集為189 Microsoft Outlook PST（.pst）文件，總計約53 GB。這是一個開源數據集。
使用Ravendb文檔數據庫存儲，索引和查詢Open Discover Platform API產生的輸出。在研究中，我們將Ravendb 5.1用作文檔數據庫。 Ravendb 5.1現在允許索引文本附件；但是，對於此案例研究，提取的文本將作為文檔記錄屬性存儲並索引。
“ Ediscovery的早期案例評估（ECA）概念驗證”演示應用程序（一個C＃/WPF應用程序示例，具有源代碼，可供演示打開發現平台的源代碼）。從這裡開始，我們將將此演示應用程序稱為“ ECA演示應用程序”。此概念示範演示應用程序使用自定義RavendB索引查詢和顯示：
- 文檔計數，文件類型，文件大小的摘要
- 所有文檔的圖表按“ sortdate”計數（排序是根據文檔元數據或文檔文件系統屬性計算的日期，通常代表文檔所有者上次修改文檔的日期）。
- 數據集中所有文檔中發現的所有語言的摘要。
- 所有文檔文本/元數據中發現的所有受支持的敏感項目/實體的摘要
- 使用RavendB的全文搜索
- 搜索所有具有特定類型敏感項目的文檔（例如，搜索具有銀行帳戶或IBAN號碼的所有文檔）。
- Ediscovery早期案例評估（ECA）應用的許多功能
打開Discover Platform API +文檔商店（例如RavendB）會導致快速，輕鬆且功能強大的全文搜索/ediscovery/Information Conficmence應用程序。

由於以下原因，我們選擇了Enron Microsoft Outlook PST數據集：

它是法律/ediscovery/信息治理行業中使用的常見基準數據集（主要用於比較文檔/附件計數，刪除和相對處理/索引速度）
即使經過大量的個人身份信息清理，該數據集仍然具有許多敏感的項目信息（PII），例如信用卡號，社會保險號，IBAN帳戶，投資帳戶號，駕駛執照等。由於它是一個“舊的”數據集（約20年），並且是一個公開可用的數據集，因此很久以前已通知了個人信息丟失的數據集。

Open Discover Platform API的目的是用於多線程處理的文檔集（通常是一次為1000-5000個文檔）。 “處理”一組文檔包括：

識別每個文檔的文件格式類型（支持標識的1,540+文件格式）
哈希文檔字節和/或內容（文檔哈希用於識別重複文檔）
de-nist-nist-ing文檔（即將每個文檔哈希與約100m的已知NIST HASH數據庫進行比較）。
提取文檔文本，元數據，屬性和兒童文檔（附件/嵌入式對象/容器項目）
識別提取文本中存在的語言
識別提取的文本和元數據中存在的敏感項目和受支持的實體類型。支持的敏感項目包括社會保險號，信用卡號，銀行帳號，投資帳戶號，IBAN，地址，電話號碼，駕駛執照號碼，車輛識別號（VIN），醫療保健會員編號等。 Open Discover SDK檢測並提取有關許多實體類型的信息：醫療記錄，醫療保健/保險，學生記錄，法律事務，一般帳戶，性別，宗教，一般保險和表情符號（表情符號實體都有其小組，子組和說明返回）。
如果文檔具有附件或嵌入式項目，則該子項目也可以通過上述步驟處理，直到沒有更多的子文件要處理（即，所有文檔/附件/嵌入式項目都已完全處理，並且包括支持的容器類型，例如檔案和郵件商店）

打開的Discover Platform API的一個實例通常能夠以40-70 GB/小時的速率處理文檔集*（*速率將取決於數據集中的用戶硬件和文件類型）。與大多數Ediscovery軟件（例如，處理過程中的敏感項目/實體檢測以及處理過程中）相比，它在處理文檔方面非常快，同時提取更多內容。開放的Discover Platform API演示應用程序PlatformApideMo.exe用於處理Anron Outlook PST數據集。 PlatformApideMo.exe演示應用程序包含平台API文檔處理類的一個實例。示例PlatformApidemo.exe處理輸出的屏幕截圖顯示在下一節中。

PlatformApideMo.exe與Open Discover平台評估一起分發：

為.NET和平台組件打開Discover SDK
C＃批量插入RavendB的示例項目
C＃帶有Advanced Ravendb索引的示例項目
使用上述兩個列出的RavendB C＃項目的“ ECA演示應用程序”源代碼
C＃示例從平台API輸出中創建Ediscovery評論系統“加載文件”
Lucene全文搜索索引示例（索引文本/元數據/敏感項目來自平台API輸出）

在最近的性能測試中，開放Discover SDK將53 GB Enron Microsoft Outlook PST PST數據集處理，並且大量插入了平台API輸出（Text/Metadata/sensistive（PXI）項目/等），使用一台4核Windows Desktop PC，將平台API輸出（text/metadata/stemitive（pxi）項目/等）插入了RAVENDB。

** This case study processing rate was for the .NET 4.62 version of SDK, the new .NET 6 version is > 100% faster on average, all the PST processing tasks on the .NET 6 version of OpenDiscoverPlatform processed their PST dataset tasks between 90-100+GB/hr rates (based on input size) WITH sensitive item detection enabled (processing rates are hardware dependent - in these numbers we used a single帶有Intel i7 CPU和16GB RAM的台式PC。

快速查看從Enron Microsoft Outlook PST數據集中提取的“發現平台API”的內容類型（即，為每個文檔插入Ravendb文檔存儲的內容類型）：

下面的屏幕截圖顯示了從其Outlook PST容器中提取的電子郵件項目（及其附件），並由Platformapidemo.exe應用程序處理。該電子郵件來自Enron Microsoft Outlook PST之一。圖像左側的樹視圖控件顯示了所有處理過的文檔/容器的父/子層次結構，然後單擊樹控件中的項目將顯示其提取的內容。對於樹視圖中選定的Outlook電子郵件項，我們可以看到它具有6個MS Office Word文檔作為從電子郵件中提取的附件。每個附件/嵌入式項目都提取了其內容（無論多麼複雜，處理都會完全展開任何父母的層次結構）。注意文件格式標識結果，計算出“ sortdate”，各種文檔哈希，提取的元數據和圖像右上方的其他選項卡項目，其中包含其他提取內容：

通過電子郵件發送特定內容，例如所有收件人和額外的哈希：

此處理後的電子郵件屏幕截圖顯示了一個在電子郵件提取的文本中提取/識別為“敏感項目”的銀行帳號（所有提取的文本和所有元數據都被掃描以備敏感項目）：

一些“實體”在另一封電子郵件中識別和提取。通過檢查此電子郵件中發現的實體類型，我們可以推測該電子郵件正在討論法律問題：

使用“ ECA Demo App”查詢文檔商店（Ravendb）

下面的屏幕截圖顯示了Ravendb Studio中的Anron數據庫，該數據庫填充了平台API處理的輸出。 Ravendb中存儲的一些數據庫文檔字段只能適合屏幕截圖，還有更多的字段。帶有紅色邊框註釋的列名是對象的集合：

下面的屏幕截圖顯示了31個Ravendb索引中的一些“ ECA演示應用程序”用於查詢文檔存儲的索引（請注意，“ Metadatatapropertyindex”表明該數據庫中存儲了3770萬個元數據屬性，大多數是電子郵件元數據，此外還有所有提取的文本。

下面顯示了“元數據帕特基inindex” C＃類代碼。該索引類來自Ravendb的AbstractIndexCreationTask（此演示中的所有其他索引）。該索引將允許所有元數據字段上的Lucene'Like'查詢。存在類似的nativedocument.custommetadata：

所有C＃定義的RavendB索引都通過簡單的RavendB API呼叫從“ ECA Demo App”中的RavendB Enron數據庫中創建。

“ ECA演示應用程序”

下面的屏幕截圖顯示了189 Microsoft Outlook PST Enron數據集的處理摘要統計信息（總共處理的1,221,542封電子郵件和附件）。該數據集中的大多數電子郵件和附件都是重複的文檔，因為事實是，在法律發現階段收集數據的員工正在來回發送電子郵件 - 下圖中所示的重複數據刪除統計數據基於二進制/內容哈希，將來會更新此案例研究（我們將與RavendB Indexes一起更新該案例研究（包括ravendb Indexes），以包括“家庭” preditiation of Family preditiation'''''''''''''''''''''''''請注意文件格式分類餅圖，特定文件格式餅圖的摘要以及處理結果的摘要（具有OK的值/錯誤Passeword/dataError/等的枚舉類型）餅圖。

文件計數按順序摘要圖表：

元數據摘要（元數據字段名稱/文檔總數）-715所有文檔中已知的唯一元數據字段名稱和636個自定義（用戶定義）元數據字段。該查詢可以幫助法律案件經理知道該集合中有哪些元數據字段可在：

所有文檔的敏感項目/實體項目摘要：

在所有文檔中發現的所有唯一URL的摘要（每個文檔的URL都可能有用，例如，如果公司想跟踪潛在的惡意URL入口點）。 Open Discover SDK檢測文檔超鏈接和文檔文本（即非Hyperlink）的所有URL：

所有文檔中所有密碼的摘要。密碼和用戶名僅為25種內置的“敏感項目”類型中的2個，由Open Discover SDK/Platform支持。文檔中的密碼/用戶名憑據可能是安全風險，它們也可以用於重新處理任何具有“錯誤通信”的處理結果的文檔（由於同一家公司的員工經常將互相電子郵件發送給對方密碼以共享加密的辦公室文檔）：

在處理後的文檔提取文本中檢測到的語言摘要：

示例全文搜索查詢（注意：Ravendb支持Lucene查詢）：

上述Lucene查詢，查詢Extractext字段並使用（選項）最小/最大文檔sortdate來過濾返回的搜索結果。也很容易通過文檔FileType或文檔格式分類（WordPrococessing/dreversheet/email/etc）添加結果過濾。執行Lucene查詢的C＃代碼看起來像這樣：

在ECA階段，法律審查律師喜歡創建許多不同的搜索查詢來查找響應文件。下面的屏幕截圖顯示了一些保存的Lucene查詢和結果（文檔命中次數和文檔總數）。請注意，這些用戶創建的搜索中的文檔計數包含重複的文檔計數，儘管我們的ravendb索引計算了重複文檔的數量，但對於此概念證明，我們尚未在文檔存儲中“標記”文檔，其中flag a flag表示flag tagration/doplate（用戶是一個'todo'）

示例通過sensiviteMtype（識別敏感項目類型的檢測到的敏感對象的屬性）搜索，在此示例中，我們搜索所有具有類型sensisiveItemType.bankaccount的敏感項目的文檔：

通過EntityItemType（檢測到的EntityItem對像上標識實體類型的屬性的屬性）的示例搜索，在此示例中，我們搜索所有具有類型EntityItemtype.patientnameentry的實體項目：PatientNameEntry：

在下面的屏幕截圖中，我們使用了一個專門創建的RavendB索引，該索引索引了與學生信息有關的特定開放式SDK提取的實體類型，以查找可能具有學生信息的文檔（在屏幕截圖，學生的名字和學生ID中，學生ID被塗黑了，學生ID似乎是2000年以前常見的社會保障編號）。同樣，我們還有其他特殊索引來搜索病歷和患者信息：