OpenDiscoverPlatformCaseStudy下载OpenDiscoverPlatformCaseStudy源代码下载

OpenDiscoverPlatformCaseStudy

其他源码

1.0.0

下载

案例研究：在Ediscovery早期案例评估（ECA）中使用OpenDiscover®平台和Ravendb文档商店。

有关现实世界的案例研究，请参见https://github.com/dotfurther/open-discover-whitepaper-1/，该案例研究演示了分布式文档处理和OCR的最新分布式工作流管理系统（WMS）。

ECA“是指估计起诉或捍卫法律案件的风险。全球组织应定期处理法律发现和披露请求“ ESI”和纸质文件。”

OpenDiscover®平台是较高的文档内容提取/处理API，以.NET为OPENDISCOVER®SDK。

有关.NET示例GITHUB存储库，请参见OpenDiscover®SDK

该存储库显示以下情况：

使用OpenDiscover®平台API处理由EDRM和ZL Technologies，Inc.发布的Enron Microsoft Outlook PST数据集。数据集为189 Microsoft Outlook PST（.pst）文件，总计约53 GB。这是一个开源数据集。
使用Ravendb文档数据库存储，索引和查询Open Discover Platform API产生的输出。在研究中，我们将Ravendb 5.1用作文档数据库。 Ravendb 5.1现在允许索引文本附件；但是，对于此案例研究，提取的文本将作为文档记录属性存储并索引。
“ Ediscovery的早期案例评估（ECA）概念验证”演示应用程序（一个C＃/WPF应用程序示例，具有源代码，可供演示打开发现平台的源代码）。从这里开始，我们将将此演示应用程序称为“ ECA演示应用程序”。此概念示范演示应用程序使用自定义RavendB索引查询和显示：
- 文档计数，文件类型，文件大小的摘要
- 所有文档的图表按“ sortdate”计数（排序是根据文档元数据或文档文件系统属性计算的日期，通常代表文档所有者上次修改文档的日期）。
- 数据集中所有文档中发现的所有语言的摘要。
- 所有文档文本/元数据中发现的所有受支持的敏感项目/实体的摘要
- 使用RavendB的全文搜索
- 搜索所有具有特定类型敏感项目的文档（例如，搜索具有银行帐户或IBAN号码的所有文档）。
- Ediscovery早期案例评估（ECA）应用的许多功能
打开Discover Platform API +文档商店（例如RavendB）会导致快速，轻松且功能强大的全文搜索/ediscovery/Information Conficmence应用程序。

由于以下原因，我们选择了Enron Microsoft Outlook PST数据集：

它是法律/ediscovery/信息治理行业中使用的常见基准数据集（主要用于比较文档/附件计数，删除和相对处理/索引速度）
即使经过大量的个人身份信息清理，该数据集仍然具有许多敏感的项目信息（PII），例如信用卡号，社会保险号，IBAN帐户，投资帐户号，驾驶执照等。由于它是一个“旧的”数据集（约20年），并且是一个公开可用的数据集，因此很久以前已通知了个人信息丢失的数据集。

Open Discover Platform API的目的是用于多线程处理的文档集（通常是一次为1000-5000个文档）。 “处理”一组文档包括：

识别每个文档的文件格式类型（支持标识的1,540+文件格式）
哈希文档字节和/或内容（文档哈希用于识别重复文档）
de-nist-nist-ing文档（即将每个文档哈希与约100m的已知NIST HASH数据库进行比较）。
提取文档文本，元数据，属性和儿童文档（附件/嵌入式对象/容器项目）
识别提取文本中存在的语言
识别提取的文本和元数据中存在的敏感项目和受支持的实体类型。支持的敏感项目包括社会保险号，信用卡号，银行帐号，投资帐户号，IBAN，地址，电话号码，驾驶执照号码，车辆识别号（VIN），医疗保健会员编号等。 Open Discover SDK检测并提取有关许多实体类型的信息：医疗记录，医疗保健/保险，学生记录，法律事务，一般帐户，性别，宗教，一般保险和表情符号（表情符号实体都有其小组，子组和说明返回）。
如果文档具有附件或嵌入式项目，则该子项目也可以通过上述步骤处理，直到没有更多的子文件要处理（即，所有文档/附件/嵌入式项目都已完全处理，并且包括支持的容器类型，例如档案和邮件商店）

打开的Discover Platform API的一个实例通常能够以40-70 GB/小时的速率处理文档集*（*速率将取决于数据集中的用户硬件和文件类型）。与大多数Ediscovery软件（例如，处理过程中的敏感项目/实体检测以及处理过程中）相比，它在处理文档方面非常快，同时提取更多内容。开放的Discover Platform API演示应用程序PlatformApideMo.exe用于处理Anron Outlook PST数据集。 PlatformApideMo.exe演示应用程序包含平台API文档处理类的一个实例。示例PlatformApidemo.exe处理输出的屏幕截图显示在下一节中。

PlatformApideMo.exe与Open Discover平台评估一起分发：

为.NET和平台组件打开Discover SDK
C＃批量插入RavendB的示例项目
C＃带有Advanced Ravendb索引的示例项目
使用上述两个列出的RavendB C＃项目的“ ECA演示应用程序”源代码
C＃示例从平台API输出中创建Ediscovery评论系统“加载文件”
Lucene全文搜索索引示例（索引文本/元数据/敏感项目来自平台API输出）

在最近的性能测试中，开放Discover SDK将53 GB Enron Microsoft Outlook PST PST数据集处理，并且大量插入了平台API输出（Text/Metadata/sensistive（PXI）项目/等），使用一台4核Windows Desktop PC，将平台API输出（text/metadata/stemitive（pxi）项目/等）插入了RAVENDB。

** This case study processing rate was for the .NET 4.62 version of SDK, the new .NET 6 version is > 100% faster on average, all the PST processing tasks on the .NET 6 version of OpenDiscoverPlatform processed their PST dataset tasks between 90-100+GB/hr rates (based on input size) WITH sensitive item detection enabled (processing rates are hardware dependent - in these numbers we used a single带有Intel i7 CPU和16GB RAM的台式PC。

快速查看从Enron Microsoft Outlook PST数据集中提取的“发现平台API”的内容类型（即，为每个文档插入Ravendb文档存储的内容类型）：

下面的屏幕截图显示了从其Outlook PST容器中提取的电子邮件项目（及其附件），并由Platformapidemo.exe应用程序处理。该电子邮件来自Enron Microsoft Outlook PST之一。图像左侧的树视图控件显示了所有处理过的文档/容器的父/子层次结构，然后单击树控件中的项目将显示其提取的内容。对于树视图中选定的Outlook电子邮件项，我们可以看到它具有6个MS Office Word文档作为从电子邮件中提取的附件。每个附件/嵌入式项目都提取了其内容（无论多么复杂，处理都会完全展开任何父母的层次结构）。注意文件格式标识结果，计算出“ sortdate”，各种文档哈希，提取的元数据和图像右上方的其他选项卡项目，其中包含其他提取内容：

通过电子邮件发送特定内容，例如所有收件人和额外的哈希：

此处理后的电子邮件屏幕截图显示了一个在电子邮件提取的文本中提取/识别为“敏感项目”的银行帐号（所有提取的文本和所有元数据都被扫描以备敏感项目）：

一些“实体”在另一封电子邮件中识别和提取。通过检查此电子邮件中发现的实体类型，我们可以推测该电子邮件正在讨论法律问题：

使用“ ECA Demo App”查询文档商店（Ravendb）

下面的屏幕截图显示了Ravendb Studio中的Anron数据库，该数据库填充了平台API处理的输出。 Ravendb中存储的一些数据库文档字段只能适合屏幕截图，还有更多的字段。带有红色边框注释的列名是对象的集合：

下面的屏幕截图显示了31个Ravendb索引中的一些“ ECA演示应用程序”用于查询文档存储的索引（请注意，“ Metadatatapropertyindex”表明该数据库中存储了3770万个元数据属性，大多数是电子邮件元数据，此外还有所有提取的文本。

下面显示了“元数据帕特基inindex” C＃类代码。该索引类来自Ravendb的AbstractIndexCreationTask（此演示中的所有其他索引）。该索引将允许所有元数据字段上的Lucene'Like'查询。存在类似的nativedocument.custommetadata：

所有C＃定义的RavendB索引都通过简单的RavendB API呼叫从“ ECA Demo App”中的RavendB Enron数据库中创建。

“ ECA演示应用程序”

下面的屏幕截图显示了189 Microsoft Outlook PST Enron数据集的处理摘要统计信息（总共处理的1,221,542封电子邮件和附件）。该数据集中的大多数电子邮件和附件都是重复的文档，因为事实是，在法律发现阶段收集数据的员工正在来回发送电子邮件 - 下图中所示的重复数据删除统计数据基于二进制/内容哈希，将来会更新此案例研究（我们将与RavendB Indexes一起更新该案例研究（包括ravendb Indexes），以包括“家庭” preditiation of Family preditiation'''''''''''''''''''''''''请注意文件格式分类饼图，特定文件格式饼图的摘要以及处理结果的摘要（具有OK的值/错误Passeword/dataError/等的枚举类型）饼图。

文件计数按顺序摘要图表：

元数据摘要（元数据字段名称/文档总数）-715所有文档中已知的唯一元数据字段名称和636个自定义（用户定义）元数据字段。该查询可以帮助法律案件经理知道该集合中有哪些元数据字段可在：

所有文档的敏感项目/实体项目摘要：

在所有文档中发现的所有唯一URL的摘要（每个文档的URL都可能有用，例如，如果公司想跟踪潜在的恶意URL入口点）。 Open Discover SDK检测文档超链接和文档文本（即非Hyperlink）的所有URL：

所有文档中所有密码的摘要。密码和用户名仅为25种内置的“敏感项目”类型中的2个，由Open Discover SDK/Platform支持。文档中的密码/用户名凭据可能是安全风险，它们也可以用于重新处理任何具有“错误通信”的处理结果的文档（由于同一家公司的员工经常将互相电子邮件发送给对方密码以共享加密的办公室文档）：

在处理后的文档提取文本中检测到的语言摘要：

示例全文搜索查询（注意：Ravendb支持Lucene查询）：

上述Lucene查询，查询Extractext字段并使用（选项）最小/最大文档sortdate来过滤返回的搜索结果。也很容易通过文档FileType或文档格式分类（WordPrococessing/dreversheet/email/etc）添加结果过滤。执行Lucene查询的C＃代码看起来像这样：

在ECA阶段，法律审查律师喜欢创建许多不同的搜索查询来查找响应文件。下面的屏幕截图显示了一些保存的Lucene查询和结果（文档命中次数和文档总数）。请注意，这些用户创建的搜索中的文档计数包含重复的文档计数，尽管我们的ravendb索引计算了重复文档的数量，但对于此概念证明，我们尚未在文档存储中“标记”文档，其中flag a flag表示flag tagration/doplate（用户是一个'todo'）

示例搜索sensiviteMtype（识别敏感项目类型的检测到的敏感对象的属性），在此示例中，我们搜索所有具有类型sensisitiveItemType.bankaccount的敏感项目的文档：

通过EntityItemType（检测到的EntityItem对象上标识实体类型的属性的属性）的示例搜索，在此示例中，我们搜索所有具有类型EntityItemtype.patientnameentry的实体项目：PatientNameEntry：

在下面的屏幕截图中，我们使用了一个专门创建的RavendB索引，该索引索引了与学生信息有关的特定开放式SDK提取的实体类型，以查找可能具有学生信息的文档（在屏幕截图，学生的名字和学生ID中，学生ID被涂黑了，学生ID似乎是2000年以前常见的社会保障编号）。同样，我们还有其他特殊索引来搜索病历和患者信息：