OpenDiscoverPlatformCaseStudy скачать - OpenDiscoverPlatformCaseStudy исходный код скачать

OpenDiscoverPlatformCaseStudy

Другой исходный код

1.0.0

Скачать

Тематическое исследование: использование платформы открытия Platform и Ravendb Documents Store в Ediscovery Ранняя оценка случаев (ECA).

См. Https://github.com/dotfurther/open-discover-whitepaper-1/ для тематического исследования в реальном мире, которое демонстрирует новейшую систему управления распределенными рабочими процессами (WMS) для обработки распределенных документов и OCR.

ECA «относится к оценке риска для преследования или защиты правового дела. Глобальные организации занимаются юридическими запросами обнаружения и раскрытием информации для получения электронного сохранения информации« ESI »и бумажными документами на регулярной основе».

Платформа Open Discover® - это более высокий уровень API извлечения/обработки контента документа, созданный на открытом SDK Discover® SDK для .NET.

См. Open Discover® SDK для .NET Примеры репозитория GitHub

Этот репозиторий показывает случаи следующие:

Используя API Platform Platform Discover® для обработки набора данных Enron Microsoft Outlook PST, опубликованного EDRM и ZL Technologies, Inc. Набор данных составляет 189 файлов Microsoft Outlook PST (.pst), которые в размере приблизительно 53 ГБ. Это набор данных с открытым исходным кодом.
Используя базу данных документов Ravendb для хранения, индекса и запроса вывода, созданных API Platform Platform Open Discover. В исследовании мы используем Ravendb 5.1 в качестве нашей базы данных документов. Ravendb 5.1 теперь позволяет индексировать текстовые вложения; Однако для этого тематического исследования извлеченный текст будет храниться в качестве свойства записи документа и индексирован.
«Демонстрационное приложение Ediscovery Early Assage (ECA). С этого момента мы будем называть это демонстрационное приложение как «Демо -приложение ECA». Это подтверждение концепции демонстрационного приложения использует пользовательские индексы Ravendb для запроса и отображения:
- Резюме подсчета документов, типов файлов, размеры файлов
- Диаграммы всех документов подсчитываются по «SortDate» (SortDate - это дата, рассчитанная либо на свойствах метаданных документов или файловой системы документа, и обычно представляет дату, когда владелец документа последний раз изменил документ).
- Резюме всех языков, найденных во всех документах в наборе данных.
- Сводка всех поддерживаемых конфиденциальных элементов/объектов, найденных во всех текстах/метаданных документах.
- Полнотекстовый поиск с помощью Ravendb
- Поиск всех документов, которые имеют определенный тип конфиденциального элемента (например, ищите все документы с банковским счетом или номерами IBA).
- Многие особенности приложения Ediscovery Early Case Essage (ECA)
Откройте Platform Platform Platform API + хранилище документов, такие как Ravendb, приводит к быстрому, простому и мощному полнотекстовому поиску/приложениям управления Ediscovery/Information.

Мы выбрали набор данных Enron Microsoft Outlook PST по следующей причине:

Это общий контрольный набор данных, используемый в индустриях юридического/управления Ediscovery/Information (в основном для сравнения количества документов/привязанности, деупликации и относительной скорости обработки/индексации)
Этот набор данных до сих пор имеет даже после раундов очистки информации лично идентифицируемой информации, много конфиденциальной информации о предметах (PII), таких как номера кредитных карт, номера социального страхования, учетные записи IBA, номера инвестиционных счетов, водительские права и многое другое. Поскольку это «старый» набор данных (~ 20 лет), и это общедоступный набор данных, те, которые были произведены потерей личной информации, были давно уведомлены.

API Platform Platform Open Discover предназначена для многопоточной обработки наборов документов (как правило, набор составляет 1000-5000 документов одновременно). «Обработка» Набор документов включает в себя:

Определение типов форматов файла каждого документа (форматы файлов 1540+ поддерживаются для идентификации)
Хэширование байтов и/или содержания документа (хэши документов используются для определения дублирующих документов)
Отображение документов (то есть сравнение каждого документа хэша с ~ 100 м, известной базы данных NIST HASH общих/известных файлов).
Извлечение текста документа, метаданных, атрибутов и дочерних документов (вложения/встроенные объекты/элементы контейнера)
Определение языков, присутствующих в извлеченном тексте
Определение конфиденциальных элементов и поддерживаемых типов объектов, присутствующих в извлеченном тексту и метаданных. Поддерживаемые конфиденциальные товары включают номера социального страхования, номера кредитных карт, номера банковских счетов, номера инвестиционных счетов, IBA, адреса, номера телефонов, номера водительских прав, номера идентификации транспортных средств (VIN), номера членов здравоохранения и многое другое. Open Discover SDK обнаруживает и извлекает информацию о многих типах организаций, связанных с: медицинскими записями, здравоохранением/страхованием, записями студентов, юридическими вопросами, общими счетами, полу, религией, общим страхованием и смайликами (эмоджи имеют свою группу, подгруппу и описание).
Если документ имеет вложение или встроенный элемент, то этот дочерний элемент также обрабатывается через вышеуказанные шаги, это продолжается, пока не останется никаких дочерних документов для обработки (т.е. все документы/вложения/встроенные элементы не будут полностью обработаны, и это включает в себя поддерживаемые типы контейнеров, такие как архивы и почтовые хранилища)

Один экземпляр открытого API платформы обнаружения, как правило, способен обрабатывать наборы документов по скорости 40-70 ГБ/час* (* Ставки будут зависеть от пользовательского оборудования и типов файлов в наборе данных). Это очень быстро в обработке документов, а также извлечение большего количества контента, чем большинство программного обеспечения Ediscovery (например, конфиденциальное обнаружение элементов/объекта и де-новое при при обработке). Демонстрационное приложение API Platform Platform Platform, Platformapidemo.exe, использовалось для обработки набора данных Enron Outlook PST. Демонстрационное приложение Platformapidemo.exe завершает один экземпляр класса обработки документов Platform API. Экранные снимки примера PlateryApidemo.exe Выход обработки показан в следующем разделе ниже.

Platformapidemo.exe распределяется с оценкой платформы открытых обнаружений вместе с:

Откройте Discover SDK для .NET и платформ
C# Пример проекта для объемного вставки в Ravendb
C# Пример проекта с расширенными индексами Ravendb
Исходный код «Демо -приложение ECA», в котором используются два вышеизоренных проектов Ravendb C#
C# Пример, который создает систему обзора Ediscovery «Загрузить файлы» из вывода API платформы
Пример индексации полного текста Lucene (индексирует текстовые/метаданные/конфиденциальные элементы из вывода API платформы)

В недавнем тесте на производительность открытый SDK обработал набор данных Microsoft PST PST 53 ГБ, а объемный вывод платформы (текстовые/метаданные/чувствительные (PXI)/и т. Д.) В Ravendb за чуть более 30 минут с использованием одного 4-уровневого настольного компьютера Windows.

** Эта скорость обработки тематического исследования была для версии SDK .net 4.62, новая версия .net 6 в среднем на 100% быстрее, все задачи обработки PST на версии .NET 6 OpendScoverplatform обработали свои задачи набора данных PST между 90-100+GB/HR (на основе размера входных. с процессором Intel I7 и 16 ГБ оперативной памяти).

Быстрый взгляд на типы контента, которые открывают API Platform Platform Discover, извлечены из набора данных Enron Microsoft Outlook PST (то есть типы контента, который был вставлен в хранилище документов Ravendb для каждого документа):

Снимок экрана ниже показывает элемент электронной почты (и его вложения), который был извлечен из его контейнера Outlook PST и обработан приложением Platformapidemo.exe. Электронное письмо от одного из Enron Microsoft Outlook PST. Управление видом на дерево в левой части изображения показывает иерархию родителей/детей всех обработанных документов/контейнеров, а нажатие на элемент в управлении деревами будет отображать его извлеченный контент. Для выбранного элемента электронной почты Outlook в представлении дерева мы видим, что он имеет 6 документов MS Office Word в качестве вложений, которые были извлечены из электронной почты. Каждый привязанность/встроенный элемент также извлекла их содержание (обработка полностью развертывает любую родительскую иерархию детей, независимо от того, насколько сложна). Обратите внимание на результаты идентификации формата файла, рассчитанные «SortDate», различные хэши документов, извлеченные метаданные и другие элементы вкладок в верхней правой части изображения, которые содержат другое извлеченное содержимое:

Электронная почта, конкретный контент, такой как все получатели и дополнительные хэши:

На этом обработанном снимке экрана электронной почты показан номер банковского счета, который был извлечен/идентифицирован как «конфиденциальный элемент» в извлеченном тексте электронной почты (все извлеченные текст и все метаданные сканируются на предмет конфиденциальных элементов):

Некоторые «сущности» идентифицированы и извлечены в другом электронном письме. Осмотрев типы объектов, найденных в этом электронном письме, мы можем предположить, что электронное письмо обсуждает юридический вопрос:

Запрос магазина документов (Ravendb) с помощью «Демо -приложения ECA»

Снимок экрана ниже показывает базу данных Enron в Ravendb Studio, заполненную обработанным выводом API платформы. Только некоторые из полей документов базы данных, хранящихся в Ravendb, могут вписаться в снимок экрана, есть гораздо больше полей. Названия столбцов с аннотацией красной границы являются коллекциями объектов:

Снимок экрана ниже показывает некоторые из 31 индексов RavendB, которые использует «Демо -приложение ECA» для запроса хранилища документов (обратите внимание, что «метадатапропертииндекс» показывает, что в этой базе данных хранится 37,7 млн. Свойства метаданных: в основном по электронной почте, в дополнение ко всему извлеченному тексту):

«Metadatapropertyindex» C# код класса отображается ниже. Этот индексный класс происходит от AbstractIndExcreationtask от Ravendb (как и все другие индексы в этой демонстрации). Этот индекс позволит Lucene «как» запросы на всех областях метаданных. Аналогичный индекс для NativedOcument.custommetAdata существует:

Все определенные индексы RAVENDB создаются в базе данных Ravendb Enron из «Демо -приложения ECA» через простой вызов API Ravendb:

«Демо -приложение ECA»

Снимок экрана ниже показывает сводную статистику обработки 189 набора данных Microsoft Outlook PST Enron (1 221 542 электронных писем и вложений, обработанных в общей сложности). Большинство электронных писем и вложений в этом наборе данных являются дублирующими документами из -за того, что сотрудники Enron, чьи данные были собраны на этапе юридического обнаружения, писали друг другу электронные письма друг с другом - статистика дедупликации, показанная на изображении ниже, была основана на бинарной/контент -хэш, в будущем мы будем обновлять этот случай (наряду с индексами RavendB), чтобы включить юридическую отрасль «Семейный Deduplication». Обратите внимание на кругоскую диаграмму классификации формата файла, сводку специальной диаграммы формата файла и сводка результатов обработки (тип перечисления со значениями ok/ronfpassword/dataerry/и т. Д.).

Подсчет файлов по сводным схемам сортировки:

Сводка метаданных (имя поля метаданных/общее количество документов) - 715 Известные уникальные имена поля метаданных во всех документах и 636 пользовательских (определенных пользовательских) полей метаданных. Этот запрос может помочь юридическим управляющим делом узнать, какие поля метаданных доступны в коллекции для поиска:

Сводка для конфиденциального элемента/предприятия для всех документов:

Резюме всех уникальных URL -адресов, найденных во всех документах (URL -адреса из каждого документа могут быть полезны, например, если компания хочет отследить потенциальные точки входа в злонамеренные URL). Открыть обнаружение SDK обнаруживает все URL-адреса от гиперссылок документов и в тексте документа (т.е. не Hyperlink):

Резюме всех паролей, найденных во всех документах. Пароли и имена пользователей-это всего лишь 2 из 25 встроенных типов «конфиденциальных элементов», поддерживаемых открытым SDK/платформой. Учетные данные пароля/имени пользователя в документах могут быть риском безопасности, их также может использоваться для повторного процесса любого документа, который имеет результат обработки «ronfpassword» (поскольку сотрудники в одной и той же компании часто отправляют друг другу электронные письма по общим зашифрованным офисным документам):

Сводка языков, обнаруженных в извлеченном тексте обработанных документов:

Пример полнотекстового поиска запроса (примечание: Ravendb поддерживает Lucene Queries):

Приведенный выше запрос Lucene, запрашивает поле ExtractedText и использует (необязательно) Min/Max Document SortDate для фильтрации возвращаемых результатов поиска. Было бы очень легко добавить фильтрацию результатов с помощью документов filetype или классификации формата документов (WordProcessing/Spreadsheet/Email/и т. Д.). Код C#, который выполняет запрос Lucene, выглядит следующим образом:

На этапе ECA юристы юридического рассмотрения любят создавать множество различных запросов поиска, чтобы найти ответные документы. Снимок экрана ниже показывает несколько сохраненных запросов Lucene и результатов (количество хитов документов и общий размер документов). Обратите внимание, что количество документов в этих поисках, созданных пользователем, содержит дублирующие количество документов, хотя у нас есть индексы Ravendb, в которых подсчитывается количество дублирующих документов, для этого подтверждения концепции мы еще не «помечены» документы в хранилище документов с флагом, указывающим Master/Doplicate (это «ToDo» от пользователя):: Пользователь «ToDo»):

Пример поиска с помощью SensitiveItemType (свойство на обнаруженных объектах SensitiveItem, которое идентифицирует тип конфиденциального элемента), в этом примере мы ищем все документы, которые имеют конфиденциальное элемент типа SELTICATIONTEMTYPE.BankAccount:

Пример Поиск по объекту EntityItemType (свойство на обнаруженных объектах EntityItem, которое идентифицирует тип элемента объекта), в этом примере мы ищем все документы, которые имеют элемент объекта типа EntityIteMtype.PatientNameEntry:

При снимке на экране мы используем специально созданный индекс Ravendb, который индексирует конкретные открытые открытые SDK, извлеченные типы объектов, связанные с информацией о студенте, для поиска документов, которые могут иметь информацию студента (в снимке экрана, имя студента и идентификатор студента отключены, идентификатор студента, по -видимому, является номером социального обеспечения, которое было распространено до 2000 -х годов). Аналогичным образом, у нас есть другие специальные индексы для поиска медицинских карт и информации о пациентах:

Краткое содержание

Открытые вывод платформы Discover®, хранящийся в базе данных документов, таких как Ravendb, может привести к очень мощным и быстро разработанным приложениям юридической оценки ранней оценки (ECA). Кроме того, такие приложения, как следующее, также могут быть быстро разработаны:

Мощный полнотекстовый поиск (включая получение метаданных и конфиденциальных/объектов поля объекта)
Информационное управление
Ediscovery
Анализ ответа на инцидент (IR)/
Предприятие поиск и управление контентом
Системы управления контентом
Приложения ИТ -отделения - определить документы с конфиденциальной информацией и/или, которые являются редактными, устаревшими и тривиальными (гниль).

Если бы в этом тематическом исследовании использовалась реляционная база данных вместо базы данных документов, такой как Ravendb, потребовалось бы месяцы разработки схемы базы данных и разработки процедур хранилища, а не на 2 недели, необходимо для разработки этого раннего оценки оценки (ECA).

Расширять

Дополнительная информация