OpenDiscoverPlatformCaseStudy Descargar - OpenDiscoverPlatformCaseStudy Código fuente de descarga

OpenDiscoverPlatformCaseStudy

Otro código fuente

1.0.0

Descargar

Estudio de caso: uso de la plataforma Open Discover® y la tienda de documentos Ravendb en Educación Evaltación temprana (ECA).

Consulte https://github.com/dotfurther/open-discover-whitepaper-1/ para un estudio de caso del mundo real que demuestre el último sistema de gestión de flujo de trabajo distribuido (WMS) para el procesamiento de documentos distribuidos y OCR.

ECA "se refiere a estimar el riesgo para procesar o defender un caso legal. Las organizaciones globales se ocupan de las solicitudes de descubrimiento legal y las solicitudes de divulgación de información" ESI "y documentos en papel de forma regular".

Open Discover® Platform es un mayor nivel de API de extracción de contenido/procesamiento de documentos construido en el SDK Open Discover® para .NET.

Consulte Open Discover® SDK para .NET Ejemplos Repositorio de GitHub

Este repositorio muestra los casos lo siguiente:

Utilizando la API de la plataforma Open Discover® para procesar el conjunto de datos PST de Enron Microsoft Outlook publicado por EDRM y ZL Technologies, Inc. El conjunto de datos es 189 archivos de Microsoft Outlook PST (.PST) que totalizan aproximadamente 53 GB de tamaño. Es un conjunto de datos de código abierto.
Uso de la base de datos de documentos RavendB para almacenar, indexar y consultar la salida producida por la API de la plataforma Open Discover. En el estudio usamos RavendB 5.1 como nuestra base de datos de documentos. RAVENDB 5.1 ahora permite indexar los archivos adjuntos de texto; Sin embargo, para este estudio de caso, el texto extraído se almacenará como una propiedad de registro de documentos e indexado.
Aplicación de demostración de "Evaluación de casos tempranos de Ediscovery (ECA)" (un ejemplo de la aplicación C#/WPF con el código fuente disponible para aquellos que demo abren la plataforma Discover). De aquí en adelante, nos referiremos a esta aplicación de demostración como la "aplicación de demostración ECA". Esta aplicación de demostración de prueba de concepto utiliza índices de ravendb personalizados para consultar y mostrar:
- Resúmenes de un recuento de documentos, tipos de archivos, tamaños de archivos
- Los gráficos de todos los documentos cuentan por un "sortdate" (SortDate es una fecha calculada a partir de metadatos del documento o propiedades del sistema de archivos del documento, y generalmente representa la fecha en que el propietario del documento modificó el documento por última vez).
- Resumen de todos los idiomas encontrados en todos los documentos en el conjunto de datos.
- Resumen de todos los elementos/entidades confidenciales compatibles que se encuentran en todos los textos/metadatos del documento
- Búsqueda de texto completo usando RAVENDB
- Buscando todos los documentos que tienen un tipo específico de elemento confidencial (por ejemplo, busque todos los documentos con una cuenta bancaria o números Iban).
- Muchas características de una aplicación de evaluación de casos temprano (ECA) de Ediscovery
Open Discover Platform API + Document Store, como RavendB, conduce a aplicaciones rápidas, fáciles y potentes de búsqueda de texto completo/eDiscovery/Gobierno de información.

Elegimos el conjunto de datos PST de Enron Microsoft Outlook por las siguientes razones:

Es un conjunto de datos de referencia común utilizado en las industrias legales/de gobierno de educación/información (principalmente para comparar los recuentos de documentos/archivos adjuntos, desduplicación y velocidades de procesamiento/indexación relativas)
Este conjunto de datos todavía tiene, incluso después de rondas de limpieza de información de identificación personal, información de elementos mucho sensible (PII), como números de tarjetas de crédito, números de seguro social, cuentas de Iban, números de cuenta de inversión, licencias de conducir y mucho más. Dado que es un conjunto de datos 'antiguo' (~ 20 años), y es un conjunto de datos disponible públicamente, los efectivos por la pérdida de información personal fueron notificadas hace mucho tiempo.

La API de la plataforma Open Discover tiene un propósito para el procesamiento multiproceso de conjuntos de documentos (generalmente un conjunto es de 1000-5000 documentos a la vez). 'Procesar' un conjunto de documentos incluye:

Identificación de los tipos de formato de archivo de cada documento (más de 1,540 formatos de archivo admitidos para la identificación)
Hashing los bytes y/o contenido del documento (los hash de documentos se utilizan para identificar documentos duplicados)
Deshacer los documentos (es decir, comparar cada hash de documento con una base de datos NIST con hash conocida de ~ 100 m de archivos comunes/conocidos).
Extracción del texto del documento, metadatos, atributos y documentos infantiles (archivos adjuntos/objetos integrados/elementos de contenedor)
Identificar los idiomas presentes en el texto extraído
Identificación de elementos confidenciales y tipos de entidad compatibles presentes en el texto y metadatos extraídos. Los artículos confidenciales admitidos incluyen números de Seguro Social, números de tarjeta de crédito, números de cuenta bancaria, números de cuenta de inversión, Iban, direcciones, números de teléfono, números de licencia de conducir, números de identificación de vehículos (VIN), números de miembros de la atención médica y más. Open Discover SDK detecta y extrae información sobre muchos tipos de entidades relacionados con: registros médicos, atención médica/seguro, registros de estudiantes, asuntos legales, cuentas generales, género, religión, seguro general y emojis (las entidades emoji tienen su grupo, subgrupo y descripción devuelta).
Si un documento tiene un archivo adjunto o un elemento integrado, entonces este elemento infantil también se procesa a través de los pasos anteriores, esto continúa hasta que no se deje más documentos infantiles (es decir, todos los documentos/archivos adjuntos/elementos integrados se procesan completamente y esto incluye tipos de contenedores compatibles como archivos y tiendas de correo)

Una sola instancia de API de plataforma Open Discover generalmente es capaz de procesar conjuntos de documentos a 40-70 GB/hora de hora* (* Las tarifas dependerán del hardware del usuario y los tipos de archivos en el conjunto de datos). Es muy rápido en el procesamiento de documentos al tiempo que se extrae más contenido que la mayoría de los software de eDiscovery (por ejemplo, detección de elementos/entidades confidenciales y deshidrates durante el procesamiento). Se utilizó una aplicación de demostración de API de plataforma Open Discover, PlatformApidemo.exe, para procesar el conjunto de datos PST de Enron Outlook. La aplicación de demostración de PlatformApidemo.exe envuelve una instancia de la clase de procesamiento de documentos API de plataforma. Las capturas de pantalla del ejemplo de la salida de procesamiento de PlatformApidemo.exe se muestran en la siguiente sección a continuación.

PlatformApidemo.exe se distribuye con la evaluación de plataforma Open Discover junto con:

Abra Discover SDK para .NET y ensambles de plataforma
C# Proyecto de ejemplo para insertar a granel en Ravendb
C# Proyecto de ejemplo con índices avanzados de Ravendb
Código fuente de "aplicación de demostración de ECA" que usa los dos proyectos de RavendB C# mencionados anteriormente
C# Ejemplo que crea el sistema de revisión de Ediscovery "Cargar archivos" desde la salida de la API de la plataforma
Ejemplo de indexación de búsqueda de texto completo de Lucene (índice de texto/metadatos/elementos confidenciales desde la salida de la API de la plataforma)

En una prueba de rendimiento reciente, el SDK Open Discover procesó el conjunto de datos PST de 53 GB Microsoft Outlook PST y la masa insertaron la salida de la API de la plataforma (texto/metadatos/elementos sensibles (PXI)/etc.) en RAVENDB en poco más de 30 minutos usando una sola PC de escritorio de Windows de 4 núcleos.

** Esta tasa de procesamiento de estudio de caso fue para la versión .NET 4.62 de SDK, la nueva versión de .NET 6 es> 100% más rápida en promedio, todas las tareas de procesamiento de PST en la versión .NET 6 de OpenDesscosverplatform se procesaron sus tareas de conjunto de datos PST entre 90-100+GB/HR (basado en el tamaño de entrada de entrada) con el elemento sensible detectado por detección (tasas de procesamiento de procesamiento es un hardware en estos números en estos números en estos números Utilizamos un auxil de escritorio con un auxilio de input en el tamaño de la entrada. CPU y 16 GB de RAM).

Mire rápido a los tipos de contenido que abre la API de la plataforma Discover extraída del conjunto de datos PST de Enron Microsoft Outlook (es decir, los tipos de contenido que se insertó a granel en un almacén de documentos RavendB para cada documento):

La captura de pantalla a continuación muestra un elemento de correo electrónico (y sus archivos adjuntos) que fue extraído de su contenedor PST Outlook y procesado por la aplicación PlatformApidemo.exe. El correo electrónico es de uno de los PST de Enron Microsoft Outlook. El control de la vista del árbol en el lado izquierdo de la imagen muestra la jerarquía de padres/niños de todos los documentos/contenedores procesados, y hacer clic en un elemento en el control del árbol mostrará su contenido extraído. Para el elemento de correo electrónico de Outlook seleccionado en la vista de árbol, podemos ver que tiene documentos de Word de Office de 6 ms como archivos adjuntos que se extrajeron del correo electrónico. Todos y cada uno de los elementos adjuntos/integrados también se extrajeron su contenido (procesando completamente la jerarquía infantil principal, sin importar cuán complejo). Tenga en cuenta los resultados de identificación del formato de archivo, "sortdate" calculado, varios hash de documentos, los metadatos extraídos y otros elementos de pestaña en el lado superior derecho de la imagen que contiene otro contenido extraído:

Envíe un correo electrónico a contenido específico como todos los destinatarios y hashes adicionales:

Esta captura de pantalla de correo electrónico procesada muestra un número de cuenta bancaria que se extrajo/identificó como un "elemento sensible" en el texto extraído del correo electrónico (todos los texto extraído y todos los metadatos están escaneados para elementos sensibles):

Algunas "entidades" identificadas y extraídas en un correo electrónico diferente. Al inspeccionar los tipos de entidades que se encuentran en este correo electrónico, podemos suponer que el correo electrónico está discutiendo un asunto legal:

Consulta en la tienda de documentos (RAVENDB) con la "aplicación de demostración de ECA"

La captura de pantalla a continuación muestra la base de datos Enron en Ravendb Studio poblada con la salida procesada de la API de la plataforma. Solo algunos de los campos de documentos de la base de datos almacenados en Ravendb podrían caber en la captura de pantalla, hay muchos más campos. Los nombres de la columna con una anotación de borde rojo son colecciones de objetos:

La captura de pantalla a continuación muestra algunos de los 31 índices RavendB que la "aplicación de demostración de ECA" utiliza para consultar el almacén de documentos (tenga en cuenta que el "metadatapropertyindex" muestra que hay 37.7 millones de propiedades de metadatos almacenadas en esta base de datos, principalmente metadatos de correo electrónico, además de todo el texto extraído):

El código de clase C# "metadatapropertyindex" se muestra a continuación. Esta clase de índice se deriva de la Task de CreationAdExCreation de Ravendb (al igual que todos los demás índices en esta demostración). Este índice permitirá consultas de Lucene 'Like' en todos los campos de metadatos. Un índice similar para NativedOcument.CustomMetadata existe:

Todos los índices de RavendB definidos de C# se crean en la base de datos de Ravendb Enron a partir de la "aplicación de demostración de ECA" a través de una simple llamada de API de Ravendb:

La "aplicación de demostración de ECA"

La captura de pantalla a continuación muestra las estadísticas de resumen de procesamiento del conjunto de datos de Microsoft Outlook PST Enron (1,221,542 correos electrónicos y archivos adjuntos procesados en total). La mayoría de los correos electrónicos y archivos adjuntos en este conjunto de datos son documentos duplicados debido al hecho de que los empleados de Enron cuyos datos fueron recopilados durante la fase de descubrimiento legal se estaban enviando un correo electrónico entre sí, las estadísticas de deduplicación que se muestran en la imagen a continuación se basaron en el hash binario/contenido, en el futuro, actualizaremos este estudio de caso (junto con los índices de los Ravendb) para incluir la industria legal preferida "basada en el hash". Tenga en cuenta el gráfico PIDA de clasificación de formato de archivo, el resumen del gráfico de formato de archivo específico y el resumen de los resultados del procesamiento (tipo de enumeración con valores de Ok/WrongPassword/DataSror/etc) Gráfico PIE.

Cuenta de archivos mediante gráficos de resumen SortDate:

Resumen de metadatos (nombre de campo de metadatos/número total de documentos) - 715 nombres de campo de metadatos únicos conocidos en todos los documentos y 636 campos de metadatos personalizados (definidos por el usuario). Esta consulta puede ayudar a los administradores de casos legales a saber qué campos de metadatos están disponibles en la colección para buscar:

Resumen de elementos de elemento/entidad confidenciales para todos los documentos:

Resumen de todas las URL únicas que se encuentran en todos los documentos (las URL de cada documento pueden ser útiles, por ejemplo, si una empresa desea rastrear posibles puntos de entrada de URL maliciosas). Abrir Discover SDK detecta todas las URL de los hipervínculos de documentos y en el texto del documento (es decir, no hyperlink):

Resumen de todas las contraseñas encontradas en todos los documentos. Las contraseñas y los nombres de usuario son solo 2 de los 25 tipos de 'elemento sensible' incorporado admitidos por la plataforma/plataforma Open Discover. Las credenciales de contraseña/nombre de usuario en los documentos pueden ser un riesgo de seguridad, también se pueden usar para volver a procesar cualquier documento que tenga un resultado de procesamiento de 'WrightPassword' (ya que los empleados de la misma compañía a menudo se envían por correo electrónico contraseñas a documentos de oficina cifrados compartidos):

Resumen de idiomas detectados en el texto extraído de los documentos procesados:

Ejemplo de consulta de búsqueda de texto completo (Nota: Ravendb admite consultas de Lucene):

La consulta de Lucene anterior, consulta el campo ExtractedText y usa (opcionalmente) Min/Max Document SortDate para filtrar los resultados de búsqueda devueltos. Sería muy fácil agregar también el filtrado de resultados mediante el tipo de archivo de documento o clasificación de formato de documento (procesamiento de palabras/hoja de cálculo/correo electrónico/etc.). El código C# que realiza la consulta de Lucene se ve así:

Durante la fase ECA, a los abogados de revisión legal les gusta crear muchas consultas de búsqueda diferentes para encontrar documentos de respuesta. La captura de pantalla a continuación muestra algunas consultas de Lucene guardadas y los resultados (número de golpes de documentos y tamaño total de los documentos). Tenga en cuenta que los recuentos de documentos en estas búsquedas creadas por el usuario contienen recuentos de documentos duplicados, aunque tenemos índices RavendB que cuentan el número de documentos duplicados, para esta prueba de concepto, aún no hemos "marcado" documentos en la tienda de documentos con un indicador que indique maestro/duplicado (esto es un 'TODO' por usuario):

Ejemplo de búsqueda por SensitiveItemType (una propiedad en objetos SensitiveItem detectados que identifica el tipo de elemento sensible), en este ejemplo buscamos todos los documentos que tienen un elemento sensible de tipo SensitiveItemType.BankAccount:

Ejemplo de búsqueda por EntityItemType (una propiedad en objetos de entidad detectados que identifica el tipo de elemento de entidad), en este ejemplo buscamos todos los documentos que tienen un elemento de entidad de tipo entityItemType.patientNameEntry:

En la captura de pantalla a continuación, utilizamos un índice RavendB especialmente creado que indexa los tipos de entidad extraídos de SDK abiertos específicos relacionados con la información del estudiante para encontrar documentos que puedan tener información del estudiante (en la captura de pantalla, el nombre del estudiante y la identificación del estudiante se bloquean, la identificación del estudiante parece ser un número de seguridad social que era común antes de la década de 2000). Del mismo modo, tenemos otros índices especiales para buscar registros médicos e información del paciente:

Resumen

La salida de la plataforma Open Discover® almacenada en una base de datos de documentos como RAVENDB puede conducir a aplicaciones de evaluación de casos temprana (ECA) muy potentes y rápidamente desarrolladas. Además, las aplicaciones como las siguientes también se pueden desarrollar rápidamente:

Potente búsqueda de texto completo (incluidos metadatos y búsquedas de campo de elementos sensibles/entidad)
Gobernanza de la información
comedia
Respuesta a incidentes (IR)/Análisis de violación de datos
Búsqueda empresarial y gestión de contenido
Sistemas de gestión de contenido
Aplicaciones del departamento de TI: identifique documentos con información confidencial y/o que sean redunantes, obsoletas y triviales (ROT).

Si este estudio de caso hubiera utilizado una base de datos relacional en lugar de una base de datos de documentos como RAVENDB, habría llevado meses de diseño de esquema de bases de datos y desarrollo de procedimientos de almacenamiento y no las 2 semanas en el tiempo que llevó al autor desarrollar esta prueba de concepto de evaluación de casos temprano (ECA).

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-05-25
tamaño 2.13MB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo