OpenDiscoverPlatformCaseStudy Download - OpenDiscoverPlatformCaseStudy -Quellcode herunterladen

OpenDiscoverPlatformCaseStudy

Anderer Quellcode

1.0.0

Herunterladen

Fallstudie: Verwendung von Open Discover® Platform und Ravendb -Dokumentgeschäft in EDISCOVERY Early Case Assessment (ECA).

Eine reale Fallstudie finden Sie unter https://github.com/dotfurther/open-discover-whitepaper-1/, die das neueste verteilte Workflow-Management-System (WMS) für die verteilte Dokumentenverarbeitung und OCR demonstriert.

ECA "bezieht sich auf die Schätzung des Risikos zur Verfolgung oder Verteidigung eines Rechtsfalles. Globale Organisationen befassen sich mit rechtlichen Entdeckungs- und Offenlegungsanfragen für elektronisch gespeicherte Informationen" ESI "und Papierdokumente regelmäßig."

Open Discover® Platform ist eine höhere Ebene der Extraktion/Verarbeitungs -API von Dokumenten, die auf der Open Discover® SDK für .NET erstellt wurden.

Siehe Open Discover® SDK für .NET -Beispiele Github Repository

Dieses Repository zeigt Fälle Folgendes an:

Verwenden der Open Discover® -Plattform -API zum Verarbeiten des von EDRM und ZL Technologies, Inc. veröffentlichten Enron Microsoft Outlook PST -Datensatz. Der Datensatz beträgt 189 Microsoft Outlook PST (.PST) -Dateien mit einer Größe von ungefähr 53 GB. Es ist ein Open -Source -Datensatz.
Verwenden der Ravendb -Dokumentdatenbank zum Speichern, Index und Abfragen der von der Open Discover Platform API erzeugten Ausgabe. In der Studie verwenden wir Ravendb 5.1 als Dokumentdatenbank. Ravendb 5.1 ermöglicht nun die Indexierung von Textanhängen. Für diese Fallstudie wird der extrahierte Text jedoch als Dokument -Datensatzeigenschaft gespeichert und indiziert.
"EDISCovery Frühe Fallbewertung (ECA) Proof of Concept" Demo -Anwendung (ein C#/WPF -Anwendungsbeispiel mit Quellcode, der für diejenigen verfügbar ist, die Demo Open Discover -Plattform) zur Verfügung stehen). Von hier aus werden wir diese Demo -Anwendung als "ECA -Demo -App" bezeichnen. Diese Demo -App von Proof of Concept verwendet benutzerdefinierte Ravendb -Indizes, um abzufragen und anzuzeigen:
- Zusammenfassungen eines Dokuments zählen, Dateitypen, Dateigrößen
- Die Diagramme aller Dokumente zählen nach einem "SortDate" (Sortdate ist ein Datum, das entweder aus Dokumentmetadaten oder Dokumentdateisystemeigenschaften berechnet wird, und repräsentiert normalerweise das Datum, an dem der Dokumentinhaber zuletzt das Dokument geändert hat).
- Zusammenfassung aller Sprachen in allen Dokumenten im Datensatz.
- Zusammenfassung aller unterstützten sensiblen Elemente/Entitäten, die in allen Dokumenttext/Metadaten gefunden wurden
- Volltext-Suche mit Ravendb
- Suche nach allen Dokumenten, die einen bestimmten Typ von sensiblem Element haben (z. B. nach allen Dokumenten mit einem Bankkonto oder einer IBAN -Nummern).
- Viele Merkmale einer EDISCovery Frühe Fallbewertung (ECA)
Open Discover Plattform API + Dokumentgeschäft wie Ravendb führt zu schnellen, einfachen und leistungsstarken Volltext-Such-/EDISCODER/Information Governance-Anwendungen.

Wir haben aus folgenden Gründen den PST -Datensatz von Enron Microsoft Outlook ausgewählt:

Es handelt sich um einen gemeinsamen Benchmark-Datensatz, der in der Legal-/EDIScovery/Information Governance-Branche verwendet wird (hauptsächlich zum Vergleich von Dokumenten-/Anhangszählungen, De-Duplikation und relativer Verarbeitungs-/Indexierungsgeschwindigkeit)
Dieser Datensatz hat auch nach Runden der persönlich identifizierbaren Informationsreinigung, viel sensiblen Artikelinformationen (PII) wie Kreditkartennummern, Sozialversicherungsnummern, IBAN -Konten, Anlagekontonummern, Führerscheinen und vielem mehr. Da es sich um einen "alten" Datensatz (~ 20 Jahre) und ein öffentlich verfügbarer Datensatz handelt, wurden diejenigen, die durch den Verlust persönlicher Informationen betroffen sind, vor langer Zeit mitgeteilt.

Open Discover Platform-API ist für die Verarbeitung von Dokumentensätzen mit mehreren Threads abgelegt (normalerweise beträgt ein Satz 1000-5000 Dokumente gleichzeitig). "Bearbeiten" einer Dokumente umfasst:

Identifizieren der Dateiformatypen jedes Dokuments (1,540+ Dateiformate, die zur Identifizierung unterstützt werden)
Hashing der Dokument Bytes und/oder Inhalte (Dokumenthashes werden verwendet, um doppelte Dokumente zu identifizieren).
De-nist-inging die Dokumente (dh jedes Dokument Hash mit einer ~ 100 m bekannten NIST-Hash-Datenbank mit gemeinsamen/bekannten Dateien).
Extrahieren von Dokumenttext, Metadaten, Attributen und untergeordneten Dokumenten (Anhänge/eingebettete Objekte/Containerelemente)
Identifizierung der im extrahierten Text vorhandenen Sprachen identifizieren
Identifizieren sensibler Elemente und unterstützten Entitätstypen, die im extrahierten Text und in den Metadaten vorhanden sind. Zu den unterstützten sensiblen Artikeln gehören Sozialversicherungsnummern, Kreditkartennummern, Bankkontonummern, Anlagebonto -Nummern, IBAN, Adressen, Telefonnummern, Führerscheinnummern, Fahrzeugidentifikationsnummern (VIN), Mitgliedernummern im Gesundheitswesen und mehr. Open Discover SDK erkennt und extrahiert Informationen zu vielen Entitätstypen im Zusammenhang mit: Krankenakten, Krankenversicherung/Versicherung, Studentenaufzeichnungen, Rechtsfragen, allgemeine Konten, Geschlecht, Religion, allgemeine Versicherung und Emojis (Emoji -Unternehmen haben ihre Gruppe, Untergruppe und Beschreibung zurückgegeben).
Wenn ein Dokument über einen Anhang oder ein eingebettetes Element verfügt, wird dieses untergeordnete Element auch in den oben genannten Schritten verarbeitet. Dies dauert fort, bis keine mehr untergeordneten Dokumente bearbeitet werden (dh alle Dokumente/Anhänge/eingebetteten Elemente werden vollständig verarbeitet und dies umfasst unterstützte Containertypen wie Archive und Mail -Filialen).

Eine einzelne Instanz der Open Discover Platform-API kann in der Regel Dokumentsätze bei 40-70 GB/Stunde* verarbeiten (* Die Tarife sind von Benutzerhardware und Dateitypen im Datensatz abhängig). Es ist sehr schnell bei der Verarbeitung von Dokumenten und extrahiert gleichzeitig mehr Inhalte als die meisten EDIScovery-Software (z. B. sensible Gegenstände/Entitätserkennung und De-NIST-Ing während der Verarbeitung). Eine Open Discover Plattform -API -Demo -Anwendung, Platformapidemo.exe, wurde verwendet, um den PST -Datensatz des Enron Outlook -PST -Datensatzes zu verarbeiten. Die Demo -Anwendung von Platformapidemo.exe wickelt eine Instanz der Plattform -API -Dokumentverarbeitungsklasse. Screen -Aufnahmen von Beispiele Platformapidemo.exe -Verarbeitungsausgabe werden im nächsten Abschnitt unten angezeigt.

Die Plattformapidemo.exe wird zusammen mit der Open Discover Platform Evaluation verteilt:

Öffnen Sie Discover SDK für .NET- und Plattform -Assemblys
C# Beispielprojekt für Masseneinfüge in Ravendb
C# Beispielprojekt mit erweiterten Ravendb -Indizes
Quellcode "ECA Demo App", der die beiden oben aufgelisteten Ravendb C# -Projekte verwendet
C# Beispiel, das EDISCovery -Überprüfungssystem "Ladedateien" aus der Plattform -API -Ausgabe erstellt
Beispiel für die Indexierung von Lucene Volltext-Suche (Indizes Text/Metadaten/Sensitive Elemente aus der Plattform-API-Ausgabe)

In einem kürzlich durchgeführten Leistungstest verarbeitete der Open Discover SDK den 53-GB-Enron Microsoft Outlook PST-Datensatz und die Masse die Plattform-API-Ausgabe (Text/Metadaten/empfindliche Elemente (PXI)/usw.) in etwas mehr als 30 Minuten mit einem einzigen 4-Core-Windows-Desktop-PC in RAVENDB.

** Diese Fallstudie -Verarbeitungsrate war für die .NET 4.62 -Version von SDK, die neue .NET 6 -Version ist durchschnittlich> 100% schneller, alle PST -Verarbeitungsaufgaben auf der .NET 6 -Version von OpendiscoverPlatform verarbeitet ihre PST -Datensatzaufgaben zwischen 90 bis 100+GB/HR -Raten (basierend I7 CPU und 16 GB RAM).

Überblicklich an die Arten von Inhalten, die Discover -Plattform -API von Enron Microsoft Outlook PST -Datensatz geöffnet haben (dh die Arten von Inhalten, die für jedes Dokument in einen Ravendb -Dokumentspeicher eingefügt wurden):

Der Screenshot unten zeigt einen E -Mail -Element (und seine Anhänge), der aus dem Outlook PST -Container extrahiert und von der Plattformapidemo.exe -Anwendung verarbeitet wurde. Die E -Mail stammt von einem der PSTs von Enron Microsoft Outlook. Die Baumansicht -Steuerung auf der linken Seite des Bildes zeigt die Eltern/untergeordnete Hierarchie aller verarbeiteten Dokumente/Container. Wenn Sie auf ein Element in der Baumsteuerung klicken, wird der extrahierte Inhalt angezeigt. Für das ausgewählte Outlook -E -Mail -Element in der Baumansicht können wir feststellen, dass es 6 ms Büro -Word -Dokumente als Anhänge hat, die aus der E -Mail extrahiert wurden. Bei jedem Anhang/eingebettetem Element wurde auch der Inhalt extrahiert (die Verarbeitung wird eine übergeordnete Kinderhierarchie vollständig abrollen, egal wie komplex). Beachten Sie die Ergebnisse der Dateiformatidentifikation, berechnete "Sortdate", verschiedene Dokument-Hashes, die extrahierten Metadaten und andere Registerkartenelemente auf der oberen rechten Seite des Bildes, die andere extrahierte Inhalte enthalten:

E -Mail spezifische Inhalte wie alle Empfänger und zusätzlichen Hashes:

Dieser verarbeitete E -Mail -Screenshot zeigt eine Bankkontonummer, die im extrahierten Text der E -Mail als "sensibler Element" extrahiert/identifiziert wurde (alle extrahierten Text und alle Metadaten werden nach sensiblen Elementen gescannt):

Einige "Entitäten" identifizierten und extrahierten in einer anderen E -Mail. Durch die Überprüfung der in dieser E -Mail gefundenen Unternehmen können wir vermuten, dass die E -Mail eine rechtliche Angelegenheit erörtert:

Abfragen des Dokumentgeschäfts (Ravendb) mit der "ECA -Demo -App"

Der Screenshot unten zeigt die Enron -Datenbank in Ravendb Studio, die mit der verarbeiteten Plattform -API -Ausgabe besiedelt ist. Nur einige der in Ravendb gespeicherten Datenbankdokumentfelder könnten in den Screenshot passen, es gibt noch viele weitere Felder. Die Spaltennamen mit einer Annotation mit rotem Rand sind Sammlungen von Objekten:

Der Screenshot unten zeigt einige der 31 Ravendb -Indizes, mit denen die "ECA -Demo -App" den Dokumentenstore abfragt (beachten Sie, dass die "metadatapropertyIndex" zeigt, dass in dieser Datenbank 37,7 Millionen Metadaten -Eigenschaften gespeichert sind.

Der C -# -Code "metadatapropertyIndex" C# wird unten angezeigt. Diese Indexklasse stammt aus Ravendbs AbstractIndexcreationTask (ebenso wie alle anderen Indizes in dieser Demo). Dieser Index ermöglicht Lucene, wie Abfragen auf allen Metadatenfeldern. Ein ähnlicher Index für nativedocument.Custommetadata existiert:

Alle C# definierten Ravendb -Indizes werden in der Ravendb Enron -Datenbank aus der "ECA Demo App" über einen einfachen Ravendb -API -Anruf erstellt:

Die "ECA -Demo -App"

Der folgende Screenshot zeigt die Verarbeitungsübersichtsstatistik des 189 Microsoft Outlook PST Enron -Datensatzes (1.221.542 E -Mails und Anhänge, die insgesamt verarbeitet wurden). Die meisten E -Mails und Anhänge in diesem Datensatz sind doppelte Dokumente, da die Enron -Mitarbeiter, deren Daten während der legalen Entdeckungsphase gesammelt wurden, sich gegenseitig hin und her verschickten - die in Bild unten gezeigten Deduplizierungsstatistiken basieren auf der Binär-/Inhalts -Hash, die wir in der Zukunft in der Zukunft aktualisieren, um die legale Industrie vorzuziehen. Beachten Sie das Kreisdiagramm der Dateiformatklassifizierung, die Zusammenfassung des spezifischen Dateiformatkartendiagramms und die Zusammenfassung der Verarbeitungsergebnisse (Aufzählungstyp mit Werten von OK/WrongPassword/DataError/etc).

Die Datei zählt nach Sortdate Summary -Diagramme:

Metadatenübersicht (Feldname/Gesamtzahl der Dokumente Metadaten) - 715 Bekannte eindeutige Metadaten -Feldnamen in allen Dokumenten und 636 benutzerdefinierte (benutzerdefinierte) Metadatenfelder. Diese Abfrage kann dem Rechtsuntersuchungsverwalter helfen, zu wissen, welche Metadatenfelder in der Sammlung verfügbar sind, um zu suchen:

Sensibilis/Entitätselement Zusammenfassung für alle Dokumente:

Zusammenfassung aller einzigartigen URLs in allen Dokumenten (URLs aus jedem Dokument können nützlich sein, wenn ein Unternehmen potenzielle böswillige URL -Einstiegspunkte aufspüren möchte). Open Discover SDK erkennt alle URLs aus Dokumenthyperlinks und im Dokumenttext (dh Nicht-Hyperlink):

Zusammenfassung aller Passwörter in allen Dokumenten. Passwörter und Benutzernamen sind nur 2 von 25 integrierten 'sensiblen Artikeln', die von der Open Discover SDK/Plattform unterstützt werden. Kennwort-/Benutzername-Anmeldeinformationen in Dokumenten können ein Sicherheitsrisiko sein. Sie können auch verwendet werden, um jedes Dokument neu zu bearbeiten, das ein Verarbeitungsergebnis von "WrongPassword" enthält (wie Mitarbeiter in derselben Firma häufig eine E-Mail mit den Kennwörtern mit freigegebenem verschlüsselten Office-Dokumenten senden):

Zusammenfassung der im extrahierten Text der verarbeiteten Dokumente erkannten Sprachen:

Beispiel Volltext-Suchabfrage (Hinweis: Ravendb unterstützt Lucene-Abfragen):

Die obige Lucene -Abfrage, fragt das Feld extrahiert und verwendet (optional) Min/Max -Dokument Sortdate, um die zurückgegebenen Suchergebnisse zu filtern. Es wäre sehr einfach, die Filterung von Ergebnissen nach Dokumentenfiletypen oder Dokumentformatklassifizierung (Wortverarbeitung/Tabelle/E -Mail/usw.) hinzuzufügen. Der C# Code, der die Lucene -Abfrage ausführt, sieht so aus:

Während der ECA -Phase erstellen Anwälte für rechtliche Überprüfung gerne viele verschiedene Suchanfragen, um antwortende Dokumente zu finden. Der Screenshot unten zeigt einige gespeicherte Lucene -Abfragen und die Ergebnisse (Anzahl der Dokumentenhits und Gesamtgröße der Dokumente). Beachten Sie, dass das Dokument in diesen von Benutzern erstellten Suchvorgängen doppelte Dokumentzählungen enthalten. Obwohl wir Ravendb -Indizes haben, die die Anzahl der doppelten Dokumente zählen, haben wir für diesen Beweis des Konzepts noch nicht "markiert" Dokumente im Dokumentspeicher mit einem Flag, das Master/Duplicate angibt (dies ist ein "Todo" von Benutzer):

Beispiel Suche nach sensitivenItemtype (eine Eigenschaft auf erkannten sensitiven Objekten, die den Typ des sensiblen Elements identifiziert), suchen wir in diesem Beispiel nach allen Dokumenten, die ein sensitives Element des Typs sensitiveItemTeMtyPe.BankAccount haben:

Beispiel Suche nach EntityItemtyPe (eine Eigenschaft auf erkannten EntitätIntem -Objekten, die den Typ des Entitätspunkts identifiziert), suchen wir in diesem Beispiel nach allen Dokumenten, die ein Entitätselement vom Typ EntityItemTyPe.patientnameEntry haben:

Im folgenden Screenshot verwenden wir einen speziell erstellten Ravendb -Index, in dem bestimmte offene Entitätstypen für Open Discover SDK extrahierte, die sich auf Schülerinformationen beziehen, um Dokumente zu finden, die möglicherweise über Schülerinformationen verfügen (im Screenshot, der Name und die Schüler -ID des Schülers werden ausgestrahlt. Ebenso haben wir andere spezielle Indizes, um nach medizinischen Unterlagen und Patienteninformationen zu suchen:

Zusammenfassung

In einer Dokumentdatenbank wie Ravendb gespeicherte Plattformplattform kann zu sehr leistungsstarken und schnell entwickelten Anwendungen für die frühe Fallbewertung (ECA) führen. Darüber hinaus können Anwendungen wie Folgendes schnell entwickelt werden:

Leistungsstarke Volltext-Suche (einschließlich Metadaten und sensibler/Entitätselement-Feld-Suchvorgänge)
Information Governance
Ediscovery
Analyse der Vorfallreaktion (IR)/Datenverletzung
Unternehmenssuche und Inhaltsverwaltung
Content -Management -Systeme
IT -Abteilungsanwendungen - Identifizieren Sie Dokumente mit sensiblen Informationen und/oder sind redunant, veraltet und trivial (FAST).

Wenn diese Fallstudie eine relationale Datenbank anstelle einer Dokumentendatenbank wie Ravendb verwendet hätte, hätte sie Monate nach dem Datenbankschema -Design- und -speicher -Verfahrensentwicklung und nicht der zwei Wochen, in der der Autor gebraucht wurde, um diesen ECA -Proof of Concept (Early Case Assessment) zu entwickeln.

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-05-25
Größe 2.13MB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

OpenDiscoverPlatformCaseStudy

Fallstudie: Verwendung von Open Discover® Platform und Ravendb -Dokumentgeschäft in EDISCOVERY Early Case Assessment (ECA).

Eine reale Fallstudie finden Sie unter https://github.com/dotfurther/open-discover-whitepaper-1/, die das neueste verteilte Workflow-Management-System (WMS) für die verteilte Dokumentenverarbeitung und OCR demonstriert.

ECA "bezieht sich auf die Schätzung des Risikos zur Verfolgung oder Verteidigung eines Rechtsfalles. Globale Organisationen befassen sich mit rechtlichen Entdeckungs- und Offenlegungsanfragen für elektronisch gespeicherte Informationen" ESI "und Papierdokumente regelmäßig."

Open Discover® Platform ist eine höhere Ebene der Extraktion/Verarbeitungs -API von Dokumenten, die auf der Open Discover® SDK für .NET erstellt wurden.

Dieses Repository zeigt Fälle Folgendes an:

Wir haben aus folgenden Gründen den PST -Datensatz von Enron Microsoft Outlook ausgewählt:

Open Discover Platform-API ist für die Verarbeitung von Dokumentensätzen mit mehreren Threads abgelegt (normalerweise beträgt ein Satz 1000-5000 Dokumente gleichzeitig). "Bearbeiten" einer Dokumente umfasst:

Überblicklich an die Arten von Inhalten, die Discover -Plattform -API von Enron Microsoft Outlook PST -Datensatz geöffnet haben (dh die Arten von Inhalten, die für jedes Dokument in einen Ravendb -Dokumentspeicher eingefügt wurden):

Abfragen des Dokumentgeschäfts (Ravendb) mit der "ECA -Demo -App"

Die "ECA -Demo -App"

Zusammenfassung

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express