OpenDiscoverPlatformCaseStudyダウンロードOpenDiscoverPlatformCaseStudyソースコードダウンロード

OpenDiscoverPlatformCaseStudy

その他のソースコード

1.0.0

ダウンロード

ケーススタディ：Ediscovery Earty Case Assessment（ECA）でのOpenDiscover®プラットフォームおよびRavendbドキュメントストアの使用。

分散ドキュメント処理およびOCRの最新のワークフロー管理システム（WMS）を実証する実世界のケーススタディについては、https://github.com/dotfurther/open-discover-whitepaper-1/を参照してください。

ECAとは、法的訴訟を起訴または擁護するためのリスクを推定することを指します。グローバル組織は、定期的に電子的に保存された情報「ESI」と論文文書の法的発見と開示要求を扱います。」

OpenDiscover®プラットフォームは、.NET用のOpenDiscover®SDKに基づいて構築されたドキュメントコンテンツ抽出/処理APIの高レベルです。

.NETの例については、GitHubリポジトリのOpenDiscover®SDKを参照してください

このリポジトリには、次のケースが表示されます。

OpenDiscover®プラットフォームAPIを使用して、EDRMおよびZL Technologies、Incによって公開されたEnron Microsoft Outlook PST Datasetを処理します。データセットは、合計約53 GBのサイズの189 Microsoft Outlook PST（.PST）ファイルです。オープンソースのデータセットです。
RavendBドキュメントデータベースを使用して、Open Discover Platform APIによって生成された出力を保存、インデックス、およびクエリします。この調査では、Ravendb 5.1をドキュメントデータベースとして使用しています。 Ravendb 5.1では、テキスト添付ファイルをインデックス付けすることができます。ただし、このケーススタディでは、抽出されたテキストはドキュメントレコードプロパティとして保存され、インデックス化されます。
「ediscovery Early Case Assessment（ECA）概念実証」デモアプリケーション（Demo Open Discoverプラットフォームが利用できるソースコードを使用したC＃/WPFアプリケーションの例）。これからは、このデモアプリケーションを「ECAデモアプリ」と呼びます。この概念実証デモアプリでは、カスタムRavendBインデックスを使用してクエリと表示します。
- ドキュメントカウント、ファイルタイプ、ファイルサイズの概要
- すべてのドキュメントのチャートは「sortdate」によってカウントされます（sortdateは、ドキュメントメタデータまたはドキュメントファイルシステムプロパティから計算された日付であり、通常、ドキュメント所有者が最後にドキュメントを変更した日付を表します）。
- データセットのすべてのドキュメントにあるすべての言語の概要。
- すべてのドキュメントテキスト/メタデータにあるすべてのサポートされている敏感なアイテム/エンティティの要約
- RavendBを使用したフルテキスト検索
- 特定のタイプの機密アイテムを持つすべてのドキュメントを検索します（たとえば、銀行口座またはIBAN番号ですべてのドキュメントを検索します）。
- ediscoveryの早期症例評価（ECA）アプリケーションの多くの機能
RavendbなどのオープンディスカバープラットフォームAPI +ドキュメントストアは、高速で簡単で強力なフルテキスト検索/ediscovery/情報ガバナンスアプリケーションにつながります。

次の理由で、Enron Microsoft Outlook PSTデータセットを選択しました。

これは、法律/編集/情報ガバナンス業界で使用される一般的なベンチマークデータセットです（主にドキュメント/添付ファイルカウント、重複脱倍数、相対処理/インデックス速度を比較するため）
このデータセットには、個人を特定できる情報クレンジングのラウンドの後でも、クレジットカード番号、社会保障番号、IBANアカウント、投資口座番号、運転免許証など、非常に機密のアイテム情報（PII）があります。それは「古い」データセット（〜20年）であり、公的に利用可能なデータセットであるため、個人情報の損失によって影響されたデータセットはずっと前に通知されました。

Open Discover Platform APIは、ドキュメントのセットのマルチスレッド処理を目的としています（通常、セットは一度に1000〜5000ドキュメントです）。「処理」ドキュメントのセットには次のものが含まれます。

各ドキュメントのファイル形式タイプの識別（識別のためにサポートされる1,540+ファイル形式）
ドキュメントバイトおよび/またはコンテンツをハッシュする（ドキュメントハッシュは、重複したドキュメントを識別するために使用されます）
ドキュメントの削除（つまり、各ドキュメントハッシュを共通/既知のファイルの既知の既知のハッシュデータベースと比較します）。
ドキュメントテキスト、メタデータ、属性、および子ドキュメントの抽出（添付ファイル/組み込みオブジェクト/コンテナアイテム）
抽出されたテキストに存在する言語を識別します
抽出されたテキストとメタデータに存在する敏感なアイテムとサポートされているエンティティタイプを識別します。サポートされている敏感なアイテムには、社会保障番号、クレジットカード番号、銀行口座番号、投資口座番号、IBAN、住所、電話番号、運転免許証番号、車両識別番号（VIN）、ヘルスケアメンバー番号などが含まれます。 OPEN SDKは、医療記録、ヘルスケア/保険、学生記録、法的問題、一般的なアカウント、性別、宗教、一般的な保険、絵文字に関連する多くのエンティティタイプに関する情報を検出および抽出します（絵文字団体、サブグループ、および説明が返されます）。
ドキュメントに添付ファイルまたは埋め込みアイテムがある場合、この子アイテムは上記の手順を通じて処理されます。これは、子ドキュメントが処理されるまで続きます（つまり、すべてのドキュメント/添付ファイル/埋め込みアイテムが完全に処理され、これにはアーカイブやメールストアなどのサポートされているコンテナタイプが含まれます）

Open DiscoverプラットフォームAPIの単一のインスタンスは、通常、40〜70 GB/時間レートでドキュメントセットを処理できます（*レートは、データセットのユーザーハードウェアとファイルタイプに依存します）。ドキュメントの処理では非常に高速ですが、ほとんどのediscoveryソフトウェアよりも多くのコンテンツを抽出します（たとえば、処理中に敏感なアイテム/エンティティの検出とデニストング）。 Open Discover Platform API DEMOアプリケーションであるPlatformApidemo.exeを使用して、Enron Outlook PSTデータセットを処理しました。 PlatformApidemo.exeデモアプリケーションは、プラットフォームAPIドキュメント処理クラスの1つのインスタンスをラップします。 PlatformApidemo.exe処理出力の例のスクリーンショットは、以下の次のセクションに示されています。

PlatformApidemo.exeは、以下のオープンディスカバープラットフォームの評価で配布されます。

.NETおよびプラットフォームアセンブリ用のSDKを発見します
c＃ravendbを挿入するためのプロジェクトの例
高度なRavendBインデックスを備えたC＃例プロジェクト
上記の2つのRavendb C＃プロジェクトを使用する「ECAデモアプリ」ソースコード
ediscoveryレビューシステムを作成するc＃例は、プラットフォームAPI出力から「ファイルをロードする」
Luceneフルテキスト検索インデックスの例（プラットフォームAPI出力からのインデックステキスト/メタデータ/敏感なアイテム）

最近のパフォーマンステストでは、Open Discover SDKが53 GB Enron Microsoft Outlook PST Datasetを処理し、1つの4コアWindowsデスクトップPCを使用して30分強でプラットフォームAPI出力（テキスト/メタデータ/敏感なアイテム/など）をRavendBに挿入しました。

**このケーススタディの処理率は、.NET 4.62バージョンのSDK用でした。新しい.NET 6バージョンは平均して100％> 100％高速であり、OpenDiscoverPlatformの.NET 6バージョンのすべてのPST処理タスクは、90-100+GB/HRレートの間にPSTデータセットタスクを処理しました。 Intel I7 CPUおよび16GB RAM）。

Enron Microsoft Outlook PST Dataset（つまり、各ドキュメントのRavendbドキュメントストアに挿入されたバルクのコンテンツのタイプ）から抽出されたプラットフォームAPIを開くコンテンツの種類を簡単に見てください。

下のスクリーンショットは、Outlook PSTコンテナから抽出され、PlatformApidemo.exeアプリケーションによって処理された電子メールアイテム（およびその添付ファイル）を示しています。このメールは、Enron Microsoft Outlook PSTSの1つからのものです。画像の左側にあるツリービューコントロールは、すべての処理されたドキュメント/コンテナの親/子階層を示しており、ツリーコントロール内のアイテムをクリックすると、抽出されたコンテンツが表示されます。ツリービューで選択したOutlookメールアイテムの場合、電子メールから抽出された添付ファイルとして6ミリ秒のOffice Wordドキュメントがあることがわかります。すべての添付ファイル/埋め込みアイテムにもコンテンツが抽出されました（処理は、どんなに複雑であっても、親子の階層を完全に展開します）。「SORTDATE」、さまざまなドキュメントハッシュ、抽出されたメタデータ、および他の抽出されたコンテンツを含む画像の右上にあるその他のタブ項目を計算したファイル形式の識別結果に注意してください。

すべての受信者や追加のハッシュなどの特定のコンテンツにメールしてください：

この処理された電子メールスクリーンショットは、電子メールの抽出されたテキストで「敏感なアイテム」として抽出/識別された銀行口座番号を示しています（すべての抽出されたテキストとすべてのメタデータは、敏感なアイテムのためにスキャンされます）：

いくつかの「エンティティ」は、別の電子メールで識別および抽出されました。この電子メールにあるエンティティの種類を検査することにより、電子メールが法的問題について議論していることを推測できます。

「ECAデモアプリ」でドキュメントストア（Ravendb）をクエリする

下のスクリーンショットは、プラットフォームAPIプロセス出力が入力されたRavendb StudioのEnronデータベースを示しています。 RavendBに保存されているデータベースドキュメントフィールドの一部のみが、スクリーンショットに収まることができ、さらに多くのフィールドがあります。赤いボーダー注釈を持つ列名は、オブジェクトのコレクションです。

以下のスクリーンショットは、「ECAデモアプリ」がドキュメントストアを照会するために使用する31のRavendBインデックスの一部を示しています（「MetadatapropertyIndex」は、このデータベースに保存されている3770万メタデータプロパティがあることを示しています。

「metadatapropertyindex」C＃クラスコードを以下に示します。このインデックスクラスは、RavendBのAbstractIndexCreationTaskから派生しています（このデモの他のすべてのインデックスと同様）。このインデックスにより、すべてのメタデータフィールドでLuceneの「いいね」クエリが可能になります。 nativedocument.custommetadataの同様のインデックスが存在します。

すべてのC＃定義されたRavendBインデックスは、単純なRavendB API呼び出しを介して「ECAデモアプリ」からRavendB Enronデータベースに作成されます。

「ECAデモアプリ」

以下のスクリーンショットは、189 Microsoft Outlook PST Enronデータセットの処理概要統計を示しています（合計で処理された1,221,542の電子メールと添付ファイル）。このデータセットの電子メールと添付ファイルのほとんどは、法的発見段階でデータが互いに電子メールを送信していたエンロンの従業員が前後に電子メールを送信しているという事実のために、重複したドキュメントです。以下の画像に示されている重複排除統計は、バイナリ/コンテンツハッシュに基づいています。ファイル形式の分類パイチャート、特定のファイル形式のパイチャートの概要、および処理結果の概要（OK/誤りの値/DataError/etcの値を備えた列挙タイプ）パイチャートに注意してください。

SORTDATEサマリーチャートによるファイルカウント：

メタデータの概要（メタデータフィールド名/ドキュメントの総数）-715すべてのドキュメントにわたって既知の一意のメタデータフィールド名と636カスタム（ユーザー定義）メタデータフィールド。このクエリは、法的ケースマネージャーがコレクションでどのメタデータフィールドが利用可能であるかを検索するのに役立ちます。

すべてのドキュメントの敏感なアイテム/エンティティアイテムの概要：

すべてのドキュメントで見つかったすべての一意のURLの概要（たとえば、企業が潜在的な悪意のあるURLエントリポイントを追跡したい場合など）。 Open SDKは、ドキュメントハイパーリンクおよびドキュメントテキスト（つまり、非ハイパーリンク）からすべてのURLを検出します。

すべてのドキュメントにあるすべてのパスワードの概要。パスワードとユーザー名は、Open Discover SDK/Platformでサポートされている25の組み込みの「敏感なアイテム」タイプのうち2つです。ドキュメントのパスワード/ユーザー名資格情報はセキュリティリスクになる可能性があります。また、「間違ったパスワード」の処理結果があるドキュメントを再処理するために使用することもできます（同じ会社の従業員は、共有された暗号化されたオフィスドキュメントにお互いのパスワードをメールで送信することが多いため）：

処理されたドキュメントの抽出されたテキストで検出された言語の概要：

フルテキスト検索クエリの例（注：RavendbはLuceneクエリをサポートしています）：

上記のLuceneクエリは、ExtractedTextフィールドをクエリし、（オプションで）Min/Max Document SortDateを使用して、返された検索結果をフィルタリングします。また、ドキュメントのFiletypeまたはドキュメント形式の分類（WordProcessing/Spreadsheet/Emailなど）による結果のフィルタリングを追加することも非常に簡単です。ルーセンクエリを実行するC＃コードは次のようになります。

ECA段階では、法律審査弁護士は、応答するドキュメントを見つけるために、さまざまな検索クエリを作成したいと考えています。下のスクリーンショットは、いくつかの保存されたルーセンクエリと結果（ドキュメントのヒット数とドキュメントの合計サイズ）を示しています。これらのユーザー作成された検索でドキュメントカウントには重複したドキュメントカウントが含まれていますが、重複したドキュメントの数をカウントするRavendBインデックスがありますが、この概念の証明については、マスター/重複を示すフラグがあるドキュメントストアでドキュメントストアに「マーク」ドキュメントをまだ「マーク」していません（これはユーザーによる「TODO」です）：

SensitiveItemTypeによる検索の例（機密項目のタイプを識別する検出された感度オブジェクト上のプロパティ）、この例では、SensitiveItemType.bankaccountの機密項目を持つすべてのドキュメントを検索します。

ENTITYITEMTYPEによる検索の例（エンティティアイテムのタイプを識別する検出されたエンティティイエントオブジェクトのプロパティ）、この例では、entityItemType.patientNameEntryのタイプのエンティティアイテムを持つすべてのドキュメントを検索します。

以下のスクリーンショットでは、学生情報に関連する特定のオープンディスカバーSDK抽出エンティティタイプをインデックス化する特別に作成されたRavendBインデックスを使用して、学生情報を持っている可能性のあるドキュメントを見つけます（スクリーンショット、学生の名前と学生IDは2000年代以前に一般的な社会保障番号のように見えます）。同様に、医療記録や患者情報を検索する他の特別なインデックスがあります。

まとめ

RavendBなどのドキュメントデータベースに保存されているOpenIsducag®プラットフォーム出力は、非常に強力で急速に開発された法的早期症例評価（ECA）アプリケーションにつながる可能性があります。さらに、次のようなアプリケーションも迅速に開発できます。

強力なフルテキスト検索（メタデータおよび敏感/エンティティアイテムフィールド検索を含む）
情報ガバナンス
ediscovery
インシデント応答（IR）/データ侵害分析
エンタープライズ検索とコンテンツ管理
コンテンツ管理システム
IT部門アプリケーション - 敏感な情報、および/またはそれを是正し、時代遅れで、些細な（腐敗）を備えたドキュメントを特定します。

このケーススタディがRavendBなどのドキュメントデータベースの代わりにリレーショナルデータベースを使用していた場合、この初期症例評価（ECA）の概念実証を開発するのに2週間ではなく、データベーススキーマの設計と保存手順の開発を数か月かけていました。

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-05-25
サイズ 2.13MB
から Github

OpenDiscoverPlatformCaseStudy

ケーススタディ：Ediscovery Earty Case Assessment（ECA）でのOpenDiscover®プラットフォームおよびRavendbドキュメントストアの使用。

分散ドキュメント処理およびOCRの最新のワークフロー管理システム（WMS）を実証する実世界のケーススタディについては、https://github.com/dotfurther/open-discover-whitepaper-1/を参照してください。

ECAとは、法的訴訟を起訴または擁護するためのリスクを推定することを指します。グローバル組織は、定期的に電子的に保存された情報「ESI」と論文文書の法的発見と開示要求を扱います。」

OpenDiscover®プラットフォームは、.NET用のOpenDiscover®SDKに基づいて構築されたドキュメントコンテンツ抽出/処理APIの高レベルです。

このリポジトリには、次のケースが表示されます。

次の理由で、Enron Microsoft Outlook PSTデータセットを選択しました。

Open Discover Platform APIは、ドキュメントのセットのマルチスレッド処理を目的としています（通常、セットは一度に1000〜5000ドキュメントです）。「処理」ドキュメントのセットには次のものが含まれます。

Enron Microsoft Outlook PST Dataset（つまり、各ドキュメントのRavendbドキュメントストアに挿入されたバルクのコンテンツのタイプ）から抽出されたプラットフォームAPIを開くコンテンツの種類を簡単に見てください。

「ECAデモアプリ」でドキュメントストア（Ravendb）をクエリする

「ECAデモアプリ」

まとめ

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express

OpenDiscoverPlatformCaseStudy

ケーススタディ：Ediscovery Earty Case Assessment（ECA）でのOpenDiscover®プラットフォームおよびRavendbドキュメントストアの使用。

分散ドキュメント処理およびOCRの最新のワークフロー管理システム（WMS）を実証する実世界のケーススタディについては、https://github.com/dotfurther/open-discover-whitepaper-1/を参照してください。

ECAとは、法的訴訟を起訴または擁護するためのリスクを推定することを指します。グローバル組織は、定期的に電子的に保存された情報「ESI」と論文文書の法的発見と開示要求を扱​​います。」

OpenDiscover®プラットフォームは、.NET用のOpenDiscover®SDKに基づいて構築されたドキュメントコンテンツ抽出/処理APIの高レベルです。

このリポジトリには、次のケースが表示されます。

次の理由で、Enron Microsoft Outlook PSTデータセットを選択しました。

Open Discover Platform APIは、ドキュメントのセットのマルチスレッド処理を目的としています（通常、セットは一度に1000〜5000ドキュメントです）。 「処理」ドキュメントのセットには次のものが含まれます。

Enron Microsoft Outlook PST Dataset（つまり、各ドキュメントのRavendbドキュメントストアに挿入されたバルクのコンテンツのタイプ）から抽出されたプラットフォームAPIを開くコンテンツの種類を簡単に見てください。

「ECAデモアプリ」でドキュメントストア（Ravendb）をクエリする

「ECAデモアプリ」

まとめ

ECAとは、法的訴訟を起訴または擁護するためのリスクを推定することを指します。グローバル組織は、定期的に電子的に保存された情報「ESI」と論文文書の法的発見と開示要求を扱います。」

Open Discover Platform APIは、ドキュメントのセットのマルチスレッド処理を目的としています（通常、セットは一度に1000〜5000ドキュメントです）。「処理」ドキュメントのセットには次のものが含まれます。