OpenDiscoverPlatformCaseStudy 다운로드 OpenDiscoverPlatformCaseStudy 소스 코드 다운로드

OpenDiscoverPlatformCaseStudy

기타 소스코드

1.0.0

다운로드

사례 연구 : EDISCOVERY 초기 사례 평가 (ECA)에서 Open Discover® 플랫폼 및 RAVENDB 문서 저장소 사용.

배포 된 문서 처리 및 OCR에 대한 최신 분산 워크 플로 관리 시스템 (WMS)을 보여주는 실제 세계 사례 연구에 대해서는 https://github.com/dotfurther/open-discover-whitepaper-1/를 참조하십시오.

ECA는 "법적 사건을 기소하거나 방어 할 위험을 추정하는 것을 말합니다. 글로벌 조직은 전자적으로 저장된 정보"ESI "및 종이 문서에 대한 법적 발견 및 공개 요청을 정기적으로 처리합니다."

Open Discover® 플랫폼은 .NET 용 Open Discover® SDK에 구축 된 더 높은 수준의 문서 컨텐츠 추출/처리 API입니다.

.NET 예제 GitHub 리포지토리는 Open Discover® SDK를 참조하십시오

이 저장소는 다음을 보여줍니다.

Open Discover® 플랫폼 API를 사용하여 EDRM 및 ZL Technologies, Inc에서 게시 한 Enron Microsoft Outlook PST 데이터 세트를 처리합니다. 데이터 세트는 총 53GB의 총 53GB의 189 Microsoft Outlook PST (.PST) 파일입니다. 오픈 소스 데이터 세트입니다.
RavEndb 문서 데이터베이스를 사용하여 Open Discover Platform API에서 생성 한 출력을 저장, 인덱스 및 쿼리합니다. 이 연구에서 우리는 Ravendb 5.1을 문서 데이터베이스로 사용합니다. Ravendb 5.1은 이제 텍스트 첨부 파일을 색인화 할 수 있습니다. 그러나이 사례 연구에서 추출 된 텍스트는 문서 레코드 속성으로 저장되고 색인화됩니다.
"EDISCOVERY 초기 사례 평가 (ECA) 개념 증명"데모 애플리케이션 (Demo Open Discover Platform 데모에 사용할 수있는 소스 코드가 포함 된 C#/WPF 응용 프로그램 예). 여기에서 우리는이 데모 응용 프로그램을 "ECA 데모 앱"이라고합니다. 이 컨셉 데모 앱은 쿼리 및 디스플레이를 위해 사용자 정의 ravendb 인덱스를 사용합니다.
- 문서 수, 파일 유형, 파일 크기의 요약
- 모든 문서의 차트는 "SortDate"로 계산됩니다 (SortDate는 문서 메타 데이터 또는 문서 파일 시스템 속성에서 계산 된 날짜이며 일반적으로 문서 소유자가 문서를 마지막으로 수정 한 날짜를 나타냅니다).
- 데이터 세트의 모든 문서에있는 모든 언어 요약.
- 모든 지원되는 민감한 항목/엔티티 모든 문서 텍스트/메타 데이터 요약
- RavendB를 사용한 전체 텍스트 검색
- 특정 유형의 민감한 항목이있는 모든 문서를 검색합니다 (예 : 은행 계좌 또는 IBAN 번호로 모든 문서를 검색).
- EDISCOVERY 초기 사례 평가 (ECA) 응용 프로그램의 많은 기능
Open Discover Platform API + Document Store와 같은 Ravendb는 빠르고 쉽고 강력하며 강력한 전체 텍스트 검색/Ediscovery/Information Governance 응용 프로그램으로 이어집니다.

다음과 같은 이유로 Enron Microsoft Outlook PST 데이터 세트를 선택했습니다.

법률/edscovery/정보 거버넌스 산업에 사용되는 일반적인 벤치 마크 데이터 세트입니다 (대부분 문서/첨부 파일 수, 복제 및 상대적 처리/인덱싱 속도 비교)
이 데이터 세트에는 개인 식별 정보 정리 라운드 후에도 신용 카드 번호, 사회 보장 번호, IBAN 계정, 투자 계좌 번호, 운전 면허증 등과 같은 많은 민감한 항목 정보 (PII)가 있습니다. '오래된'데이터 세트 (~ 20 년)이므로 공개적으로 사용 가능한 데이터 세트이므로 개인 정보 손실로 인한 영향을받는 데이터 세트에 오래 전부터 통보되었습니다.

Open Discover Platform API는 문서 세트의 다중 스레드 처리를위한 목적입니다 (일반적으로 세트는 한 번에 1000-5000 문서입니다). '처리'문서 세트에는 다음이 포함됩니다.

각 문서의 파일 형식 유형 식별 (식별을 위해 지원되는 1,540+ 파일 형식)
문서 바이트 및/또는 컨텐츠 해시 (문서 해시는 중복 문서를 식별하는 데 사용됩니다)
문서를 de-nist-ining (즉, 각 문서 해시를 공통/알려진 파일의 ~ 100m 알려진 NIST 해시 데이터베이스와 비교).
문서 텍스트, 메타 데이터, 속성 및 하위 문서 추출 (첨부/임베디드 오브젝트/컨테이너 항목)
추출 된 텍스트에 존재하는 언어를 식별합니다
추출 된 텍스트 및 메타 데이터에 존재하는 민감한 항목 및 지원되는 엔티티 유형을 식별합니다. 지원되는 민감한 품목에는 사회 보장 번호, 신용 카드 번호, 은행 계좌 번호, 투자 계좌 번호, IBAN, 주소, 전화 번호, 운전 면허 번호, 차량 식별 번호 (VIN), 건강 관리 회원 번호 등이 포함됩니다. Open Discover SDK는 의료 기록, 건강 관리/보험, 학생 기록, 법적 문제, 일반 계정, 성별, 종교, 일반 보험 및 이모티콘과 관련된 많은 실체 유형에 대한 정보를 탐지하고 추출합니다 (이모티콘 엔티티는 그룹, 하위 그룹 및 설명이 반환 됨).
문서에 첨부 또는 내장 항목이있는 경우이 하위 항목은 위의 단계를 통해 처리됩니다. 이는 더 이상 하위 문서가 처리 할 수 없을 때까지 계속됩니다 (즉, 모든 문서/첨부/임베디드 품목이 완전히 처리되며 여기에는 아카이브 및 우편 상점과 같은 지원되는 컨테이너 유형이 포함됩니다).

Open Discover Platform API의 단일 인스턴스는 일반적으로 문서 세트를 40-70GB/시간 요금으로 처리 할 수 있습니다 (* 요금은 데이터 세트의 사용자 하드웨어 및 파일 유형에 따라 다름). 대부분의 edscovery 소프트웨어보다 더 많은 컨텐츠를 추출하면서 문서를 처리하는 데 매우 빠릅니다 (예 : 처리하는 동안 민감한 항목/엔티티 감지 및 De-Nist-ing). Open Discover Platform API Demo 응용 프로그램 인 Platformapidemo.exe는 Enron Outlook PST 데이터 세트를 처리하는 데 사용되었습니다. PlatformApidemo.exe 데모 애플리케이션은 플랫폼 API 문서 처리 클래스의 한 인스턴스를 랩합니다. 예제 PlatformApidemo.exe 처리 출력의 스크린 샷은 아래의 다음 섹션에 나와 있습니다.

Platformapidemo.exe는 Open Discover Platform 평가와 함께 다음과 같이 배포됩니다.

.NET 및 플랫폼 어셈블리 용 Discover SDK를 엽니 다
C# RavendB에 벌크 삽입을위한 예제 프로젝트
C# 고급 RAVENDB 인덱스가있는 예제 프로젝트
위의 두 개의 나열된 Ravendb C# 프로젝트를 사용하는 "ECA 데모 앱"소스 코드
c# eDiscovery 검토 시스템을 생성하는 예제 플랫폼 API 출력에서 "파일로드"
Lucene Full-Text 검색 인덱싱 예제 (색인 텍스트/메타 데이터/플랫폼 API 출력의 민감한 항목)

최근 성능 테스트에서 Open Discover SDK는 53GB Enron Microsoft Outlook PST 데이터 세트를 처리했으며 Bulk는 단일 4 코어 Wind

**이 사례 연구 처리 속도는 .NET 4.62 버전의 SDK에 대한 것이었고, 새로운 .NET 6 버전은 평균적으로> 100% 더 빠르며, .NET 6 버전의 모든 PST 처리 작업은 OpEndscoverPlatform 프로세스의 PST 데이터 세트 작업을 90-100+GB/HR 속도 (입력 크기를 기준으로)의 PST 데이터 세트 작업 (Process rate)을 사용하여 (Processing Rate)를 사용했습니다. 인텔 i7 CPU 및 16GB RAM).

Enron Microsoft Outlook PST 데이터 세트에서 추출한 Open Discover Platform API가 추출한 컨텐츠 유형을 빠르게 살펴보십시오 (즉, 각 문서의 RavEndb 문서 저장소에 대량 삽입 된 컨텐츠 유형) :

아래 스크린 샷은 Outlook PST 컨테이너에서 추출하고 PlatformApidemo.exe 응용 프로그램에서 처리 한 이메일 항목 (및 첨부 파일)을 보여줍니다. 이메일은 Enron Microsoft Outlook PST 중 하나입니다. 이미지의 왼쪽에있는 트리 뷰 컨트롤은 처리 된 모든 문서/컨테이너의 부모/자식 계층을 보여 주며 트리 컨트롤의 항목을 클릭하면 추출 된 내용이 표시됩니다. 트리 뷰에서 선택한 Outlook 이메일 항목의 경우 이메일에서 추출한 첨부 파일로 6ms 사무실 Word 문서가 있음을 알 수 있습니다. 각각의 모든 첨부/임베디드 품목도 콘텐츠를 추출했습니다 (아무리 복잡하더라도 부모 아동 계층 구조를 완전히 처리합니다). 파일 형식 식별 결과, "SortDate", 다양한 문서 해시, 추출 된 메타 데이터 및 기타 추출 된 컨텐츠를 포함하는 이미지의 오른쪽 상단에있는 기타 탭 항목에 유의하십시오.

모든 수신자 및 추가 해시와 같은 특정 콘텐츠 이메일 :

이 처리 된 이메일 스크린 샷은 이메일의 추출 된 텍스트에서 추출/"민감한 항목"으로 추출/식별 된 은행 계좌 번호를 보여줍니다 (모든 추출 된 텍스트 및 모든 메타 데이터는 민감한 항목에 대해 스캔됩니다).

일부 "엔티티"는 다른 이메일로 식별 및 추출되었습니다. 이 이메일에서 발견 된 엔티티 유형을 검사함으로써 이메일이 법적 문제에 대해 논의하고 있음을 추측 할 수 있습니다.

"ECA 데모 앱"으로 문서 저장소 (RAVENDB) 쿼리

아래의 스크린 샷은 Ravendb Studio의 Enron 데이터베이스가 플랫폼 API 처리 된 출력으로 채워진 것을 보여줍니다. RavEndB에 저장된 일부 데이터베이스 문서 필드 만 스크린 샷에 적합 할 수 있으며 더 많은 필드가 있습니다. 빨간색 테두리 주석이있는 열 이름은 객체 모음입니다.

아래의 스크린 샷은 "ECA 데모 앱"이 문서 저장소를 쿼리하는 데 사용하는 31 개의 RavendB 인덱스 중 일부를 보여줍니다 ( "MetadatapropertyIndex"는이 데이터베이스, 대부분 이메일 메타 데이터에 저장된 3,770 만 메타 데이터 속성이 추출 된 모든 텍스트에 추가되어 있음을 보여줍니다.

"MetadatapropertyIndex"C# 클래스 코드는 아래에 표시됩니다. 이 색인 클래스는 Ravendb의 AbstractIndexCreationTask에서 파생됩니다 (이 데모의 다른 모든 인덱스와 마찬가지로). 이 색인은 모든 메타 데이터 필드에서 Lucene 'Like'쿼리를 허용합니다. Nativedocument.custommetAdata에 대한 유사한 색인이 있습니다.

모든 C# 정의 된 RavendB 인덱스는 간단한 RavendB API 호출을 통해 "ECA 데모 앱"에서 RAVENDB ENRON 데이터베이스에서 생성됩니다.

"ECA 데모 앱"

아래의 스크린은 189 Microsoft Outlook PST Enron 데이터 세트 (총 1,221,542 개의 이메일 및 첨부 파일)의 처리 요약 통계를 보여줍니다. 이 데이터 세트의 대부분의 이메일 및 첨부 파일은 법적 발견 단계에서 데이터가 수집 된 Enron 직원이 서로 앞뒤로 이메일을 보내고 있다는 사실 때문에 중복 문서입니다. 아래 이미지에 표시된 중복 제거 통계는 이진/콘텐츠 해시를 기반으로 한 것이 었습니다. 앞으로이 사례 연구 (Ravendb 지수와 함께)는 법적 산업을 포함하여 "Family Preplication"을 포함합니다. 파일 형식 분류 파이 차트, 특정 파일 형식 파이 차트 요약 및 처리 결과 요약 (OK/잘못된 Password/DataError/등의 열거 유형) 파이 차트에 유의하십시오.

SortDate 요약 차트에 의한 파일 계산 :

메타 데이터 요약 (메타 데이터 필드 이름/총 문서 번호) -715 모든 문서에서 알려진 고유 한 메타 데이터 필드 이름 및 636 사용자 정의 (사용자 정의) 메타 데이터 필드. 이 쿼리는 법률 사례 관리자가 컬렉션에서 사용할 수있는 메타 데이터 필드를 알 수 있도록 도와줍니다.

모든 문서에 대한 민감한 항목/엔티티 항목 요약 :

모든 문서에있는 모든 고유 URL의 요약 (예를 들어 회사가 잠재적 인 악성 URL 진입 지점을 추적하려는 경우 모든 문서의 URL이 유용 할 수 있습니다). Open Discover SDK는 문서 하이퍼 링크 및 문서 텍스트 (예 : 비 하이퍼 링크)에서 모든 URL을 감지합니다.

모든 문서에있는 모든 암호 요약. 암호와 사용자 이름은 Open Discover SDK/Platform에서 지원하는 25 개의 내장 '민감한 항목'유형 중 2 개에 불과합니다. 문서의 비밀번호/사용자 이름 자격 증명은 보안 위험이 될 수 있으며, '잘못된 Password'의 처리 결과가있는 모든 문서를 다시 처리하는 데 사용될 수 있습니다 (동일한 회사의 직원이 종종 암호화 된 사무실 문서에 비밀번호를 보내는 경우가 종종 있습니다).

처리 된 문서의 추출 된 텍스트에서 감지 된 언어 요약 :

전체 텍스트 검색 쿼리 예제 (참고 : RavendB는 Lucene 쿼리 지원) :

위의 Lucene 쿼리는 ExtractEdText 필드를 쿼리하고 (선택적으로) Min/Max 문서를 사용하여 반환 된 검색 결과를 필터링합니다. Document Filetype 또는 Document Format Classification (WordProcessing/Spreadsheet/Email 등)으로 결과 필터링을 추가하는 것도 매우 쉽습니다. Lucene 쿼리를 수행하는 C# 코드는 다음과 같습니다.

ECA 단계에서 법률 검토 변호사는 응답 문서를 찾기 위해 다양한 검색 쿼리를 작성하려고합니다. 아래 스크린 샷은 몇 가지 저장된 Lucene 쿼리와 결과 (문서 히트 수와 문서의 총 크기)를 보여줍니다. 이 사용자가 생성 한 검색의 문서 수에는 중복 문서 수가 포함되어 있지만, 중복 문서의 수를 계산하는 RavEndB 인덱스가 있지만,이 개념 증명에 대해서는 아직 마스터/중복을 나타내는 플래그가있는 문서 저장에 "표시된"문서가 아직 "표시되지 않았습니다 (사용자의 'todo'입니다).

SENSITIVEITEMTYPE (민감한 항목의 유형을 식별하는 감지 된 민감한 객체에 대한 속성)의 예제 검색,이 예에서는 민감한 항목의 민감한 항목이있는 모든 문서를 검색합니다.

ENTITYITEMTYPE (Entity Object 유형을 식별하는 감지 된 EntityItem 개체의 속성)에 의한 예제,이 예에서는 ENTITYITEMTYPE.PATIENTNAMEENTRY 유형의 엔티티 항목이있는 모든 문서를 검색합니다.

아래의 스크린 샷에서 우리는 학생 정보와 관련된 특정 Open Discover SDK 추출 Entity 유형을 색인화하여 학생 정보를 찾을 수있는 문서를 찾는 특별히 생성 된 RAVENB 인덱스를 사용합니다 (스크린 샷, 학생의 이름 및 학생 ID는 검은 색으로 표시되며 학생 ID는 2000 년 이전에 공통적 인 사회 보장 번호로 보입니다). 마찬가지로 의료 기록 및 환자 정보를 검색 할 다른 특수 지수가 있습니다.

요약

RAVENDB와 같은 문서 데이터베이스에 저장된 Open Discover® 플랫폼 출력은 매우 강력하고 빠르게 개발 된 법적 초기 사례 평가 (ECA) 응용 프로그램으로 이어질 수 있습니다. 또한 다음과 같은 응용 프로그램도 빠르게 개발할 수 있습니다.

강력한 전체 텍스트 검색 (메타 데이터 및 민감한/엔티티 항목 필드 검색 포함)
정보 거버넌스
edscovery
사고 응답 (IR)/데이터 유출 분석
엔터프라이즈 검색 및 컨텐츠 관리
컨텐츠 관리 시스템
IT 부서 응용 프로그램 - 민감한 정보 및/또는 redunant, 쓸모없고 사소한 (ROT)가있는 문서를 식별합니다.

이 사례 연구가 RABENDB와 같은 문서 데이터베이스 대신 관계형 데이터베이스를 사용했다면, 수개월의 데이터베이스 스키마 설계 및 저장 절차 개발이 걸렸을 것이며, 2 주 동안이 초기 사례 평가 (ECA) 증명서를 개발하는 데 걸리는 시간이 지났습니다.

확장하다

추가 정보

버전 1.0.0
유형 기타 소스코드
업데이트 시간 2025-05-25
크기 2.13MB
출처 Github

OpenDiscoverPlatformCaseStudy

사례 연구 : EDISCOVERY 초기 사례 평가 (ECA)에서 Open Discover® 플랫폼 및 RAVENDB 문서 저장소 사용.

배포 된 문서 처리 및 OCR에 대한 최신 분산 워크 플로 관리 시스템 (WMS)을 보여주는 실제 세계 사례 연구에 대해서는 https://github.com/dotfurther/open-discover-whitepaper-1/를 참조하십시오.

ECA는 "법적 사건을 기소하거나 방어 할 위험을 추정하는 것을 말합니다. 글로벌 조직은 전자적으로 저장된 정보"ESI "및 종이 문서에 대한 법적 발견 및 공개 요청을 정기적으로 처리합니다."

Open Discover® 플랫폼은 .NET 용 Open Discover® SDK에 구축 된 더 높은 수준의 문서 컨텐츠 추출/처리 API입니다.

이 저장소는 다음을 보여줍니다.

다음과 같은 이유로 Enron Microsoft Outlook PST 데이터 세트를 선택했습니다.

Open Discover Platform API는 문서 세트의 다중 스레드 처리를위한 목적입니다 (일반적으로 세트는 한 번에 1000-5000 문서입니다). '처리'문서 세트에는 다음이 포함됩니다.

Enron Microsoft Outlook PST 데이터 세트에서 추출한 Open Discover Platform API가 추출한 컨텐츠 유형을 빠르게 살펴보십시오 (즉, 각 문서의 RavEndb 문서 저장소에 대량 삽입 된 컨텐츠 유형) :

"ECA 데모 앱"으로 문서 저장소 (RAVENDB) 쿼리

"ECA 데모 앱"

요약

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express