PII Detection 다운로드 -PII PII Detection 소스 코드 다운로드

PII Detection

AI 소스 코드

1.0.0

다운로드

PII 검출 및 바이오 합성 데이터 생성

이 저장소는 ART PII Detection System의 상태를 미세 조정하고 합성 PII 데이터 생성으로 성능을 향상시킵니다.

소개 • 하이라이트 • 합성 PII 데이터 • PII 엔티티 탐지 시스템 • 문제 •

소개

개인 식별 정보 (PII)는 개인을 식별, 찾기 또는 연락하는 데 사용되는 민감한 데이터입니다. PII 엔티티 감지 시스템은 구조화되지 않은 텍스트로 민감한 정보를 식별, 분류 및 편집 할 수 있습니다. PII 탐지 시스템을 개선하면 개인의 개인 정보 및 보안을 유지하고 법적 및 규제 요구 사항을 준수하며 신원 도용, 사기 또는 기타 유형의 피해를 방지합니다. 그림 1은 내부, 외부, 시작 (IOB) 형식을 사용하는 예제 PII 엔티티를 제공합니다.

그림 1 : IOB 형식의 PII 데이터의 예 [출처].

이 저장소의 작업은 Kaggle Competition The Learning Agency Lab -PII Data Detection에서 파생되었습니다. 이 저장소에서 기술을 사용하면 경쟁에서 상위 1%의 솔루션을 제공합니다.

하이라이트

생물 형식이있는 합성 PII 데이터 세트.
- 메타 -llama3-8B- 강조는 합성 에세이를 생성하는 데 사용됩니다.
- 프롬프트 엔지니어링 및 PII PlaceHolders 사용하여 PII 데이터를 직접 프롬프트에 넣는 대신 최상의 기술을 촉구합니다.
- Faker는 구조화되지 않은 텍스트에 주입 된 사용자 정의 PII 데이터를 작성합니다.
- PII 자리 표시 자 및 Faker PII 데이터로 텍스트를 생성하는 LLM 도메인 디퍼 커플 링은 합성 PII 데이터 세트 생성에 효율적인 실험에 유용합니다.
PII 엔티티 탐지 시스템
- 도메인 적응을위한 포옹 페이스 트레이너와 마스킹 언어 모델링 (MLM)
- 포옹 페이스 토큰 분류 엔드 투 엔드 파이프 라인은 최첨단 모델을 미세 조정하기 위해 구축되었습니다.
- Microsoft/Deberta-v3-Large 모델은 다양한 자동화를위한 구성 파일과 배쉬 쉘을 사용하여 교육을받습니다.
- 실험 추적을위한 가중치 및 편견
- 사용자 지정 손실 기능을 갖춘 클래스 가중치 - 토큰 분류는 심각한 클래스 불균형을 가질 수 있으며 이는 포옹 페이스 트레이너의 class_weights 매개 변수를 조정하고 초점 손실 또는 교차 엔트로피 손실로 해결됩니다.

합성 pii 데이터

일반적으로 바이오 형식이라고도하는 IOB 형식은 명명 된 엔티티 인식 (NER) 애플리케이션과 같은 청킹 작업에서 토큰 태그를 태깅하기위한 일반적인 태그 형식입니다. 라벨이 붙은 바이오 데이터 세트를 작성하는 것은 도메인 별 데이터 세트의 시간과 노동 집약적 일 수 있습니다. 대안적인 접근법은 실제 응용 프로그램을 밀접하게 나타내는 PII 데이터 세트를 합성 적으로 생성하는 것입니다. 도메인 특정 pii 데이터를 생성하려면 코드의 gen-data 디렉토리를 참조하십시오. 아래 파일은 합성 PII 데이터 생성에서 각각 다른 작업을 나타 내기 때문에 순차적으로 실행됩니다.

1) faker pii 데이터

합성 PII 데이터는 Faker 및 Custom Functions를 사용하여 PII 정보를 작성하여 작성되었습니다. 이 데이터는 다음 단계에서 생성 된 LLM 생성되지 않은 구조화되지 않은 텍스트에 배치되었습니다.

2) LLM 도메인 별 텍스트 생성

생성 LLM (예 : LLAMA3)은 도메인 별 텍스트와 유사한 구조화되지 않은 텍스트를 생성하는 데 사용되었습니다. 이 저장소에서 데이터는 온라인 과정에서 학생들의 에세이를 모방합니다. 이 작업에 사용 된 예제를 제기하려면 다양한 프롬프트를 참조하십시오.

통지 :이 작업 중에 배운 유용한 통찰력은 LLM이 PII 데이터에 대한 placeholders 만들도록 자극하는 것이 었습니다. 1 단계 #1의 데이터는 자리 표시 자에 주입됩니다. PII 자리 표시 자 접근 방식은 다음과 같은 일화적인 이점을 제공했습니다.

특정 LLM 모델 (개방 및 폐쇄 소스)은 검열로 인해 PII가 언급 된 경우 텍스트를 생성하는 것을 거부 할 수 있습니다.
자리 표시자는 간단한 기술 (예 : Regex)을 사용하여 쉽게 찾을 수 있습니다.
PII 데이터가 아닌 자리 표시자를 작성할 때 LLM은 환각을 줄였습니다.

프롬프트 전략의 두 가지 예는 PII와 직접 프롬프트 (예제 1)와 자리 표시 자 (예제 2)의 차이를 보여주는 두 가지 예가 제공됩니다.

예 1 : 직접 PII 데이터 주입으로 LLM 프롬프트

Model Prompt:
Write an sentence introducing yourself and include only your personal information provided below:
  - FULL_NAME: John Doe
  - PHONE_NUM: 555-123-4567

Model Response:
My name is John Doe and you can reach me at 555-125-4567 or by email at [email protected].

이 프롬프트 기술은 PII를 프로그래밍 방식으로 인식하고 바이오 형식의 PII를 잘못 표지하기가 어려운 LLM의 몇 가지 실수를 일상적으로 도입했습니다. 예 1은 모델에 PII 데이터를 텍스트에 직접 삽입하고 몇 가지 오류를 알리도록 요청합니다.

Phone_num은 단일 숫자 (123 vs. 125)에 의해 꺼져있었습니다. 이것은 이름, 전화 번호, 거리 주소 또는 PII 엔티티에서 발생할 수 있습니다.
LLM은 [email protected] 이메일과 같은 추가 pii를 주입합니다.

예 2 : PII 자리 소지자와 함께 LLM 프롬프트

Model Prompt:
Write an sentence introducing yourself and include only your personal information using the placeholders provided below:
  - {FULL_NAME}: First and Last Name
  - {PHONE_NUM}: Personal phone number

Model Response:
My name is {FULL_NAME} and you can reach me at {PHONE_NUM}.

예제 2를 사용하면 LLM은 Phone_num 또는 full_name의 오류를 전환 할 기회가 없었습니다. 또한 LLM은 추가 PII 엔티티를 덜 자주 통합하는 것처럼 보였습니다.

3) PII 데이터를 LLM 생성 텍스트에 삽입하십시오

위의 두 단계는 PII 데이터와 도메인 별 텍스트 생성을 분리했습니다. 3 단계에서 단계 #1 PII 데이터는 단계 #2의 LLM 도메인 별 생성 텍스트에 삽입됩니다. 이것은 PII 데이터와 도메인 특정 텍스트 생성 데이터의 다양한 조합을 쉽게 실험 할 수 있기 때문에 유용합니다.

PII 엔티티 탐지 시스템

PII 엔티티 감지를위한 최고의 성능 LLM 모델은 해방 된주의 V3 모델을 갖춘 Microsoft의 디코딩 강화 버트였습니다. 이 모델은 명명 된 엔티티 인식 (NER), 질문 및 답변 및 분류와 같은 인코더 모델 작업에 지속적으로 잘 수행됩니다.

Deberta-V3 모델을 훈련하기위한 좋은 출발점은 기준 Deberta-V3 미세 조정 모듈입니다. 이 모듈에서는 맞춤형 포옹 페이스 트레이너가 클래스 불균형을 설명하기 위해 초점 손실 또는 CE 손실로 훈련하도록 만들어졌습니다.

 class CustomTrainer ( Trainer ):
    def __init__ (
            self ,
            focal_loss_info : SimpleNamespace ,
            * args ,
            class_weights = None ,
            ** kwargs ):
        super (). __init__ ( * args , ** kwargs )
        # Assuming class_weights is a Tensor of weights for each class
        self . class_weights = class_weights
        self . focal_loss_info = focal_loss_info

    def compute_loss ( self , model , inputs , return_outputs = False ):
        # Extract labels
        labels = inputs . pop ( "labels" )

        # Forward pass
        outputs = model ( ** inputs )
        logits = outputs . logits

        # Loss calculation
        if self . focal_loss_info . apply :
            loss_fct = FocalLoss ( alpha = 5 , gamma = 2 , reduction = 'mean' )
            loss = loss_fct ( logits . view ( - 1 , self . model . config . num_labels ),
                            labels . view ( - 1 ))
        else :
            loss_fct = CrossEntropyLoss ( weight = self . class_weights )
            if self . label_smoother is not None and "labels" in inputs :
                loss = self . label_smoother ( outputs , inputs )
            else :
                loss = loss_fct ( logits . view ( - 1 , self . model . config . num_labels ),
                                labels . view ( - 1 ))
        return ( loss , outputs ) if return_outputs else loss

교육 디렉토리에 포함 된 PII 감지 시스템을 미세 조정하는 데 도움이되는 추가 요령과 팁은 다음과 같습니다.

도메인 적응을위한 Hugging Face Trainer가있는 MLM (Masked Language Modeling)은 unlabeled datasets 사용하여 모델을 도메인 별 언어 패턴 및 용어에 노출시킬 수 있습니다. 작업 및 데이터 배포에 맞게 조정 된 초기 체크 포인트로 시작하여 특정 작업 또는 도메인에서 추가 사전 훈련을받는 모델을 미세 조정하면 일반적으로 일반적인 초기 체크 포인트에서 시작하는 미세 조정 모델에 비해 성능이 향상됩니다 [소스 : 1, 2].
이 소스 코드의 실험 추적에 가중치 및 편향이 사용되었습니다. 아래 링크는 W & B 설정에 따른 훌륭한 참조입니다.
- 계측 웨이트 및 바이어스 : PII 데이터 감지 Darek Kteczek PII Detection 사용 케이스를 사용하여 ML 파이프 라인에서 기기 W & B를 만드는 방법을 보여줍니다.
단일 또는 듀얼 GPU 훈련 : 단일 또는 듀얼 GPU를 갖는 미세 조정 모델을 실험 할 수 있도록 3 개의 모듈이 준비되었습니다. 토큰 길이, 모델 크기 및 훈련 시간 사이에는 균형이있었습니다.
- 보폭이있는 합리적인 토큰 길이를위한 단일 GPU : 이것은 보폭 (예 : 16, 32 또는 128)의 토큰 크기가 텍스트를 청크하는 데 사용되는 전형적으로 미세 조정 접근법입니다. 이러한 접근법은 성능에 탁월한 결과를 제공했으며 GPU 메모리를 많이 요구하지 않습니다. GPU 메모리는 변압기 모델의 토큰 길이로 2 차적으로 스케일을 상기합니다 [선형 시간 변압기의 잠재적주의.
- 높은 토큰 길이와 보폭을 사용하는 단일 GPU : 그라디언트 체크 포인팅 이이 스크립트에 통합되어 매우 큰 토큰 길이> 5k로 인해 GPU 메모리 충돌을 방지했습니다.
- 듀얼 GPU 교육 :이 모듈은 두 개의 GPU에 걸쳐 Deberta-V3 모델을 보충하므로 다른 메모리 효율적인 기술을 배포 할 필요가없고 높은 토큰 길이를 활용할 수 있습니다. 이 접근법의 단점은 적절한 하드웨어 (예 : NVLinks)가 없으면 교육 시간이 교육 중 GPU 간의 데이터 전송으로 인해 교육 시간이 상당히 증가한다는 것입니다.

참고 : 여기에 제시된이 워크 플로우는 LLM뿐만 아니라 많은 포옹 얼굴 딥 러닝 응용 프로그램에 적합 할 수 있습니다.