Téléchargement PII Detection - Téléchargement du code source PII Detection

PII Detection

Code Source AI

1.0.0

Télécharger

Détection PII et génération de données synthétiques bio

Ce référentiel affiche un système de détection de pointe de pointe et améliore les performances avec la génération de données PII synthétique.

INTRODUCTION • FAIMENTS • Données PII synthétiques • Systèmes de détection d'entités PII • Problèmes •

Introduction

Les informations personnelles identifiables (PII) sont des données sensibles utilisées pour identifier, localiser ou contacter une personne. Les systèmes de détection des entités PII peuvent identifier, catégoriser et rédactiver les informations sensibles dans le texte non structuré. L'amélioration des systèmes de détection PII aide à maintenir la confidentialité et la sécurité des individus, respecter les exigences juridiques et réglementaires et prévenir le vol d'identité, la fraude ou d'autres types de préjudice. La figure 1 fournit un exemple d'entités PII utilisant le format à l'intérieur, à l'extérieur, au début (IOB).

Figure 1: Exemple de données PII au format IOB [Source].

Les travaux de ce référentiel ont été dérivés lors de la compétition de Kaggle Le Laborat d'agence d'apprentissage - PII Data Detection. L'utilisation des techniques de ce référentiel fournira des solutions dans les 1% supérieurs à la concurrence.

Points forts

Ensembles de données synthétiques PII avec formatage bio.
- La méta-llama3-8b-instruct est utilisée pour générer des essais synthétiques.
- Inviter les meilleures techniques de l'ingénierie rapide et l'utilisation PII PlaceHolders au lieu de mettre directement des données PII dans une invite.
- Faker pour créer des données PII personnalisées injectées en texte non structuré.
- Découplage du domaine LLM spécifique Générer du texte avec l'espace réservé PII et les données PII Faker sont utiles pour une expérimentation efficace pour créer des ensembles de données PII synthétiques.
Systèmes de détection d'entités PII
- Modélisation du langage masqué (MLM) avec un formateur de visage étreint pour l'adaptation du domaine
- Le pipeline de bout en bout des jetons de face étreint est conçu pour affiner un modèle de pointe.
- Le modèle Microsoft / Deberta-V3-Garn est formé à l'aide d'un fichier de configuration et de shells bash pour l'automatisation polyvalente.
- Poids et biais pour le suivi des expériences
- Poids de la classe avec fonction de perte personnalisée - La classification des jetons peut avoir un déséquilibre grave de classe et cela est traité en ajustant le paramètre class_weights dans l'entraîneur de face étreint et avec une perte focale ou une perte d'entropie croisée.

Données PII synthétiques

Le format IOB, également communément appelé le format BIO, est un format de marquage commun pour le token de marquage dans une tâche de section telle que les applications de reconnaissance d'entités nommées (NER). La création d'ensembles de données BIO étiquetés peut être en temps et en main-d'œuvre pour les ensembles de données spécifiques au domaine. Une approche alternative consiste à générer synthétiquement des ensembles de données PII qui représentent étroitement votre application réelle. Reportez-vous au répertoire gen-data pour le code afin de créer des données PII spécifiques au domaine. Les fichiers ci-dessous seraient exécutés séquentiellement parce qu'ils représentent chacun une tâche différente dans la création de données PII synthétiques.

1) Données FAKER PII

Les données synthétiques PII ont été créées à l'aide de FAKER et de fonctions personnalisées pour créer des informations PII. Ces données ont été placées dans du texte non structuré généré par LLM qui a été créé à l'étape suivante.

2) Génération de texte spécifique du domaine LLM

Les LLM génératives (par exemple, LLAMA3) ont été utilisées pour générer du texte non structuré qui ressemble au texte spécifique au domaine. Dans ce référentiel, les données imitent les essais des étudiants dans un cours en ligne. Reportez-vous aux diverses invites pour inviter des exemples utilisés dans ce travail.

AVIS : Un aperçu utile appris au cours de ces travaux a été d'inciter le LLM à créer placeholders pour les données PII. Les données de l'étape n ° 1 seront injectées dans les espaces réservés. L'approche de l'espace réservé PII a fourni les avantages anecdotiques suivants:

Certains modèles LLM (à la fois ouverts et fermés) peuvent refuser de générer du texte si PII est mentionné en raison de la censure.
Les espaces réservés sont faciles à localiser en utilisant des techniques simples (par exemple, regex).
LLM est moins halluciné lors de la rédaction d'espaces réservés par opposition aux données PII directement.

Deux exemples d'incitation aux stratégies sont donnés qui démontrent les différences entre l'incitation avec les PII directement (exemple 1) puis avec les espaces réservés (exemple 2).

Exemple 1: invitation LLM avec injection directe de données PII

Model Prompt:
Write an sentence introducing yourself and include only your personal information provided below:
  - FULL_NAME: John Doe
  - PHONE_NUM: 555-123-4567

Model Response:
My name is John Doe and you can reach me at 555-125-4567 or by email at [email protected].

Cette technique d'incitation a systématiquement introduit quelques erreurs des LLM qui étaient difficiles à reconnaître par programme et à conduire à un détournement de PII au format bio. L'exemple 1 demande au modèle d'insérer directement les données PII dans le texte et de remarquer les quelques erreurs:

Le téléphone_num était éteint en un seul chiffre (123 contre 125). Cela pourrait se produire avec des noms, des numéros de téléphone, une adresse de rue ou l'une des entités PII.
Le LLM injecterait des PII supplémentaires non demandés comme le courriel [email protected] .

Exemple 2: invitation LLM avec les espaces réservés PII

Model Prompt:
Write an sentence introducing yourself and include only your personal information using the placeholders provided below:
  - {FULL_NAME}: First and Last Name
  - {PHONE_NUM}: Personal phone number

Model Response:
My name is {FULL_NAME} and you can reach me at {PHONE_NUM}.

Avec l'exemple 2, le LLM n'a pas eu la possibilité de transposer des erreurs dans le téléphone_num ou avec le Full_name. De plus, il semblait que le LLM incorporerait moins fréquemment des entités PII supplémentaires.

3) Insérer des données PII dans le texte généré par LLM

Les deux étapes ci-dessus ont découplé les données PII et la génération de texte spécifique au domaine. À l'étape # 3, les données PII n ° 1 sont insérées dans le texte généré spécifique du domaine LLM de l'étape # 2. Ceci est utile car vous pouvez facilement expérimenter différentes combinaisons de données PII et de données de génération de texte spécifiques au domaine.

Systèmes de détection d'entités PII

Le modèle LLM le plus performant pour la détection d'entités PII était le modèle Bert amélioré par le décodage de Microsoft avec un modèle V3 d'attention démêlé. Ce modèle fonctionne toujours bien pour les tâches du modèle d'encodeur telles que la reconnaissance des entités nommées (NER), la question et la réponse et la classification.

Un bon point de départ pour la formation d'un modèle Deberta-V3 est avec le module de réglage fin de la ligne de base Deberta-V3. Dans ce module, un entraîneur de face étreint personnalisé a été créé pour s'entraîner avec une perte focale ou une perte de CE pour tenir compte du déséquilibre des classes.

 class CustomTrainer ( Trainer ):
    def __init__ (
            self ,
            focal_loss_info : SimpleNamespace ,
            * args ,
            class_weights = None ,
            ** kwargs ):
        super (). __init__ ( * args , ** kwargs )
        # Assuming class_weights is a Tensor of weights for each class
        self . class_weights = class_weights
        self . focal_loss_info = focal_loss_info

    def compute_loss ( self , model , inputs , return_outputs = False ):
        # Extract labels
        labels = inputs . pop ( "labels" )

        # Forward pass
        outputs = model ( ** inputs )
        logits = outputs . logits

        # Loss calculation
        if self . focal_loss_info . apply :
            loss_fct = FocalLoss ( alpha = 5 , gamma = 2 , reduction = 'mean' )
            loss = loss_fct ( logits . view ( - 1 , self . model . config . num_labels ),
                            labels . view ( - 1 ))
        else :
            loss_fct = CrossEntropyLoss ( weight = self . class_weights )
            if self . label_smoother is not None and "labels" in inputs :
                loss = self . label_smoother ( outputs , inputs )
            else :
                loss = loss_fct ( logits . view ( - 1 , self . model . config . num_labels ),
                                labels . view ( - 1 ))
        return ( loss , outputs ) if return_outputs else loss

D'autres astuces et conseils pour aider à affiner les systèmes de détection PII contenus dans le répertoire de formation sont:

La modélisation du langage masqué (MLM) avec un formateur de visage étreint pour l'adaptation du domaine peut utiliser unlabeled datasets pour exposer un modèle à des modèles de langage spécifiques au domaine et à la terminologie. Affinement un modèle qui a subi une pré-formation supplémentaire sur une tâche ou un domaine spécifique, en commençant par un point de contrôle initial adapté à la tâche et à la distribution des données à portée de main, offre généralement de meilleures performances par rapport aux modèles de réglage fin qui commencent à partir d'un point de contrôle initial générique [sources: 1, 2].
Les poids et les biais ont été utilisés pour le suivi des expériences dans ce code source. Le lien ci-dessous est une excellente référence à suivre sur la configuration de W&B.
- Poids d'instruments et biais: détection de données de données PII Darek Kteczek montre comment instrument W&B dans vos pipelines ML à l'aide d'un cas d'utilisation de détection PII
Formation GPU simple ou double : trois modules ont été préparés à expérimenter avec un modèle de réglage fin avec des GPU uniques ou doubles. Il y avait un équilibre entre les longueurs de jeton, la taille du modèle et les temps de formation.
- GPU unique pour des longueurs de jetons raisonnables avec foulée: il s'agit d'une approche typiquement affinée où les tailles de jeton de 512 ou 1 024 avec des progrès (par exemple, 16, 32 ou 128) sont utilisées pour repousser le texte. Ces approches ont donné d'excellents résultats dans les performances et ne nécessitent pas autant de mémoire GPU. Rappelons que la mémoire GPU évolue quadratique avec une longueur de jeton pour les modèles de transformateurs [attention latente pour les transformateurs de temps linéaires.
- GPU unique à l'aide d'une longueur de jeton haute et pas de foulée: le point de contrôle du gradient a été incorporé dans ce script pour empêcher les accidents de mémoire GPU en raison de très grandes longueurs de jeton> 5K.
- Double formation GPU: Ce module éclaire le modèle DEBERTA-V3 sur deux GPU afin que d'autres techniques efficaces de la mémoire n'aient pas besoin d'être déployées et des longueurs de jetons élevées peuvent être utilisées. Un inconvénient de cette approche est que sans matériel approprié (c.-à-d. NvLinks), le temps de formation augmentera considérablement en raison du transfert de données entre les GPU pendant la formation.

Remarque : Ce flux de travail présenté ici peut être adapté pour de nombreuses applications d'apprentissage en profondeur de face étreintes, pas seulement des LLM.

Problèmes

Ce référentiel fera de son mieux pour être maintenu. Si vous rencontrez un problème ou si vous souhaitez apporter des améliorations, veuillez soulever un problème ou soumettre une demande de traction. ?

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-07-02
taille 646.58KB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub actions/download artifact

2024-11-01

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
promptl

Code Source AI

1.0.0
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Autre code source

1.0.0

Actualités connexes Tout