Descarga PII Detection - Descargar el código fuente PII Detection

PII Detection

Código Fuente de IA

1.0.0

Descargar

Detección de PII y generación de datos bio sintéticos

Este repositorio ajusta un sistema de detección de PII de última generación y mejora el rendimiento con la generación de datos de PII sintética.

INTRODUCCIÓN • Destacos • Datos sintéticos de PII • Sistemas de detección de entidades PII • Problemas •

Introducción

La información de identificación personal (PII) son datos confidenciales utilizados para identificar, localizar o contactar a un individuo. Los sistemas de detección de entidades PII pueden identificar, clasificar y redactar información confidencial en texto no estructurado. Mejorar los sistemas de detección de PII ayudan a mantener la privacidad y la seguridad de las personas, cumplir con los requisitos legales y reglamentarios, y prevenir el robo de identidad, el fraude u otros tipos de daños. La Figura 1 proporciona un ejemplo de entidades PII que usan formato interno, exterior, comienzo (IOB).

Figura 1: Ejemplo de datos PII en formato IOB [fuente].

El trabajo en este repositorio se derivó durante la competencia de Kaggle, el laboratorio de la agencia de aprendizaje - Detección de datos PII. El uso de las técnicas en este repositorio proporcionará soluciones en el 1% superior para la competencia.

Reflejos

Conjuntos de datos PII sintéticos con formato biografía.
- MetAllama3-8B-Instructo se usa para generar ensayos sintéticos.
- Provocando las mejores técnicas de ingeniería rápida y el uso de PII PlaceHolders en lugar de poner directamente los datos de PII en un aviso.
- Faker para crear datos de PII personalizados que se inyectan en texto no estructurado.
- DecouPling LLM Dominio Especial Generar texto con marcador de posición PII y datos Faker PII es útil para una experimentación eficiente en la creación de conjuntos de datos PII sintéticos.
Sistemas de detección de entidades PII
- Modelado de lenguaje enmascarado (MLM) con entrenador de cara abrazada para la adaptación de dominio
- Abrazando la clasificación de token facial La tubería de extremo a extremo está construida para ajustar un modelo de última generación.
- El modelo Microsoft/Deberta-V3-Large está capacitado utilizando un archivos de configuración y shells Bash para la automatización versátil.
- Pesos y sesgos para el seguimiento del experimento
- Pesos de clase con función de pérdida personalizada: la clasificación del token puede tener un desequilibrio de clase severo y esto se aborda ajustando el parámetro class_weights en el entrenador de la cara abrazada y con una pérdida focal o una pérdida de entropía cruzada.

Datos de PII sintéticos

El formato IOB, también comúnmente conocido como el formato biografía, es un formato de etiquetado común para etiquetar tokens en una tarea de fragmentación, como aplicaciones de reconocimiento de entidad (NER) nombrados. La creación de conjuntos de datos biografía etiquetados puede ser el tiempo y el trabajo intensivo para conjuntos de datos específicos del dominio. Un enfoque alternativo es generar sintéticamente conjuntos de datos PII que representan estrechamente su aplicación de la vida real. Consulte el directorio gen-data para el código para crear datos de PII específicos de dominio. Los siguientes archivos se ejecutarían secuencialmente porque representan una tarea diferente en la creación de datos de PII sintética.

1) Datos de Faker PII

Los datos sintéticos de PII se crearon utilizando funciones Faker y personalizadas para crear información PII. Estos datos se colocaron en el texto no estructurado generado por LLM que se creó en el siguiente paso.

2) Generación de texto específica del dominio LLM

Los LLM generativos (p. Ej., LLAMA3) se usaron para generar texto no estructurado que se asemeja al texto específico del dominio. En este repositorio, los datos imitan los ensayos de los estudiantes en un curso en línea. Consulte las diversas indicaciones para solicitar ejemplos utilizados en este trabajo.

Aviso : una visión útil aprendida durante este trabajo fue incitar a la LLM a crear placeholders para los datos de PII. Los datos del paso #1 se inyectarán en los marcadores de posición. El enfoque de marcador de posición PII proporcionó los siguientes beneficios anecdóticos:

Ciertos modelos LLM (tanto de código abierto como cerrado) pueden negarse a generar texto si se menciona PII debido a la censura.
Los marcadores de posición son fáciles de ubicar utilizando técnicas simples (por ejemplo, regex).
LLM está alucinado menos al escribir a los marcadores de posición en lugar de los datos de PII directamente.

Se dan dos ejemplos de estrategias de indicación que demuestran las diferencias entre la provisión con PII directamente (Ejemplo 1) y luego con los marcadores de posición (ejemplo 2).

Ejemplo 1: solicitante de LLM con inyección directa de datos de PII

Model Prompt:
Write an sentence introducing yourself and include only your personal information provided below:
  - FULL_NAME: John Doe
  - PHONE_NUM: 555-123-4567

Model Response:
My name is John Doe and you can reach me at 555-125-4567 or by email at [email protected].

Esta técnica de impulso introdujo rutinariamente algunos errores de los LLM que fueron difíciles de reconocer programáticamente y conducir a un mal marcado de PII en el formato biografía. El ejemplo 1 le pide al modelo que inserte directamente los datos de PII en el texto y observe los pocos errores:

El phine_num estaba apagado por un solo dígito (123 frente a 125). Esto podría ocurrir con nombres, números de teléfono, dirección de la calle o cualquiera de las entidades PII.
El LLM inyectaría una PII adicional que no se solicitó como el correo electrónico [email protected] .

Ejemplo 2: solicitante de LLM con marcadores de posición PII

Model Prompt:
Write an sentence introducing yourself and include only your personal information using the placeholders provided below:
  - {FULL_NAME}: First and Last Name
  - {PHONE_NUM}: Personal phone number

Model Response:
My name is {FULL_NAME} and you can reach me at {PHONE_NUM}.

Con el ejemplo 2, el LLM no tuvo la oportunidad de transponer ningún error en el phine_num o con el nombre full_name. Además, parecía que el LLM incorporaba con menos frecuencia entidades PII adicionales.

3) Inserte los datos de PII en el texto generado por LLM

Los dos pasos anteriores desacoplaron datos de PII y generación de texto específica del dominio. En el paso #3, los datos de PII del paso 1 se insertan en el texto generado por el dominio LLM del paso 2 del paso 2. Esto es útil porque puede experimentar fácilmente con diferentes combinaciones de datos de PII y datos de generación de texto específicos del dominio.

Sistemas de detección de entidades PII

El modelo LLM de mejor rendimiento para la detección de entidades PII fue el Bert mejorado de Microsoft mejorado con el modelo V3 de atención sin rendimiento. Este modelo funciona constantemente para las tareas del modelo de codificador, como el reconocimiento de entidad nombrado (NER), la pregunta y la respuesta, y la clasificación.

Un buen punto de partida para capacitar a un modelo Deberta-V3 es con el módulo de ajuste de basal de DebtA-V3. En este módulo, se creó un entrenador de cara de abrazadera personalizada para entrenar con pérdida focal o pérdida de CE para tener en cuenta el desequilibrio de clases.

 class CustomTrainer ( Trainer ):
    def __init__ (
            self ,
            focal_loss_info : SimpleNamespace ,
            * args ,
            class_weights = None ,
            ** kwargs ):
        super (). __init__ ( * args , ** kwargs )
        # Assuming class_weights is a Tensor of weights for each class
        self . class_weights = class_weights
        self . focal_loss_info = focal_loss_info

    def compute_loss ( self , model , inputs , return_outputs = False ):
        # Extract labels
        labels = inputs . pop ( "labels" )

        # Forward pass
        outputs = model ( ** inputs )
        logits = outputs . logits

        # Loss calculation
        if self . focal_loss_info . apply :
            loss_fct = FocalLoss ( alpha = 5 , gamma = 2 , reduction = 'mean' )
            loss = loss_fct ( logits . view ( - 1 , self . model . config . num_labels ),
                            labels . view ( - 1 ))
        else :
            loss_fct = CrossEntropyLoss ( weight = self . class_weights )
            if self . label_smoother is not None and "labels" in inputs :
                loss = self . label_smoother ( outputs , inputs )
            else :
                loss = loss_fct ( logits . view ( - 1 , self . model . config . num_labels ),
                                labels . view ( - 1 ))
        return ( loss , outputs ) if return_outputs else loss

Otros trucos y consejos para ayudar a ajustar los sistemas de detección de PII que están contenidos en el directorio de capacitación son:

El modelado de lenguaje enmascarado (MLM) con un entrenador facial de abrazos para la adaptación del dominio puede utilizar unlabeled datasets para exponer un modelo a patrones de lenguaje específicos de dominio y terminología. Autorando un modelo que se sometió a un pretraben adicional en una tarea o dominio específico, comenzando con un punto de control inicial adaptado para la tarea y la distribución de datos a mano, generalmente produce un mejor rendimiento en comparación con los modelos de ajuste fino que comienzan desde un punto de control inicial genérico [fuentes: 1, 2].
Se utilizó pesos y sesgos para el seguimiento del experimento en este código fuente. El siguiente enlace es una excelente referencia a seguir al configurar W&B.
- Instrumento de pesas y sesgos: Detección de datos de PII Darek Kteczek muestra cómo instrumentar W&B en sus tuberías ML utilizando un caso de uso de detección de PII
Entrenamiento de GPU único o dual : se prepararon tres módulos para experimentar con un modelo de ajuste fino con GPU simple o dual. Hubo un equilibrio entre las longitudes de los tokens, el tamaño del modelo y los tiempos de entrenamiento.
- GPU único para longitudes de token razonables con zancada: este es un enfoque típicamente ajustado donde los tamaños de token de 512 o 1,024 con zancadas (p. Ej., 16, 32 o 128) se usan para fragmentar el texto. Estos enfoques dieron excelentes resultados en el rendimiento y tampoco requieren tanta memoria GPU. Recuerde que la memoria de GPU escala cuadráticamente con la longitud del token para los modelos de transformadores [atención latente para transformadores de tiempo lineal.
- GPU único que usa una longitud de token alta y sin zancada: el apunte de verificación de gradiente se incorporó a este script para evitar bloqueos de memoria de GPU debido a longitudes de token muy grandes> 5K.
- Entrenamiento de GPU dual: este módulo figura el modelo Debert-V3 en dos GPU, por lo que no se pueden implementar otras técnicas eficientes en memoria y se pueden utilizar altas longitudes de token. Un inconveniente de este enfoque es que sin el hardware adecuado (es decir, NVLinks), el tiempo de entrenamiento aumentará considerablemente debido a la transferencia de datos entre las GPU durante el entrenamiento.

Nota : Este flujo de trabajo presentado aquí se puede adaptar para muchas aplicaciones de aprendizaje profundo que abrazan, no solo LLM.

Asuntos

Este repositorio hará todo lo posible para mantenerse. Si enfrenta algún problema o desea realizar mejoras, plantee un problema o envíe una solicitud de extracción. ?

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-07-02
tamaño 646.58KB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub actions/download artifact

2024-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
promptl

Código Fuente de IA

1.0.0
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Otro código fuente

1.0.0

Información relacionada Todo