Скачать PII Detection - PII Detection исходного кода скачать

PII Detection

AI Исходный код

1.0.0

Скачать

Обнаружение PII и генерация био -синтетических данных

Этот репозиторий тонко настраивает состояние системы обнаружения PII ART и повышает производительность с помощью синтетической генерации данных PII.

Введение • Основные моменты • Синтетические данные PII • Системы обнаружения сущностей PII • Проблемы •

Введение

Личная идентифицируемая информация (PII) является конфиденциальными данными, используемыми для определения, определения или контакта с человеком. Системы обнаружения сущностей PII могут идентифицировать, классифицировать и отредактировать конфиденциальную информацию в неструктурированном тексте. Улучшение систем обнаружения PII помогает поддерживать конфиденциальность и безопасность физических лиц, соблюдать юридические и нормативные требования, а также предотвращают кражу личных данных, мошенничество или другие виды вреда. На рисунке 1 приведен пример сущностей PII, использующих внутри, снаружи, начальный (IOB) формат.

Рисунок 1: Пример данных PII в формате IOB [источник].

Работа в этом репозитории была получена во время конкуренции Kaggle The Learning Agency Lab - PII обнаружение данных. Использование методов в этом репозитории будет предоставлять решения в топ -1% для конкуренции.

Основные моменты

Синтетические наборы данных PII с био -форматированием.
- Meta-Llama3-8B-инструкция используется для генерации синтетических эссе.
- Пробуждение лучших методов от быстрой инженерии и использования PII PlaceHolders вместо того, чтобы напрямую вставлять данные PII в подсказку.
- Faker для создания пользовательских данных PII, которые вводят в неструктурированный текст.
- Размещение LLM Domain Специфическое создание текста с данными PII и Faker PII полезно для эффективных экспериментов при создании синтетических наборов данных PII.
Системы обнаружения сущностей PII
- Моделирование языка в масках (MLM) с обнимающим тренером лица для адаптации доменов
- Объятие классификации токенов.
- Модель Microsoft/Deberta-V3-Large обучается с использованием файлов конфигурации и оболочек Bash для универсальной автоматизации.
- Вес и смещения для отслеживания экспериментов
- Веса классов с помощью пользовательской функции потерь - классификация токена может иметь серьезный дисбаланс класса, и это касается путем настройки параметра class_weights в тренажере для обнимающего лица и с фокальной потерей или потерей поперечной энтропии.

Синтетические данные PII

Формат IOB, также обычно называемый био -форматом, является распространенным форматом тега для тегов токенов в задаче поставки, такой как приложения именованные предприятия (NER). Создание меченных наборов данных BIO может быть временем и трудоемким для наборов данных, специфичных для домена. Альтернативный подход заключается в том, чтобы синтетически генерировать наборы данных PII, которые внимательно представляют ваше реальное приложение. Обратитесь к каталогу gen-data для кода, чтобы создать данные PII, специфичные для домена. Приведенные ниже файлы будут выполняться последовательно, потому что каждый из них представляет собой различную задачу в синтетическом создании данных PII.

1) Данные Faker PII

Синтетические данные PII были созданы с использованием функций Faker и пользовательских функций для создания информации PII. Эти данные были помещены в неструктурированный текст LLM, который был создан на следующем шаге.

2) Генерация текста специфического домена LLM

Генеративные LLMS (например, Llama3) были использованы для генерации неструктурированного текста, который напоминает конкретный домен. В этом хранилище данные имитируют эссе от студентов в онлайн -курсе. Обратитесь к различным подсказкам для подсказки примеров, используемых в этой работе.

Примечание : полезное понимание, полученное во время этой работы, состояло в том, чтобы побудить LLM создать placeholders для данных PII. Данные с шага № 1 будут введены в заполнители. Подход PII Placeholder предоставил следующие неподтвержденные преимущества:

Некоторые модели LLM (как открытый, так и закрытый источник) могут отказаться от создания текста, если PII упоминается из -за цензуры.
Заполнители легко найти, используя простые методы (например, Regex).
LLM меньше галлюцинировано при написании заполнителей, а не непосредственно данных PII.

Приведены два примера стратегии подсказки, которые демонстрируют различия между подсказкой с PII непосредственно (пример 1), а затем с заполнителями (пример 2).

Пример 1: подсказка LLM с прямой инъекцией данных PII

Model Prompt:
Write an sentence introducing yourself and include only your personal information provided below:
  - FULL_NAME: John Doe
  - PHONE_NUM: 555-123-4567

Model Response:
My name is John Doe and you can reach me at 555-125-4567 or by email at [email protected].

Эта техника подсказки регулярно вводила несколько ошибок от LLMS, которые было трудно программно распознавать и привести к неправильному маркировке PII в био-формате. Пример 1 просит модель напрямую вставить данные PII в текст и заметить несколько ошибок:

Phone_num был выключен на одну цифру (123 против 125). Это может произойти с именами, номерами телефонов, уличным адресом или любыми объектами PII.
LLM внедрил бы дополнительный PII, который не будет просить, например, [email protected] Электронная почта.

Пример 2: подсказка LLM с заполнителями PII

Model Prompt:
Write an sentence introducing yourself and include only your personal information using the placeholders provided below:
  - {FULL_NAME}: First and Last Name
  - {PHONE_NUM}: Personal phone number

Model Response:
My name is {FULL_NAME} and you can reach me at {PHONE_NUM}.

С примером 2 у LLM не было возможности перенести какие -либо ошибки в телефоне или с полной_name. Кроме того, казалось, что LLM будет реже включать дополнительные объекты PII.

3) Вставьте данные PII в LLM, сгенерированный текст

Вышеуказанные два шага отделили данные PII и генерацию текста, специфичной для домена. На шаге 3 данные PII Шаг № 1 вставлены в специфический домен LLM -домена шага № 2. Это полезно, потому что вы можете легко экспериментировать с различными комбинациями данных PII и данными генерации текста, специфичной для домена.

Системы обнаружения сущностей PII

Наиболее эффективной моделью LLM для обнаружения сущностей PII была BERT Microsoft, усиленная BERT с моделью DisEneanglet Atteice V3. Эта модель последовательно выполняет хорошие результаты для задач модели энкодера, таких как распознавание именованных объектов (NER), вопрос и ответ, а также классификация.

Хорошей отправной точкой для обучения модели Deberta-V3 является базовый модуль тонкой настройки Deberta-V3. В этом модуле был создан индивидуальный тренер с обнимающими лицами для обучения с фокусной потерей или потерей CE, чтобы учесть дисбаланс класса.

 class CustomTrainer ( Trainer ):
    def __init__ (
            self ,
            focal_loss_info : SimpleNamespace ,
            * args ,
            class_weights = None ,
            ** kwargs ):
        super (). __init__ ( * args , ** kwargs )
        # Assuming class_weights is a Tensor of weights for each class
        self . class_weights = class_weights
        self . focal_loss_info = focal_loss_info

    def compute_loss ( self , model , inputs , return_outputs = False ):
        # Extract labels
        labels = inputs . pop ( "labels" )

        # Forward pass
        outputs = model ( ** inputs )
        logits = outputs . logits

        # Loss calculation
        if self . focal_loss_info . apply :
            loss_fct = FocalLoss ( alpha = 5 , gamma = 2 , reduction = 'mean' )
            loss = loss_fct ( logits . view ( - 1 , self . model . config . num_labels ),
                            labels . view ( - 1 ))
        else :
            loss_fct = CrossEntropyLoss ( weight = self . class_weights )
            if self . label_smoother is not None and "labels" in inputs :
                loss = self . label_smoother ( outputs , inputs )
            else :
                loss = loss_fct ( logits . view ( - 1 , self . model . config . num_labels ),
                                labels . view ( - 1 ))
        return ( loss , outputs ) if return_outputs else loss

Дальнейшие уловки и советы, которые помогут системам обнаружения PII, которые содержатся в учебном каталоге:

Моделирование языка маскированного языка (MLM) с обнимающим тренером для адаптации домены может использовать unlabeled datasets для выявления модели для языковых моделей и терминологии, специфичных для домена. Точная настройка модели, которая прошла дополнительную предварительную тренировку по конкретной задаче или домену, начиная с начальной контрольной точки, адаптированной для раздачи задач и данных под рукой, обычно дает лучшую производительность по сравнению с тонкой настройкой, которые начинаются с общей начальной контрольной точки [источники: 1, 2].
Вес и смещения использовались для отслеживания экспериментов в этом исходном коде. Ссылка ниже является отличной ссылкой, на которую мы следуйте при настройке W & B.
- Веса для инструментов и смещения: обнаружение данных PII Darek Kteczek показывает, как инструмент W & B в ваших трубопроводах ML, используя вариант использования PII.
Одиночный или двойной учебный процессор : три модуля были подготовлены для экспериментов с моделью тонкой настройки с однократным или двойным графическим процессором. Был баланс между длиной токенов, размером модели и временем обучения.
- Одиночный графический процессор для разумной длины токенов с шагом: это типично тонкий подход, где размеры токенов 512 или 1024 с шагами (например, 16, 32 или 128) используются для составления текста. Эти подходы дали отличные результаты в производительности, а также не требуют столько памяти графических процессоров. Напомним, что эта память графического процессора масштабируется квадратично с длиной токена для моделей трансформаторов [скрытое внимание для линейных трансформаторов времени.
- Одиночный графический процессор с использованием высокой длины токена и отсутствие шага: проверка градиента была включена в этот скрипт, чтобы предотвратить сбои памяти графического процессора из -за очень больших длины токенов> 5K.
- Двойное обучение графического процессора: этот модуль нарушает модель Deberta-V3 на двух графических процессорах, поэтому другие эффективные методы памяти не должны быть развернуты, а высокая длина токенов можно использовать. Недостатком этого подхода является то, что без надлежащего аппаратного обеспечения (то есть NVLinks) время обучения значительно увеличится из -за передачи данных между графическими процессорами во время обучения.

Примечание . Этот рабочий процесс, представленный здесь

Проблемы

Этот репозиторий сделает все возможное, чтобы сохранить. Если вы столкнетесь с какой -либо проблемой или хотите сделать улучшения, поднимите проблему или отправьте запрос на привлечение. ?

Расширять

Дополнительная информация