universal distillation скачать - universal distillation исходный код скачать

universal distillation

AI Исходный код

1.0.0

Скачать

Дистилляция модели универсального языка

CI -тестирование

Описание

Создайте дистиллированные модели из каждой модели языка в масках на концентраторе Huggingface с одной командой Bash.

Функции:

Язык-алкогольная дистилляция моделей BERT.
Автоматическое распределенное и мульти-GPU обучение.
Оценка использования стандартных мер и более продвинутых, таких как псевдо-перплексность.
Добавьте ограничения, чтобы уменьшить стереотипы, используя нашу методику Fairdistillation.
Предстоящее : перегонять несколько моделей в одну модель с автоматическим переводом токенов.

Как бежать

Во -первых, клонируйте проект и установите зависимости.

 # clone project   
git clone https://github.com/iPieter/universal-distillation

# install project   
cd universal-distillation
pip install -e .   
pip install -r requirements.txt

Дистилляция с использованием интерфейса командной строки

В этом уроке мы покажем вам, как установить задачу дистилляции из командной строки. Вам понадобится две вещи:

Модель учителя, которую вы хотите пережить. Все модели из репозитория модели Hugginface с головой заливкой / MLM будут работать. В этом уроке мы будем использовать стандартную модель bert-base-uncased .
Набор данных, который вы хотите использовать для дистилляции. В этом уроке мы «маленький», но качественный набор данных: Europarl.

Шаг 1: Получите набор данных

Мы будем использовать английский раздел корпуса Europarl. Это очень качественный параллельный корпус из европейского парламента, созданный профессиональными переводчиками и переводчиками. Это также довольно мало для языкового корпуса в настоящее время, всего 114 МБ, но для нашего руководства по дистилляции это нормально.

wget https://opus.nlpl.eu/download.php ? f = Europarl/v8/mono/en.txt.gz -O en.txt.gz
gunzip en.txt.gz

Данные теперь расслабляются и хранятся в файле en.txt .

Шаг 2: начать обучение

Теперь у нас есть данные, мы можем начать обучение. Загрузка модели учителя произойдет автоматически, поэтому не нужно делать это вручную. Если вы чувствуете, что это занимает слишком много времени, и вы просто хотите попробовать обучение, например, чтобы получить ощущение времени, вы можете добавить --limit_train_batches N . Это ограничивает каждую эпоху на N партии во время тренировки.

python universal_distillation/distillation.py 
    --batch_size 8 
    --gpus 1 
    --max_epochs 3 
    --save_dir my_distilled_model/ 
    --teacher bert-base-uncased 
    --data en.txt

Есть несколько вещей, которые происходят в фоновом режиме, когда вы запустите эту команду. Во -первых, эта библиотека создает модель ученика и учителя. Учитель-это bert-base-uncased , и ученик будет использовать ту же архитектуру, что и учитель по умолчанию, только количество голов меньше: 6 вместо 12. Поскольку мы тренируемся в определенном домене (Europarl), этого должно быть достаточно. Конечно, вы можете смешивать и сочетать разных и больших учителей с меньшими учениками, но производительность будет сильно различаться.

Во -вторых, библиотека Huggingface загружает модель учителя и токенизатор. В -третьих, набор данных загружается с диска и инициализируется с помощью токенизатора, обратите внимание, что сама токенизация происходит позже по умолчанию. Наконец, петля дистилляции начинается.

Шаг 3: Используйте свою модель

Наконец, вы можете использовать модель с библиотекой HuggingFace! Все файлы от студента (модель Pytorch и токенизатор) сохраняются в папке, которую мы определили ранее: my_distilled_model/ . Вы можете импортировать модель из этой папки напрямую и проверить задачу моделирования языка в масках с 3 строками:

 from transformers import pipeline
p = pipeline ( "fill-mask" , model = "my_distilled_model/" )

p ( "This is a [MASK]." )

Хотя это было примером, это было достаточно, этого часто достаточно, чтобы создать свою собственную модель, адаптированную доменом. В этом случае это

Оценка языковых моделей

Вы также можете провести внутреннюю оценку, используя псевдо-проницательность. Вам необходимо указать модель учителя и дистиллированную модель, но если вы запускаете только оценку, вы можете дать целевую модель для обоих аргументов.

python universal_distillation/evaluation.py 
    --gpus=0 
    --limit_test_batches=500 
    --teacher=pdelobelle/robbert-v2-dutch-base
    --data=data/oscar_dutch/nl_dedup_part_2.txt 
    --checkpoint=DTAI-KULeuven/robbertje-39-gb-non-shuffled

Fairdistillation

Эта кодовая база также используется для нашей статьи ECML-PKDD 2022, где мы объединяем дистилляцию знаний языковых моделей с ограничениями справедливости. Ограничения, которые мы протестировали в статье, представляют собой замену гендерных месторождений, но код поддерживает любую замену с одной точками. Они могут быть добавлены в процесс дистилляции, определив, какие токены вы хотите выравнивать. Например, he и she есть токеновые идентификаторы 2016 и 2002 года, поэтому мы можем определить пару замены с обоими токенами. Вероятности по сравнению с обоим токенами выравниваются.

Вы можете добавить токены, изменяя universal-distillation/distillation.py BaseTransformer

 constraints = [[ 2016 , 2002 ]]  # she  # he
model = BaseTransformer ( args . teacher , constraints = constraints , ** vars ( args ))

Расширять

Дополнительная информация

Версия 1.0.0
Тип AI Исходный код
Время обновления 2025-09-09
размер 27.56KB
От Github

Связанные приложения

Universal Downloader

2024-11-07
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Универсальный веб-сайт UWA AsThis

2013-12-24

universal distillation

Дистилляция модели универсального языка

Описание

Как бежать

Дистилляция с использованием интерфейса командной строки

Шаг 1: Получите набор данных

Шаг 2: начать обучение

Шаг 3: Используйте свою модель

Оценка языковых моделей

Fairdistillation

Universal Downloader

GitHub sgrebnov/cordova plugin background download

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

Универсальный веб-сайт UWA AsThis

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express