t2t tuner скачать - скачать исходный код t2t tuner

t2t tuner

AI Исходный код

1.0.0

Скачать

T2T-Tuner

Удобное обучение текста в тексте для трансформаторов

pip install t2t-tuner

Требуется Pytorch: либо следуйте инструкциям по установке Pytorch, либо используйте контейнер Pytorch.

Функции

Легкое обучение для задач текста в текстовое (и генерации текста)
Методы обучения/особенности:
- Напряженная точная настраиваемая настройка
- Градиент контрольно -пропускной пункт
- Модель параллелизма
- Мягкая настройка быстрого приглашения (на основе этой статьи)
- Замораживание энкодера/декодера/встраивания
- Переместить встраиваемые в процессор
- Резюме модели печати
- Глубокая скорость

Основана на замечательной библиотеке Transformers Transformers. Протестировано на моделях T5 и GPT. Теоретически, он должен работать с другими моделями, которые также поддерживают Automodelforseq2seqlm или Automodelforcausallm.

Тренер в этой библиотеке здесь представляет собой интерфейс более высокого уровня для работы на основе скрипта run_translation.py от run_translation.py для задач генерации текста в текст. Я решил, что хочу более удобный интерфейс для обучения и вывода, а также доступ к таким вещам, как градиент контрольно -пропускной пункт и модели, параллельная для размещения более крупных моделей - они уже находятся в библиотеке Huggingface, но не открыты в сценарии. Я также добавил в некоторые функции, которые я хотел (приглашенная настройка, краткое изложение модели), интегрировал его с авторегрессивным обучением LM и завершил его как одну библиотеку, которая может быть установлена.

Примеры

Тренировочные модели

 import t2t

trainer_arguments = t2t . TrainerArguments ( model_name_or_path = "t5-small" ,
                                         train_file = YOUR_DATASET )

trainer = t2t . Trainer ( arguments = trainer_arguments )

# train without validation
trainer . train ( valid = False )

Для получения более конкретных примеров, посмотрите записные книжки, связанные ниже:

Простой пример
Простой пример на Colab
Мягкая приглашенная настройка
Градиент контрольно -пропускной пункт
Модель параллелизма

Формат данных

SEQ2SEQ Training

{ "translation" : { "s" : " TEXT " , "t" : " LABEL " }}

Формат данных-json-lines, после исходного сценария Huggingface. Каждый пример - одна строка.
Определите идентификаторы источника и целей в TrainingArguments.source_id и TrainingArguments.target_id (по умолчанию s и t ).
Включите префикс в файл данных или определите префикс для подготовки к тексту в TrainingArguments.prefix .
Пример ноутбука для предварительной обработки данных из файла CSV

Ауторегрессивное обучение LM

Любой текстовый файл будет работать

Обучение больших моделей

В этом разделе будет описано, как обучать большие языковые модели (> 1 параметры BIL) на относительно простые настройки.

Некоторые примечания для конфигураций, представленных ниже:

Gradcheckpoint: градиент контрольно -пропускной пункт, чтобы уменьшить использование VRAM, но увеличить вычисление (установить TrainerArguments.gradient_checkpointing ).
Freezeembeds: Freeze (не тренируйте) внедряющий слой, чтобы уменьшить использование и вычисления VRAM (Set trainer.freeze(embeddings=True) ).
Adafactor использует меньше VRAM, чем Адам, но немного медленнее и может сходиться немного по -разному.
Вы можете использовать накопление градиента ( TrainingArguments.gradient_accumulation_steps ), чтобы при необходимости составить больший размер партии. Размеры партий, о которых сообщается, без накопления градиента.
Перемещение встраиваний в процессор, по -видимому, почти не оказывает никакого влияния как на использование VRAM, так и на производительность, поэтому не используется.

Модели GPT

Некоторые конфигурации GPT, которые были протестированы на возможность обучения на одной карте RTX 3090 (24 ГБ) (без DeepSpeed):

Модель	Параметры	Точность	Оптимизатор	Inputlen	Партия	Другой
GPT2	1,5B	FP16	Адафактор	128	4	Никто
GPT2	1,5B	FP16	Адафактор	512	1	Никто
GPT2	1,5B	FP16	Адафактор	1024	4	Gradcheckpoint
GPT-neo	1.3b	FP16	Адафактор	1024	1	Никто
GPT-neo	1.3b	FP16	Адафактор	2048	4	Gradcheckpoint
GPT-neo	2.7b	FP16	Адафактор	2048	4	Gradcheckpoint, Freezeembeds

T5 модели

Некоторые конфигурации T5, которые были протестированы на возможность обучения на одной карте RTX 3090 (24 ГБ) (без DeepSpeed):

Модель	Параметры	Точность	Оптимизатор	Seq2seqlen	Партия	Другой
T5	3B	FP32	Адафактор	128-> 128	1	Freezeembeds
T5	3B	FP32	Адафактор	128-> 128	1	Gradcheckpoint
T5	3B	FP32	Адафактор	128-> 128	128	Gradcheckpoint, Freezeembeds
T5	3B	FP32	Адафактор	512-> 512	32	Gradcheckpoint, Freezeembeds

Модель параллелизма для моделей T5-11B

Используя эту библиотеку, вы также можете легко настроить контрольные точки T5-11B (один узел) со следующими настройками (без DeepSpeed):

Предлагаемая контрольная точка: T5-11B
Размер партии 1 + накопление градиента, чтобы восполнить любой размер партии, который вам нужен.
Размер партии 8 возможен с градиентной контрольной точкой, но не улучшает скорость.
Модель параллельна нескольким графическим процессорам:
- Как минимум ~ 90 ГБ Врам
- Примеры: 8x 16 ГБ или 4x 32 ГБ графического процессора (V100), или 2x 48 ГБ (RTX8000/A6000)
FP32 (нет необходимости в смешанной точности/FP16)
- FP16 на самом деле будет лучше, но предварительные контрольно -пропускные пункты T5 плохо играют с FP16.
- На картах Ampere (RTX30XX, A100, A6000) используется TF32, который быстрее, чем FP32 и не страдает от тех же проблем, что и FP16.
- Вероятная причина: существующие активации слишком велики (отслеживание выпуска GitHub, немного информации)

Модель параллельна T5-11B

Обратите внимание, что в зависимости от вашей системы время загрузки для контрольной точки (46 ГБ) может быть очень длинным. Вам понадобится достаточная оперативная память CPU (не менее ~ 90 ГБ), чтобы успешно загрузить его.

Onnx Rt

Onnx RT работает с некоторыми моделями (а не T5) и может обеспечить небольшой импульс скорости.

Установите ORT, затем установите TrainingArguments.torch_ort=True

pip install torch-ort -f https://onnxruntimepackages.z14.web.core.windows.net/onnxruntime_stable_torch190.cu111.html

python -m torch_ort.configure

Разработка

Строительный пакет

python3 -m pip install --upgrade build twine
python3 -m build
python3 -m twine upload dist/ *

Отказ от ответственности

Эта библиотека, разработанная как личный проект для моего собственного использования. Пожалуйста, не стесняйтесь вилка или используйте ее и для своих собственных целей. Я не буду нести ответственность за любые неудачи, которые происходят в результате использования этой библиотеки.

Примечание для карт 3090 FE, если ваши поклонники достигли 100%, это означает, что ваши временные температуры VRAM высоки (> 100 градусов C). Тренировка в течение долгих часов по этим температурам в теории должно быть в порядке, но если вы хотите душевного спокойствия (как и я), вы можете снизить предел власти, оказывая незначительное влияние на скорость тренировок. Пока ваши поклонники никогда не достигают 100%, ваши температуры VRAM должны быть хорошими. Например, для снижения предела мощности до 300 Вт (от 350 Вт):