Обязательно установите требования для этих примеров:
pip install -r requirements-examples.txtПримеры для обучения векторов управления из скрытых состояний модели, которые можно использовать для влияния на поведение и сгенерированное производство во время вывода.
Обучение LORA MISTRAL-7B-INSTRUCT-V0.2 с набором данных nvidia helpsteer.
Запустите train.sh в каталоге helpsteer , чтобы загрузить набор данных и модель из HuggingFace и начать обучение LORA. Вы можете настроить обучающую конфигурацию, редактируя config.yml .
DPO Training QWEN1.5-7B-чат с набором данных DPO Mix 7K. Обучение состоит из контролируемой тонкой настройки (SFT) с последующей оптимизацией прямой предпочтения (DPO).
Запустите train.sh в каталоге dpo-mix-7k чтобы загрузить набор данных и модель из HuggingFace и запустить обучение. Вы можете настроить обучающую конфигурацию, редактируя файлы конфигурации sft.yml и dpo.yml .
Реализация «массивного многозадачного языкового понимания» с использованием набора данных MMLU.
Запустите mmlu.py с помощью модели, которую вы хотели бы оценить.
Реализация эталона MMLU-PRO с использованием набора данных MMLU-PRO.
Запустите mmlu-pro.py с помощью модели, которую вы хотели бы оценить.
Расчеты озабоченных показателей для образца набора данных в входных параграфах из статей Википедии.
Запустите perplexity.py с моделью, которую вы хотели бы оценить. Добавьте варианты квантования, чтобы оценить недоумение с помощью квантовых моделей.