Asegúrese de instalar los requisitos para estos ejemplos:
pip install -r requirements-examples.txtEjemplos para los vectores de control de capacitación de los estados ocultos de un modelo que pueden usarse para influir en el comportamiento y la producción generada durante la inferencia.
LORA Training Mistral-7B-INSTRUCT-V0.2 con el conjunto de datos de HelpSteer NVIDIA.
Ejecute train.sh en el directorio helpsteer para descargar el conjunto de datos y el modelo de Huggingface e iniciar la capacitación Lora. Puede personalizar la configuración de capacitación editando config.yml .
Entrenamiento DPO QWEN1.5-7B-CHAT con el conjunto de datos DPO Mix 7K. La capacitación consiste en un ajuste fino supervisado (SFT) seguido de optimización de preferencia directa (DPO).
Ejecute train.sh en el directorio dpo-mix-7k para descargar el conjunto de datos y el modelo de Huggingface e iniciar el entrenamiento. Puede personalizar la configuración de capacitación editando los archivos de configuración sft.yml y dpo.yml .
Implementación del punto de referencia de "comprensión de lenguaje multitarea masiva" utilizando el conjunto de datos MMLU.
Ejecute mmlu.py con el modelo que le gustaría evaluar.
Implementación del punto de referencia MMLU-Pro utilizando el conjunto de datos MMLU-Pro.
Ejecute mmlu-pro.py con el modelo que le gustaría evaluar.
Calculando puntajes de perplejidad para un conjunto de datos de muestra de párrafos de entrada de artículos de Wikipedia.
Ejecute perplexity.py con el modelo que le gustaría evaluar. Agregue opciones de cuantización para evaluar la perplejidad con modelos cuantificados.