Llama-Moss-Rlhf-Lora
El código RLHF de este código no requiere un marco Megatron o Deepeed, solo requiere tarjetas de antorcha y gráficos de alquimia tradicionales. El crítico de RLHF utiliza una versión reducida del objetivo GPT, y recompensa podemos usar un modelo de similitud que se compara con la salida de destino. De esta manera, solo necesita aprender el algoritmo PPO central, y el resto son modelos y estructuras que ya ha entendido. Es muy propicio para la entrada de NLPER en RLHF, y parece que solo se necesita RLHF puede finentar el modelo.
LLAMA o MOSS se puede seleccionar en el código, y el método de optimización LORA es opcional.
Función:
- Definición y uso del formato de datos RLHF √
- El modelo se ajustó solo usando RLHF√
- Deje que el modelo reconozca a su maestro√
- Modificar el sello de acero autocognitivo
- Nombre del maestro
- El apodo de Robot
- lotes genera múltiples propts diferentes, y luego rlhf ×
Entorno de instalación
El entorno de instalación se refiere al requisito extraído. TXT, principalmente antorcha, Transformers
- Ejecutar Moss requiere una biblioteca de aceleración
- Ejecutar Lora requiere Peft
- Entre ellos, Peft ha cambiado mucho debido a sus actualizaciones más rápidas. Aquí debe especificar PEFT como versión 0.2.0
Cómo usar
0 Seleccione el modelo que necesita (Establecer model_name_or_path en rlhf_train_gpt.py, y si es necesario lora) y preprocesamiento
- musgo
- llama
- Necesita realizar una combinación de modelo basado en llamas y parámetros de lora requitimos en capas
- Python Merge_llama_With_chinese_lora_to_hf.py
- Puede establecer diferentes cantidades de parámetros de llamas y lora en ella
- Se guarda el modelo HF generado
1 Modifique el nombre y el apodo del propietario que desee y ejecute el siguiente código. Para generar datos de destino, también puede usar el predeterminado.
python data / generate_data . py
2 Inicio de la bocina de entrenamiento basado en RLHF (Lora)
python rlhf_train_gpt . py
Consumo de recursos
- musgo
- Cantidad de parámetros de 13b
- Se requieren cuatro 3090, entre los cuales el modelo MOSS necesita cargar alrededor de 26 g de entrenamiento 46 g de memoria de video (3 imágenes), y se necesita una recompensa más crítica y se necesita recompensa. Puede probar un A6000, que también puede funcionar.
- Total de aproximadamente 50 g de memoria de video
- llama
- Cantidad de parámetros 7b
- Se requieren dos 3090, uno para la carga y el entrenamiento de LLAMA, y otro para colocar el modelo crítico
Visualización de efectos
Entrenar sobre 6 épocas, o cuando la relación es casi 1, significa que la probabilidad de generación de modelos no ha cambiado mucho, por lo que puede experimentarla.
- ¿Qué es Meimei?
- Meimei es el apodo que me dio mi maestro.
- ¿Quién te dio el meme?
- Baba es mi apodo.
- El Maestro me dio el Meimei.
- ¿Quién es tu maestro?
- Zhang San es mi maestro.
- Mi maestro es Zhang San
- La capacidad de generalización se mantiene muy bien
- quien es tu maestro
- ¿Cuál es tu apodo?
- ¿Cuál es tu relación con Zhang San?
- ¿Cuál es tu relación con
- Meimei es el apodo que me dio mi maestro.
Información del contacto
- Grupo de comunicación
- Grupo QQ: 788598358
- WeChat Group: WeChat Group puede caducar