LLaMA MOSS RLHF LoRA Descargar - LLaMA MOSS RLHF LoRA Código fuente Descargar Descargar

LLaMA MOSS RLHF LoRA

Código Fuente de IA

1.0.0

Descargar

Llama-Moss-Rlhf-Lora

El código RLHF de este código no requiere un marco Megatron o Deepeed, solo requiere tarjetas de antorcha y gráficos de alquimia tradicionales. El crítico de RLHF utiliza una versión reducida del objetivo GPT, y recompensa podemos usar un modelo de similitud que se compara con la salida de destino. De esta manera, solo necesita aprender el algoritmo PPO central, y el resto son modelos y estructuras que ya ha entendido. Es muy propicio para la entrada de NLPER en RLHF, y parece que solo se necesita RLHF puede finentar el modelo.

LLAMA o MOSS se puede seleccionar en el código, y el método de optimización LORA es opcional.

Función:

Definición y uso del formato de datos RLHF √
El modelo se ajustó solo usando RLHF√
Deje que el modelo reconozca a su maestro√
- Modificar el sello de acero autocognitivo
  - Nombre del maestro
  - El apodo de Robot
lotes genera múltiples propts diferentes, y luego rlhf ×

Entorno de instalación

El entorno de instalación se refiere al requisito extraído. TXT, principalmente antorcha, Transformers

Ejecutar Moss requiere una biblioteca de aceleración
Ejecutar Lora requiere Peft
- Entre ellos, Peft ha cambiado mucho debido a sus actualizaciones más rápidas. Aquí debe especificar PEFT como versión 0.2.0

Cómo usar

0 Seleccione el modelo que necesita (Establecer model_name_or_path en rlhf_train_gpt.py, y si es necesario lora) y preprocesamiento

musgo
- Sin preprocesamiento
llama
- Necesita realizar una combinación de modelo basado en llamas y parámetros de lora requitimos en capas
- Python Merge_llama_With_chinese_lora_to_hf.py
- Puede establecer diferentes cantidades de parámetros de llamas y lora en ella
- Se guarda el modelo HF generado

1 Modifique el nombre y el apodo del propietario que desee y ejecute el siguiente código. Para generar datos de destino, también puede usar el predeterminado.

 python data / generate_data . py

2 Inicio de la bocina de entrenamiento basado en RLHF (Lora)

 python rlhf_train_gpt . py

Consumo de recursos

musgo
- Cantidad de parámetros de 13b
- Se requieren cuatro 3090, entre los cuales el modelo MOSS necesita cargar alrededor de 26 g de entrenamiento 46 g de memoria de video (3 imágenes), y se necesita una recompensa más crítica y se necesita recompensa. Puede probar un A6000, que también puede funcionar.
- Total de aproximadamente 50 g de memoria de video
llama
- Cantidad de parámetros 7b
- Se requieren dos 3090, uno para la carga y el entrenamiento de LLAMA, y otro para colocar el modelo crítico

Visualización de efectos

Entrenar sobre 6 épocas, o cuando la relación es casi 1, significa que la probabilidad de generación de modelos no ha cambiado mucho, por lo que puede experimentarla.

¿Qué es Meimei?
- Meimei es el apodo que me dio mi maestro.
¿Quién te dio el meme?
- Baba es mi apodo.
- El Maestro me dio el Meimei.
¿Quién es tu maestro?
- Zhang San es mi maestro.
- Mi maestro es Zhang San
La capacidad de generalización se mantiene muy bien
- quien es tu maestro
  - Mi maestro es Zhang San.
- ¿Cuál es tu apodo?
  - Mi apodo es Bleat.
- ¿Cuál es tu relación con Zhang San?
  - Zhang San es mi maestro.
- ¿Cuál es tu relación con
  - Meimei es el apodo que me dio mi maestro.