LLM-RECOMENTACIÓN-SISTEMAS
LLMS ajustado para recomendaciones basadas en texto
Este proyecto explora el potencial de ajustar los modelos de idiomas grandes (LLM) específicamente para recomendaciones basadas en texto, con el objetivo de mejorar la precisión y la satisfacción del usuario. Introduce un nuevo mecanismo de inmediato que transforma la información de la relación en el texto del lenguaje natural, lo que permite a la LLM interpretar las interacciones del usuario y hacer recomendaciones más informadas.
Descripción general del proyecto
Puntos clave:
- Utilizó el conjunto de datos de revisión de Amazon 2018 para desarrollar un sistema de recomendación de productos personalizado.
- Implementado y comparado el rendimiento de dos modelos de idiomas grandes: Mistral-7B y Tinyllama.
- Técnicas avanzadas aplicadas como Lora (adaptación de bajo rango) y Qlora (LORA cuantificada) para el ajuste fino de modelo eficiente.
- Desarrolló una nueva estrategia de indicación para transformar el historial de interacción del usuario en entradas de lenguaje natural para los modelos.
- Logró más del 98% de precisión al predecir las siguientes compras de productos de los usuarios utilizando el modelo Tinyllama ajustado.
- Demostró que los modelos más pequeños y especializados pueden superar a los modelos más grandes para tareas específicas cuando se ajustan correctamente.
- Realización de análisis de errores para identificar patrones en predicciones incorrectas y áreas potenciales de mejora.
- Exploró el equilibrio entre el tamaño del modelo, la eficiencia computacional y la precisión de la predicción en los sistemas de recomendación.
El proyecto se centra en demostrar la eficiencia de los LLM de ajuste fino para las tareas de recomendación utilizando un conjunto de datos diverso y expansivo. La implementación incluye las siguientes fases:
Extracción de datos y preprocesamiento :
- Los subconjuntos extraídos de los datos de revisión de Amazon y los convirtieron en marcos de datos.
- Eliminó columnas innecesarias.
- Los usuarios filtrados con historiales de compra insuficientes.
- Transformó los datos restantes en indicaciones, formando la entrada para el LLM.
Ingeniería rápida :
- Exploró varias técnicas de solicitación.
- Se estableció en una estructura de tres partes para cada indicador: instrucción, detalles de entrada y salida de verdad del suelo.
- Esta estructura proporciona al modelo una tarea clara, información relevante y el formato de salida deseado.
Implementación del modelo :
- Utilizó las bibliotecas de AI y Huggingface de manera insignia para modelos previamente capacitados y herramientas de personalización.
- Considerado Qlora, una técnica para mejorar el rendimiento del modelo.
- Se creó los objetos consolidados
SFTTrainer y TrainingArguments para centralizar los ajustes de hiperparameter durante el entrenamiento.