Este repositorio proporciona un marco para la clasificación basada en el aviso utilizando modelos de lenguaje previamente capacitados, con un enfoque en las tareas de clasificación de texto persa. Incluye scripts y cuadernos para generar indicaciones, indicaciones ajustadas para la clasificación, evaluar los resultados y analizar las métricas de rendimiento del modelo, como la puntuación F1, la precisión y el retiro. El repositorio también admite el aprendizaje K-SHOT para mejorar la adaptabilidad del modelo mediante la incorporación de ejemplos relevantes.
Códigos : contiene el código central y los cuadernos para la capacitación de modelos, la generación de inmediato y la evaluación.
AYA-Colab.ipynb : cuaderno principal para capacitación y indicaciones de ajuste con modelos AYA en Colab.Classification_report.ipynb : genera métricas de clasificación, incluida la puntuación F1, la precisión y el retiro para diferentes configuraciones de inmediato.Creating_dataset.ipynb : preparación de datos y creación de conjuntos de datos para el aprendizaje basado en el aviso.f1-calculation.py : script de pitón para calcular y visualizar las puntuaciones F1.news-aya-symbol-tuning.ipynb : cuaderno para ajuste basado en símbolos con modelos AYA para la clasificación de texto.news-aya-system-user-prompt.ipynb : script para generar el sistema y las indicaciones del usuario utilizando un modelo de lenguaje previamente capacitado.Symbol_tuning_aya.ipynb : cuaderno de sintonización del símbolo para optimizar la efectividad rápida.Conjuntos de datos : contiene conjuntos de datos utilizados para capacitación y evaluación.
Solicitudes : contiene plantillas de solicitud utilizadas para varias tareas de clasificación.
Diapositivas : documentación y archivos de presentación que explican el aprendizaje en contexto, el diseño rápido, el aprendizaje K-shot y el ajuste de los símbolos.
In-Context Learning.pptx & In-Context Learning.pdf : Detalles sobre el uso de aprendizaje en contexto para el ajuste del modelo.System-User Prompt Design.pptx y System-User Prompt Design.pdf : Guía para el diseño del sistema y las indicaciones del usuario.Symbol Tuning.pptx & Symbol Tuning.pdf : Instrucciones sobre el uso de la sintonización de símbolos para mejorar el rendimiento rápido. Clon el repositorio:
git clone https://github.com/ShayanSalehi81/BachelorProject
cd BachelorProjectInstale los paquetes requeridos:
pip install -r requirements.txtAutenticarse con la cara abrazada (si es necesario) e instalar bibliotecas adicionales:
huggingface-cli login --token YOUR_HUGGINGFACE_TOKEN Ejecute cualquiera de los cuadernos o scripts de Python en el directorio Codes para realizar tareas como la creación del conjunto de datos, el ajuste de inmediato o la evaluación.
Generator carga un modelo de lenguaje previamente capacitado, los formatos indica y genera predicciones. El script admite una cuantización de 4 bits para el uso de memoria eficiente y aprovecha las indicaciones proporcionadas por el usuario que clasifiquen los datos de noticias persa como "importantes" o "no importantes".news-aya-symbol-tuning.ipynb y Symbol_tuning_aya.ipynb están diseñados para ajustar los símbolos de inmediato, lo que puede mejorar la interpretabilidad del modelo y la consistencia de la respuesta. La sintonización del símbolo introduce ajustes menores en las indicaciones, lo que mejora la comprensión del modelo de consultas matizadas. Creating_dataset.ipynb para preprocesar y formatear su conjunto de datos.news-aya-system-user-prompt.ipynb para definir las indicaciones del sistema y el usuario, y ejecute la clasificación en el conjunto de datos.Classification_report.ipynb para calcular métricas como la precisión y la puntuación F1 y f1-calculation.py para visualizar el rendimiento.news-aya-symbol-tuning.ipynb para refinar el diseño rápido con ajuste de símbolos. Este proyecto tiene licencia bajo la licencia MIT.
¡Las contribuciones son bienvenidas! No dude en enviar problemas, solicitudes de funciones o solicitudes de extraer para mejorar este proyecto.