Al prepararse para los exámenes universitarios, se ha demostrado que tener un socio es esencial para descubrir brechas de conocimiento y aclarar dudas específicas sobre el tema tratado durante las clases. Si bien los chatbots basados en LLM como ChatGPT, Phind y Clod ya están proporcionando ayuda a los estudiantes, no pueden proporcionar una conferencia/ayuda específica de material en los cursos universitarios de los estudiantes. Proponemos crear un sistema para ajustar los chatbots en material específico de cursos específicos. Gracias a esto, crearemos amigos de estudio para los cursos de un estudiante universitario típico, capaces de responder dudas, generar preguntas y más.
Es posible probar el chatbot en este enlace.

El alcance implícito del proyecto (y de todo el curso) es construir una infraestructura escalable que pueda alojar a nuestros MLOPS. Por esta razón, la tubería ML monolítica tradicional se divide en tres procesos diferentes: tuberías de características , tubería de capacitación , tubería de inferencia .

La tubería de características está a cargo de:
Hay varias opciones para ejecutar la tubería de funciones:
FeaturePipeline/Reading.ipynbFeaturePipeline/FeaturePipeline.py con python3 FeaturePipeline/FeaturePipeline.py Una copia de este último se modifica ligeramente en el archivo FeaturePipeline/FeaturePipeline_modal.py para que se ejecute en el servicio de alojamiento modal utilizando modal [run|deploy] FeaturePipeline/FeaturePipeline.py
La tubería de entrenamiento está a cargo de:
Para ejecutar la tubería de capacitación, ejecute el cuaderno TrainingPipeline/FineTuning.ipynb
La tubería de inferencia está a cargo de:
Para ejecutar la tubería de inferencia, ejecute streamlit run chatbot_app.py
Si bien experimentalmente el proceso de ajuste fino no es suficiente para que el modelo fundamental sea consistentemente mejor que uno no ajustado, el chatbot habilitado para RAG no solo puede responder a las preguntas del usuario correctamente siguiendo el material original, sino que también puede dar (principalmente) referencias correctas de dónde se toma la respuesta, una característica esencial para un estudiante que estudia para un examen universitario!
El ajuste fino no funciona tan bien como debido a la falta de material utilizado y recursos computacionales. Como futuro trabajo, queremos mejorar el proceso de extracción de conocimiento y utilizar más energía computacional para abordar los problemas que se muestran en el informe.