Novoky, un equipo de investigación en el Laboratorio de Computación Sky de la Universidad de California, Berkeley, lanzó recientemente un modelo de inferencia llamado Sky-T1-32B-Preview, que se desempeñó excelentemente en múltiples puntos de referencia clave, incluso comparable a la versión temprana de OpenAI de OpenAI. . Lo que es aún más sorprendente es que el costo de capacitación de este modelo es extremadamente bajo, mostrando una nueva tendencia en el desarrollo de inteligencia artificial eficiente y económico.
Sky-T1-32B-Preview es el primer modelo de razonamiento verdaderamente abierto de código abierto. El equipo de Novasky no solo expone el modelo en sí, sino que también proporciona el conjunto de datos de capacitación y el código de capacitación necesario para que el modelo pueda copiarse por completo. Según el blog del equipo, "los costos de capacitación de Sky-T1-32B-Preview son menos de $ 450, lo que demuestra que las capacidades de razonamiento avanzado se pueden lograr a un bajo costo". Hacer en el pasado. Esta reducción significativa en el costo se atribuye principalmente al uso de datos de capacitación sintética. Por ejemplo, el modelo Palmyra X004 recientemente lanzado por el escritor de la compañía de inteligencia artificial se basa casi por completo en datos sintéticos para la capacitación, con un costo de desarrollo de solo $ 700,000.

Los modelos de inferencia son diferentes de los modelos de inteligencia artificial ordinarios. Sin embargo, los modelos de inferencia a menudo tardan más en encontrar soluciones, que van desde segundos hasta minutos. Sin embargo, su confiabilidad en campos como la física, la ciencia y las matemáticas lo hace ideal para estos campos.
El equipo de Novasky reveló que utilizaron el modelo de inferencia QWQ-32B previa de Alibaba para generar los datos de entrenamiento iniciales de Sky-T1, y luego clasificaron los datos y reconstruyeron los datos en uno más utilizable utilizando el GPT-4O-Mini de OpenAI. Se tarda aproximadamente 19 horas en entrenar Sky-T1 con 32 mil millones de parámetros utilizando 8 bastidores de GPU NVIDIA H100, y el número de parámetros refleja directamente la capacidad de resolución de problemas del modelo.
En las pruebas de rendimiento, Sky-T1 superó la versión previa temprana de O1 en el Math500 (un conjunto de desafíos matemáticos "a nivel de concurso") y también superó la versión de vista previa de O1 en un conjunto de rompecabezas de codificación de LivecodeBench. Sin embargo, Sky-T1 no es tan buena como la versión de vista previa de O1 en GPQA-Diamond, que contiene problemas relacionados con la física, la biología y la química que los graduados doctorales deberían dominar. Además, la versión O1GA de OpenAI es más poderosa que la versión de vista previa, y OpenAI espera lanzar un modelo de inferencia de mejor rendimiento O3 en las próximas semanas.
Sin embargo, el equipo de Nouvasky dijo que Sky-T1 es solo el punto de partida para desarrollar un modelo de código abierto con capacidades de razonamiento avanzado. "Mirando hacia el futuro, nos centraremos en desarrollar modelos más eficientes, mantener un fuerte rendimiento de inferencia y explorar tecnologías avanzadas para mejorar aún más la eficiencia y la precisión de los modelos cuando se prueban", escribió el equipo en la publicación, "Esté atento a los Estados Unidos realizados en estos realizados en estos Planes emocionantes.