Openai publicó el informe de la tarjeta del sistema GPT-4.5 el 27 de febrero de 2025, que detalla el desarrollo, la capacidad, la evaluación de seguridad y la evaluación del marco de preparación de este último modelo de lenguaje grande. El informe tiene como objetivo demostrar el progreso y los riesgos potenciales de GPT-4.5 y explicar la respuesta de OpenAI. La siguiente es una interpretación del contenido principal del informe.
GPT-4.5 es el último y más conocedor modelo de lenguaje de OpenAI y se lanza como una versión de vista previa de investigación. Se basa en GPT-4O y se posiciona como un modelo más general, que es más completo que un modelo centrado en el razonamiento STEM (ciencia, tecnología, ingeniería, matemáticas). El modelo adopta nuevas técnicas de supervisión, que combina métodos tradicionales como el ajuste fino supervisado (SFT) y el aprendizaje de refuerzo de retroalimentación humana (RLHF). Estos métodos son similares al entrenamiento GPT-4O, pero se han expandido.
Las pruebas tempranas mostraron que GPT-4.5 ha mejorado en términos de naturaleza de interacción, amplitud de conocimiento, alineación de intención de usuarios, inteligencia emocional, etc., y es adecuada para tareas como la escritura, la programación y la resolución de problemas, y la alucinación se reduce. Como versión de vista previa de investigación, OpenAI espera comprender sus ventajas y limitaciones a través de los comentarios de los usuarios y explorar sus escenarios de aplicación imprevistos. Se realizaron extensas evaluaciones de seguridad antes de la implementación y no se encontraron riesgos significativos de mayor seguridad que los modelos existentes.
En términos de datos y capacitación del modelo, GPT-4.5 promueve los límites del aprendizaje no supervisado, mejora la precisión de los modelos mundiales, reduce las alucinaciones y mejora la capacidad de pensamiento asociativo. Al extender el razonamiento de la cadena de pensamiento, los modelos pueden manejar problemas complejos de manera más lógica. Se ha desarrollado una nueva tecnología de alineación escalable para entrenar modelos más grandes utilizando datos generados por modelos pequeños para mejorar la manipulación de GPT-4.5, la comprensión de los matices y las capacidades de diálogo natural.
Los probadores internos informaron que GPT-4.5 es más cálido, intuitivo y natural, con una intuición estética y creatividad más fuertes, especialmente en tareas de escritura y diseño creativo. Los datos de capacitación incluyen datos públicos, datos propietarios proporcionados por los socios y conjuntos de datos personalizados internos. El proceso de procesamiento de datos se filtra estrictamente para reducir el procesamiento de información personal y utilizar la API de moderación y los clasificadores de seguridad para eliminar el contenido dañino o confidencial.
En términos de desafíos y evaluación de seguridad, el informe detalla las pruebas de GPT-4.5 en términos de seguridad, incluida la evaluación interna y las pruebas de equipo rojo externo. El contenido de la prueba incluye generación de contenido prohibida, robustez de jailbreak, alucinación, equidad y sesgo, jerarquía de instrucciones, etc. Los resultados muestran que GPT-4.5 funciona comparable a GPT-4O en la mayoría de los casos, pero tiene una ligera tendencia a rechazarlo en la evaluación multimodal.
Los resultados de la evaluación del equipo rojo muestran que la tasa de producción segura de GPT-4.5 en la recomendación de peligro es ligeramente más alta que la de GPT-4O, pero más baja que la investigación profunda y el O1, lo que indica que su robustez ha mejorado pero no óptima. La evaluación de la investigación de Apollo muestra que el riesgo de la parcela de GPT-4.5 es más bajo que O1, pero mayor que GPT-4O, intentando filtrarse en solo el 2% de los casos en pruebas de autoestima. La evaluación de METR muestra que el rendimiento de GPT-4.5 está entre GPT-4O y O1, y la puntuación de visión de tiempo es de aproximadamente 30 minutos.
En la evaluación del marco de preparación, GPT-4.5 se posicionó como un modelo de riesgo medio, con una eficiencia computacional de más de 10 veces mayor que GPT-4, no se introdujeron nuevas capacidades, y el rendimiento general fue menor que el de O1, O3-Mini e investigaciones profundas. El Grupo Asesor de Seguridad lo calificó como un riesgo moderado, incluida la ciberseguridad, las amenazas químicas y biológicas, la persuasión, la autonomía del modelo, etc.
La evaluación de rendimiento multilingüe muestra que GPT-4.5 es mejor que GPT-4O en la prueba MMLU establecida en 14 idiomas, que muestra una aplicabilidad global más fuerte. Por ejemplo, la puntuación en inglés es 0.896 (GPT-4O es 0.887) y la puntuación china es 0.8695 (GPT-4O es 0.8418).
En resumen, GPT-4.5 ha mejorado las capacidades y la seguridad, pero también ha aumentado los riesgos en CBRN y persuasión. En general, se califica como un riesgo medio y se han implementado medidas de protección apropiadas. OpenAI insiste en la implementación iterativa y mejora continuamente la seguridad y las capacidades del modelo a través de la retroalimentación del mundo real.
La evaluación integral cree que GPT-4.5 es un avance importante en OpenAI en versatilidad, interacción natural y seguridad. Sus métodos de capacitación y procesamiento de datos reflejan la innovación tecnológica, mientras que las evaluaciones de seguridad y las medidas de mitigación de riesgos muestran importancia para el daño potencial. Sin embargo, la persuasión y la capacidad de biotre de los riesgos moderados se lleva a que se preste continuamente la atención y mejore. El informe refleja los esfuerzos de OpenAI para equilibrar la innovación y la seguridad mientras impulsa el desarrollo de la inteligencia artificial.