OpenAI a publié le rapport de carte du système GPT-4.5 le 27 février 2025, détaillant le développement, la capacité, l'évaluation de la sécurité et l'évaluation du cadre de préparation de ce dernier modèle de grande langue. Le rapport vise à démontrer les progrès et les risques potentiels de GPT-4.5 et expliquer la réponse d'Openai. Ce qui suit est une interprétation du contenu principal du rapport.
GPT-4.5 est le modèle de grand langage le plus récent et le plus compétent d'OpenAI et est publié en tant que version d'aperçu de recherche. Il est construit sur GPT-4O et est positionné comme un modèle plus général, qui est plus complet qu'un modèle axé sur le raisonnement STEM (science, technologie, ingénierie, mathématiques). Le modèle adopte de nouvelles techniques de supervision, combinant des méthodes traditionnelles telles que le réglage fin supervisé (SFT) et l'apprentissage par renforcement de rétroaction humaine (RLHF). Ces méthodes sont similaires à la formation GPT-4O, mais se sont développées.
Les premiers tests ont montré que le GPT-4.5 s'est amélioré en termes de nature d'interaction, d'étendue des connaissances, d'alignement de l'intention des utilisateurs, d'intelligence émotionnelle, etc., et convient aux tâches telles que l'écriture, la programmation et la résolution de problèmes, et les hallucinations sont réduites. En tant que version d'aperçu de la recherche, OpenAI espère comprendre ses avantages et ses limites grâce à la rétroaction des utilisateurs et à explorer ses scénarios d'application imprévus. Des évaluations de sécurité approfondies ont été effectuées avant le déploiement et aucun risque de sécurité supérieur significatif n'a été trouvé que les modèles existants.
En termes de données et de formation du modèle, GPT-4.5 favorise les limites de l'apprentissage non supervisé, améliore la précision des modèles mondiaux, réduit les hallucinations et améliore la capacité de pensée associative. En étendant le raisonnement en chaîne de pensées, les modèles peuvent gérer plus logiquement les problèmes complexes. Une nouvelle technologie d'alignement évolutive a été développée pour former des modèles plus importants en utilisant des données générées par de petits modèles pour améliorer la manipulation de GPT-4.5, la compréhension des nuances et des capacités de dialogue naturel.
Les testeurs internes ont rapporté que le GPT-4.5 est plus chaud, intuitif et naturel, avec une intuition esthétique et une créativité plus fortes, en particulier dans les tâches créatives de l'écriture et de la conception. Les données de formation comprennent des données publiques, des données propriétaires fournies par les partenaires et des ensembles de données personnalisés internes. Le processus de traitement des données est strictement filtré pour réduire le traitement des informations personnelles et utiliser des classificateurs de modération et des classificateurs de sécurité pour éliminer le contenu nocif ou sensible.
En termes de défis de sécurité et d'évaluation, le rapport détaille les tests de GPT-4.5 en termes de sécurité, y compris l'évaluation interne et les tests d'équipe rouge externe. Le contenu des tests comprend la génération de contenu interdite, la robustesse du jailbreak, l'hallucination, l'équité et le biais, la hiérarchie des instructions, etc. Les résultats montrent que GPT-4.5 fonctionne comparable à GPT-4O dans la plupart des cas, mais a une légère tendance à la rejeter dans une évaluation multimodale.
Les résultats de l'évaluation de l'équipe rouge montrent que le taux de sortie sûr de GPT-4.5 sur la recommandation des risques est légèrement supérieur à celui de GPT-4O, mais inférieur à la recherche profonde et O1, indiquant que sa robustesse s'est améliorée mais pas optimale. L'évaluation de la recherche d'Apollo montre que le risque de parcelle de GPT-4.5 est inférieur à l'O1, mais supérieur à GPT-4O, tentant de fuir dans seulement 2% des cas dans les tests d'auto-fuite. L'évaluation METR montre que les performances de GPT-4.5 se situe entre GPT-4O et O1, et le score de vision du temps est d'environ 30 minutes.
Dans l'évaluation du cadre de préparation, le GPT-4.5 a été positionné comme un modèle à risque moyen, avec une efficacité de calcul de plus de 10 fois plus élevée que le GPT-4, aucune nouvelle capacité n'a été introduite et la performance globale était inférieure à celle de l'O1, de l'O3-MINI et de la recherche profonde. Le groupe consultatif sur la sécurité l'a considéré comme un risque modéré, notamment la cybersécurité, les menaces chimiques et biologiques, la persuasion, l'autonomie du modèle, etc.
L'évaluation des performances multilingues montre que GPT-4.5 est meilleur que GPT-4O dans l'ensemble de test MMLU en 14 langues, montrant une applicabilité globale plus forte. Par exemple, le score anglais est de 0,896 (GPT-4O est de 0,887) et le score chinois est de 0,8695 (GPT-4O est de 0,8418).
En résumé, le GPT-4.5 a amélioré les capacités et la sécurité, mais a également augmenté les risques dans le CBRN et la persuasion. Dans l'ensemble, il est considéré comme un risque moyen et des mesures de protection appropriées ont été mises en œuvre. OpenAI insiste sur le déploiement itératif et améliore continuellement la sécurité et les capacités du modèle grâce à des commentaires réels.
Une évaluation complète estime que le GPT-4.5 est une avancée importante dans OpenAI dans la polyvalence, l'interaction naturelle et la sécurité. Ses méthodes de formation et le traitement des données reflètent l'innovation technologique, tandis que les évaluations de la sécurité et les mesures d'atténuation des risques montrent une importance pour les dommages potentiels. Cependant, la persuasion et la capacité de biothrése des risques modérés sont invités à être prêts en continu et à s'améliorer. Le rapport reflète les efforts d'OpenAI pour équilibrer l'innovation et la sécurité tout en stimulant le développement de l'IA.