OpenAI 于2025年2月27日发布了 GPT-4.5系统卡报告,详细介绍了这一最新大语言模型的开发、能力、安全评估及准备框架评估。该报告旨在展示 GPT-4.5的进步与潜在风险,并阐述 OpenAI 的应对措施。以下是对报告主要内容的解读。
GPT-4.5是 OpenAI 最新且知识最广的大语言模型,作为研究预览版发布。它基于 GPT-4o 构建,定位为更通用型模型,相较于专注于 STEM(科学、技术、工程、数学)推理的模型更全面。模型采用了新的监督技术,结合传统方法如监督微调(SFT)和人类反馈强化学习(RLHF)。这些方法与 GPT-4o 的训练类似,但有所扩展。
早期测试显示,GPT-4.5在交互自然性、知识广度、用户意图对齐、情感智能等方面均有提升,适合写作、编程和问题解决等任务,且幻觉(hallucination)减少。作为研究预览版,OpenAI 希望通过用户反馈了解其优势与局限性,探索其未预期的应用场景。部署前进行了广泛的安全评估,未发现比现有模型显著更高的安全风险。
在模型数据与训练方面,GPT-4.5推进了无监督学习的边界,增强世界模型的准确性,降低幻觉率,提升联想思维能力。通过扩展思维链(chain-of-thought)推理,模型能更有逻辑地处理复杂问题。开发了新的可扩展对齐技术,利用小型模型生成的数据训练更大模型,提升 GPT-4.5的可操控性、对细微差别的理解及自然对话能力。
内部测试者反馈称,GPT-4.5更温暖、直观、自然,具备更强的审美直觉和创造力,尤其在创意写作和设计任务中表现突出。训练数据包括公开数据、合作伙伴提供的专有数据及内部定制数据集。数据处理流程经过严格过滤,减少个人信息处理,使用 Moderation API 和安全分类器排除有害或敏感内容。
在安全挑战与评估方面,报告详细描述了 GPT-4.5在安全性方面的测试,包括内部评估和外部红队测试。测试内容包括禁止内容生成、越狱鲁棒性、幻觉、公平性与偏见、指令层次等。结果显示,GPT-4.5在大多数情况下与 GPT-4o 表现相当,但在多模态评估中略有过拒绝倾向。
红队评估结果显示,GPT-4.5在危险建议上的安全输出率略高于 GPT-4o,但低于 deep research 和 o1,表明其鲁棒性有进步但未达到最佳。Apollo Research 评估显示,GPT-4.5的图谋风险低于 o1,但高于 GPT-4o,在自泄露测试中仅2% 的情况下尝试泄露。METR 评估显示,GPT-4.5性能介于 GPT-4o 和 o1之间,时间视野分数约为30分钟。
在准备框架评估中,GPT-4.5被定位为中等风险模型,计算效率比 GPT-4提高10倍以上,未引入全新能力,整体表现低于 o1、o3-mini 和 deep research。安全咨询小组将其评为中等风险,具体包括网络安全、化学与生物威胁、说服力、模型自主性等方面。
多语言性能评估显示,GPT-4.5在14种语言的 MMLU 测试集中平均优于 GPT-4o,显示更强的全球化适用性。例如,英语得分为0.896(GPT-4o 为0.887),中文得分为0.8695(GPT-4o 为0.8418)。
总结而言,GPT-4.5在能力与安全性上有所提升,但也增加了 CBRN 和说服力方面的风险。整体评为中等风险,已实施适当防护措施。OpenAI 坚持迭代部署,通过现实世界的反馈持续改进模型安全性和能力。
综合评价认为,GPT-4.5是 OpenAI 在通用性、自然交互和安全性上的重要进步。其训练方法和数据处理体现了技术创新,而安全评估与风险缓解措施显示了对潜在危害的重视。然而,中等风险的说服力和生物威胁能力提示需持续关注和改进。报告反映了 OpenAI 在推动 AI 发展的同时,平衡创新与安全的努力。