OpenAI 於2025年2月27日發布了GPT-4.5系統卡報告,詳細介紹了這一最新大語言模型的開發、能力、安全評估及準備框架評估。該報告旨在展示GPT-4.5的進步與潛在風險,並闡述OpenAI 的應對措施。以下是對報告主要內容的解讀。
GPT-4.5是OpenAI 最新且知識最廣的大語言模型,作為研究預覽版發布。它基於GPT-4o 構建,定位為更通用型模型,相較於專注於STEM(科學、技術、工程、數學)推理的模型更全面。模型採用了新的監督技術,結合傳統方法如監督微調(SFT)和人類反饋強化學習(RLHF)。這些方法與GPT-4o 的訓練類似,但有所擴展。
早期測試顯示,GPT-4.5在交互自然性、知識廣度、用戶意圖對齊、情感智能等方面均有提升,適合寫作、編程和問題解決等任務,且幻覺(hallucination)減少。作為研究預覽版,OpenAI 希望通過用戶反饋了解其優勢與局限性,探索其未預期的應用場景。部署前進行了廣泛的安全評估,未發現比現有模型顯著更高的安全風險。
在模型數據與訓練方面,GPT-4.5推進了無監督學習的邊界,增強世界模型的準確性,降低幻覺率,提升聯想思維能力。通過擴展思維鏈(chain-of-thought)推理,模型能更有邏輯地處理複雜問題。開發了新的可擴展對齊技術,利用小型模型生成的數據訓練更大模型,提升GPT-4.5的可操控性、對細微差別的理解及自然對話能力。
內部測試者反饋稱,GPT-4.5更溫暖、直觀、自然,具備更強的審美直覺和創造力,尤其在創意寫作和設計任務中表現突出。訓練數據包括公開數據、合作夥伴提供的專有數據及內部定制數據集。數據處理流程經過嚴格過濾,減少個人信息處理,使用Moderation API 和安全分類器排除有害或敏感內容。
在安全挑戰與評估方面,報告詳細描述了GPT-4.5在安全性方面的測試,包括內部評估和外部紅隊測試。測試內容包括禁止內容生成、越獄魯棒性、幻覺、公平性與偏見、指令層次等。結果顯示,GPT-4.5在大多數情況下與GPT-4o 表現相當,但在多模態評估中略有過拒絕傾向。
紅隊評估結果顯示,GPT-4.5在危險建議上的安全輸出率略高於GPT-4o,但低於deep research 和o1,表明其魯棒性有進步但未達到最佳。 Apollo Research 評估顯示,GPT-4.5的圖謀風險低於o1,但高於GPT-4o,在自洩露測試中僅2% 的情況下嘗試洩露。 METR 評估顯示,GPT-4.5性能介於GPT-4o 和o1之間,時間視野分數約為30分鐘。
在準備框架評估中,GPT-4.5被定位為中等風險模型,計算效率比GPT-4提高10倍以上,未引入全新能力,整體表現低於o1、o3-mini 和deep research。安全諮詢小組將其評為中等風險,具體包括網絡安全、化學與生物威脅、說服力、模型自主性等方面。
多語言性能評估顯示,GPT-4.5在14種語言的MMLU 測試集中平均優於GPT-4o,顯示更強的全球化適用性。例如,英語得分為0.896(GPT-4o 為0.887),中文得分為0.8695(GPT-4o 為0.8418)。
總結而言,GPT-4.5在能力與安全性上有所提升,但也增加了CBRN 和說服力方面的風險。整體評為中等風險,已實施適當防護措施。 OpenAI 堅持迭代部署,通過現實世界的反饋持續改進模型安全性和能力。
綜合評價認為,GPT-4.5是OpenAI 在通用性、自然交互和安全性上的重要進步。其訓練方法和數據處理體現了技術創新,而安全評估與風險緩解措施顯示了對潛在危害的重視。然而,中等風險的說服力和生物威脅能力提示需持續關注和改進。報告反映了OpenAI 在推動AI 發展的同時,平衡創新與安全的努力。