Openaiは、2025年2月27日にGPT-4.5システムカードレポートをリリースし、この最新の大手言語モデルの開発、能力、セキュリティ評価、準備フレームワーク評価を詳述しました。このレポートは、GPT-4.5の進捗状況と潜在的なリスクを実証し、Openaiの反応を説明することを目的としています。以下は、レポートの主な内容の解釈です。
GPT-4.5は、OpenAIの最新かつ最も知識のある大規模な言語モデルであり、研究プレビューバージョンとしてリリースされています。 GPT-4Oに基づいて構築されており、より一般的なモデルとして位置付けられており、STEM(科学、技術、工学、数学)の推論に焦点を当てたモデルよりも包括的です。このモデルは、監視された微調整(SFT)や人間のフィードバック補強学習(RLHF)などの従来の方法を組み合わせて、新しい監督手法を採用しています。これらの方法はGPT-4Oトレーニングに似ていますが、拡大しています。
初期のテストでは、GPT-4.5が相互作用の性質、知識の幅、ユーザーの意図の調整、感情的知性などの点で改善され、執筆、プログラミング、問題解決、幻覚などのタスクに適していることが示されました。調査プレビューバージョンとして、Openaiはユーザーのフィードバックを通じてその利点と制限を理解し、予期しないアプリケーションシナリオを調査したいと考えています。展開前に広範なセキュリティ評価が実施され、既存のモデルよりも有意な高いセキュリティリスクは見つかりませんでした。
モデルのデータとトレーニングに関しては、GPT-4.5は、教師のない学習の境界を促進し、世界モデルの精度を高め、幻覚を減らし、連想的思考能力を向上させます。考え方の推論を拡張することにより、モデルは複雑な問題をより論理的に処理できます。 GPT-4.5の操作、ニュアンス、自然な対話能力の理解を改善するために、小さなモデルによって生成されたデータを使用して、より大きなモデルをトレーニングするための新しいスケーラブルアライメントテクノロジーが開発されました。
内部テスターは、GPT-4.5は暖かく、直感的で、自然であり、特に創造的なライティングとデザインのタスクにおいて、より強い審美的な直観と創造性を備えていると報告しました。トレーニングデータには、パブリックデータ、パートナーが提供する独自のデータ、および内部カスタマイズされたデータセットが含まれます。データ処理プロセスは厳密にフィルタリングされ、個人情報処理を減らし、モデレートAPIおよびセキュリティ分類器を使用して、有害または機密コンテンツを排除します。
セキュリティの課題と評価の観点から、レポートは、内部評価や外部レッドチームテストなど、セキュリティの観点からGPT-4.5のテストを詳述しています。テストコンテンツには、禁止されたコンテンツの生成、脱獄の堅牢性、幻覚、公平性とバイアス、命令階層などが含まれます。結果は、GPT-4.5がほとんどの場合GPT-4Oに匹敵するが、マルチモーダル評価でそれを拒否する傾向があることを示しています。
赤チームの評価の結果は、ハザード推奨のGPT-4.5の安全な出力率がGPT-4Oのそれよりわずかに高いが、深い研究およびO1よりも低いことを示しています。 Apolloの研究評価によると、GPT-4.5のプロットリスクはO1よりも低いが、GPT-4Oよりも高く、セルフリークテストでのわずか2%でわずか2%でリークしようとしていることが示されています。 METR評価によると、GPT-4.5のパフォーマンスはGPT-4OとO1の間で、タイムビュースコアは約30分であることが示されています。
準備フレームワークの評価では、GPT-4.5は中リスクモデルとして配置され、計算効率はGPT-4より10倍以上高いため、新しい機能は導入されておらず、全体的なパフォーマンスはO1、O3-MINI、およびディープ研究のパフォーマンスよりも低かった。セキュリティアドバイザリーグループは、サイバーセキュリティ、化学的および生物学的脅威、説得、モデルの自律性など、中程度のリスクとして評価しました。
多言語のパフォーマンス評価は、14の言語で設定されたMMLUテストではGPT-4.5がGPT-4Oよりも優れており、より強力なグローバルな適用性を示しています。たとえば、英語のスコアは0.896(GPT-4Oは0.887)、中国のスコアは0.8695(GPT-4Oは0.8418)です。
要約すると、GPT-4.5は能力とセキュリティを改善しましたが、CBRNと説得力のリスクも増加しています。全体として、それは中程度のリスクとして評価され、適切な保護対策が実施されています。 Openaiは、反復的な展開を主張し、実際のフィードバックを通じてモデルのセキュリティと機能を継続的に改善します。
包括的な評価では、GPT-4.5は、汎用性、自然な相互作用、セキュリティにおけるOpenAIの重要な進歩であると考えています。そのトレーニング方法とデータ処理は技術革新を反映していますが、安全性評価とリスク緩和策は潜在的な害の重要性を示しています。ただし、中程度のリスクの説得力とバイオスリート能力は、継続的に注意を払い、改善するように促されます。このレポートは、AI開発を推進しながらイノベーションとセキュリティのバランスをとるOpenaiの取り組みを反映しています。