最近、Downcodes の編集者は、OpenAI のグローバル アフェアーズ担当副社長である Anna Makanju が国連の「フューチャー サミット」で、OpenAI の o1 推論モデルに焦点を当てて、人工知能の偏見に関する見解を共有したことを知りました。彼女は、このモデルが AI システムのバイアスを大幅に軽減できると信じており、自己識別とバイアスされた応答の修正のためのそのメカニズムについて説明しています。しかし、実際のテスト結果は予想とは異なっており、これをきっかけに業界は AI モデルの実際のパフォーマンスについてさらに検討するようになりました。
最近、OpenAI のグローバル問題担当副社長であるアンナ・マカンジュ氏は、国連の「フューチャー・サミット」で人工知能の偏見についての見解を表明しました。
彼女は、OpenAI の o1 のような「推論」モデルにより、AI システムのバイアスを大幅に軽減できると述べました。では、O1 はどのようにしてこれを行うのでしょうか?マカンジュ氏は、モデルは応答のバイアスを自己識別し、「有害な」応答を生成しないというルールにさらに厳密に従うことができると説明しました。

彼女は、O1 モデルは問題に対処する際に自身の答えを評価することに多くの時間を費やし、それ自体をチェックすることができると述べました。「O1 モデルは、『私ならこの問題をこう解決するだろう』と言うことができ、その後、自分自身の答えを見て、それを確認することができます」 「ああ、この推論には欠陥があるかもしれません」と彼女は、1 号は自身のバイアスを分析するという「ほぼ完璧な」仕事をしており、テクノロジーが進歩するにつれてどんどん良くなるだろうとも強調した。
しかし、この「ほぼ完璧」という表現は誇張であるように思えます。 OpenAI の内部テストでは、o1 が独自の GPT-4o を含む「非推論」モデルと比較して、一部のバイアス テストでパフォーマンスが良くないことが判明しました。人種、性別、年齢に関する問題では、場合によっては o1 のパフォーマンスが GPT-4o よりもさらに悪かった。 o1 は暗黙の差別に関してはより優れたパフォーマンスを示しましたが、明示的な差別に関しては、年齢と人種の問題でより顕著でした。
さらに興味深いのは、o1 の廉価バージョンである o1-mini のパフォーマンスがさらに悪かったことです。テストの結果、o1-mini は GPT-4o よりも性別、人種、年齢に関する明示的な差別の可能性が高く、年齢に関する暗黙の差別もより明白であることが示されています。
これに加えて、現在の推論モデルには多くの制限があります。 OpenAI も、o1 が一部のタスクに最小限のメリットをもたらすことを認めています。返答が遅く、質問によっては回答に10秒以上かかることもあります。また、o1のコストは侮れず、ランニングコストはGPT-4oの3~4倍となります。
マカンジュが話している推論モデルが本当に公平な AI を実現する最善の方法であるならば、実行可能な代替手段となるためにはバイアス以外の側面を改善する必要があるでしょう。そうでない場合、実際に恩恵を受けるのは、豊富な資金を持ち、あらゆる種類の遅延やパフォーマンスの問題に耐える意欲のある顧客だけです。
ハイライト:
OpenAI の o1 モデルは AI のバイアスを大幅に軽減するといわれていますが、テスト結果では期待ほどのパフォーマンスが得られないことが示されています。
o1 は、暗黙的な識別では GPT-4o よりも優れたパフォーマンスを発揮しますが、明示的な識別では劣ります。
? 推論モデル o1 はコストが高く、動作が遅いため、今後も多くの点で改善する必要があります。
全体として、OpenAI の o1 モデルが AI のバイアスを軽減するにはまだ長い道のりがあります。その自己修正メカニズムは印象的ですが、コストと速度の制限が高く、一部のバイアス テストではパフォーマンスが低いという事実は、このテクノロジーがまだ初期段階にあり、実用化にはまだかなり遠いことを示しています。 。 Downcodes編集部は今後もこの分野の発展に注目していきたいと思います。