OpenAI は、ChatGPT によって生成されたコード内のエラーを特定して修正するための AI モデルである CriticGPT をリリースしました。 CriticGPT は強力な GPT-4 モデルに基づいており、コード レビューに焦点を当てており、強化学習と人間によるフィードバックを通じて改善され、コードの品質とレビュー効率の向上を目指しています。無駄な「細かい指摘」や誤検知を減らすという優れた効果を発揮し、場合によっては、これまで気付かなかったエラーを発見することに成功することもあります。この記事では、CriticGPT の主な機能、開発プロセス、実験結果、潜在的なアプリケーションと制限について詳しく紹介します。
OpenAIの研究者らは木曜日、ChatGPTによって生成されたコード内のエラーを特定して修正するように設計された革新的なAIモデルであるCriticGPTの立ち上げを発表した。この画期的な進歩は、人工知能技術の自己改善と品質管理における重要な前進を示しています。

CriticGPT の主な機能
1. GPT-4 シリーズに基づく: CriticGPT は、強力な GPT-4 言語モデルに基づいて構築されています。
2. コード レビューに重点を置く: 主に、ChatGPT によって生成されたプログラミング コードを分析し、潜在的なエラーを指摘するために使用されます。
3. 人間とマシンのコラボレーション: 人間のトレーナーに対する AI アシスタントとして機能し、コード レビューの効率と精度を向上させます。
4.強化学習:人間のフィードバック(RLHF)から学習することでAIシステムの「調整」を改善します。

開発の経緯と成果
研究者は革新的なトレーニング方法を使用して CriticGPT を開発しました。
1. データセットの準備: トレーニング用に意図的にエラーが挿入されたコード サンプルを使用します。
2. 人間の参加: 人間のトレーナーは、ChatGPT によって書かれたコードを修正し、エラーを導入し、フィードバックを提供する必要があります。
3. 新しいテクノロジーの適用: 「強制サンプリング ビーム検索」(FSBS) テクノロジーを導入して、詳細なコメントと架空の質問の生成のバランスをとりました。

実験結果は次のことを示しています。
- 自然発生エラーの 63% において、人間は CriticGPT を好んでいました。
- CriticGPT は、無用な「細かい指摘」や誤検知/幻覚の問題を軽減します。
- CriticGPT は、以前は完璧だと考えられていたケースの 24% でバグを発見し、確認することに成功しました。
潜在的な用途と制限
CriticGPT は主にコード レビューを対象としていますが、調査によると、コーディング以外のタスクにも一般化できる可能性があります。ただし、このモデルにはいくつかの制限もあります。
1. 主に短い ChatGPT 回答についてトレーニングされており、より複雑なタスクには適していない可能性があります。
2. 架空の行為は減少しましたが、完全に排除されたわけではありません。
3. 複数の部分に分散したエラーを特定するには、まだ改善の余地があります。
今後の展望
OpenAI は、CriticGPT のようなモデルを RLHF タグ付けパイプラインに統合して、トレーナーに AI 支援を提供する予定です。これは、大規模言語モデル (LLM) 出力を評価するツールの開発における重要な進歩を表しています。ただし、研究者らは、AI の支援があっても、人間の評価者にとって非常に複雑なタスクは依然として困難であることも強調しました。
AI テクノロジーが発展し続けるにつれて、CriticGPT のようなイノベーションは AI システムの精度と信頼性を向上させる上で重要な役割を果たし、AI と人間のニーズのさらなる整合を推進するでしょう。
アドレス: https://openai.com/index/finding-gpt4s-missing-with-gpt-4/
CriticGPT の出現は、AI モデルの自己修正と品質管理における大幅な進歩を予告し、将来の AI テクノロジーの開発に新たな方向性をもたらします。 CriticGPT にはまだいくつかの制限がありますが、その潜在的な応用価値は非常に大きく、継続的な注目と研究に値します。