최근 Downcodes의 편집자는 OpenAI의 글로벌 업무 담당 부사장인 Anna Makanju가 UN "미래 정상회담"에서 OpenAI의 o1 추론 모델에 초점을 맞춰 인공 지능 편견에 대한 자신의 견해를 공유했다는 사실을 알게 되었습니다. 그녀는 이 모델이 AI 시스템의 편향을 크게 줄일 수 있다고 믿고 편향된 반응의 자기 식별 및 수정 메커니즘을 설명합니다. 하지만 실제 테스트 결과는 기대와 달랐고, 이로 인해 업계에서는 AI 모델의 실제 성능에 대해 더 고민하게 됐다.
최근 OpenAI의 글로벌 담당 부사장인 Anna Makanju는 UN '미래 정상회담'에서 인공 지능 편견에 대한 자신의 견해를 표명했습니다.
그녀는 OpenAI의 o1과 같은 "추론" 모델이 AI 시스템의 편향을 크게 줄일 수 있다고 언급했습니다. 그렇다면 O1은 어떻게 이를 수행합니까? Makanju는 모델이 응답의 편견을 자체 식별하고 "유해한" 응답을 생성하지 않는 규칙을 더 면밀히 따를 수 있다고 설명했습니다.

그녀는 O1 모델이 문제를 다룰 때 자체 답변을 평가하는 데 더 많은 시간을 소비하고 스스로 확인할 수 있다고 말했습니다. '아, 여기 추론에 결함이 있을 수도 있습니다.'" 심지어 그녀는 1이 자체 편견을 분석하는 '거의 완벽한' 작업을 수행하며 기술이 발전함에 따라 점점 더 좋아질 것이라고 강조했습니다.
그러나 이 "거의 완벽하다"는 말은 과장된 것으로 보인다. OpenAI 내부 테스트에서는 o1이 자체 GPT-4o를 포함한 "비추론" 모델에 비해 일부 편향 테스트에서 잘 수행되지 않는 것으로 나타났습니다. 인종, 성별, 연령 관련 문제에서 o1은 어떤 경우에는 GPT-4o보다 더 낮은 성과를 냈습니다. o1은 암묵적 차별 측면에서 더 나은 성능을 보였지만 명시적 차별 측면에서는 연령 및 인종 문제에서 더 두드러졌습니다.
더욱 흥미로운 점은 o1의 경제적인 버전인 o1-mini의 성능이 훨씬 더 나빴다는 것입니다. 테스트 결과 o1-mini는 GPT-4o보다 성별, 인종, 연령에 대한 명시적인 차별 가능성이 더 높고, 연령에 대한 암묵적인 차별도 더 분명한 것으로 나타났습니다.
이 외에도 현재 추론 모델에는 많은 제한 사항이 있습니다. OpenAI는 또한 o1이 일부 작업에 최소한의 이점을 제공한다는 점을 인정합니다. 응답 속도가 느리며 일부 질문은 답변하는 데 10초 이상이 걸립니다. 게다가 o1의 가격도 과소평가할 수 없고, 운영비용도 GPT-4o의 3~4배에 이른다.
Makanju가 말하는 추론 모델이 실제로 공정한 AI를 달성하는 가장 좋은 방법이라면 실행 가능한 대안이 되기 위해서는 편견 이외의 측면을 개선해야 할 것입니다. 그렇지 않다면 충분한 여유가 있고 모든 종류의 대기 시간 및 성능 문제를 견딜 의지가 있는 고객만이 실제로 이익을 얻을 것입니다.
가장 밝은 부분:
OpenAI의 o1 모델은 AI 편향을 대폭 줄여준다고 알려져 있지만, 테스트 결과 기대만큼 성능이 좋지 않은 것으로 나타났습니다.
o1은 암묵적 차별에서는 GPT-4o보다 성능이 우수하지만 명시적 차별에서는 성능이 더 나쁩니다.
? 추론 모델 o1은 비용이 많이 들고 실행 속도가 느리며 앞으로도 여러 측면에서 개선이 필요합니다.
전체적으로 OpenAI의 o1 모델은 AI 편견을 줄이는 데 아직 갈 길이 멀습니다. 자체 수정 메커니즘은 인상적이지만 높은 비용과 속도 제한, 일부 바이어스 테스트에서 성능이 좋지 않다는 사실은 이 기술이 아직 초기 단계에 있으며 실제 적용과는 거리가 멀다는 것을 나타냅니다. . Downcodes의 편집자는 이 분야의 발전에 계속해서 관심을 기울일 것입니다.