OpenAI의 GPT-5 프로젝트(코드명 Orion)는 더디게 진행되면서 향후 대규모 언어 모델의 개발 방향에 대해 업계에서 폭넓은 우려를 불러일으켰습니다. 보도에 따르면 GPT-5는 기존 모델보다 성능이 뛰어나지만 막대한 연구개발 비용을 감당하기에는 부족하다고 한다. 더 중요한 것은 글로벌 데이터 부족이 GPT-5의 지능 수준 향상을 방해하는 주요 병목 현상이 되었다는 것입니다. 이 기사에서는 GPT-5 프로젝트가 직면한 기술적 과제, 내부적 어려움, 그리고 AI 개발의 병목 현상에 대한 그에 따른 생각을 깊이 탐구할 것입니다.
세간의 이목을 끄는 GPT-5 프로젝트(코드명 Orion)는 18개월 넘게 개발 중이지만 아직 출시되지 않았습니다. 월스트리트저널의 최신 보도에 따르면, 오리온의 성능은 OpenAI의 기존 모델보다 우수하지만, 그 개선만으로는 막대한 비용을 계속 투자할 만큼 충분하지 않다고 밝혔습니다. 더욱 걱정스러운 것은 글로벌 데이터의 부족이 GPT-5가 더 높은 수준의 지능으로 나아가는 데 가장 큰 장애물이 될 수 있다는 점이다.
GPT-5는 최소 2번의 훈련을 거쳤으며, 각 훈련마다 새로운 문제가 노출되어 연구원들의 기대에 미치지 못했다고 합니다. 각 훈련 라운드에는 수개월이 걸리며 계산 비용만 해도 5억 달러에 이릅니다. 프로젝트가 성공할지, 언제 성공할지는 불분명하다.

훈련으로 가는 길은 어려움으로 가득 차 있습니다. 데이터 병목 현상이 나타납니다.
OpenAI는 2023년 3월 GPT-4가 출시된 이후 GPT-5 개발에 착수했습니다. 일반적으로 AI 모델의 기능은 흡수하는 데이터 양이 증가함에 따라 증가합니다. 훈련 과정에는 엄청난 양의 데이터가 필요하고 몇 달이 걸리며 수많은 고가의 컴퓨팅 칩에 의존합니다. OpenAI CEO 알트만(Altman)은 GPT-4 학습 비용만 1억 달러가 넘고, 향후 AI 모델 학습 비용도 10억 달러를 넘어설 것으로 예상된다고 밝힌 바 있다.
위험을 줄이기 위해 OpenAI는 일반적으로 모델의 타당성을 검증하기 위해 소규모 시험 실행을 먼저 수행합니다. 그러나 GPT-5 개발은 초기부터 난제에 부딪혔다. 2023년 중반, OpenAI는 GPT-5의 새로운 디자인을 테스트하기 위해 설계된 "Arrakis"라는 실험 교육을 시작했습니다. 그러나 훈련 진행은 느리고 비용이 많이 들고, 실험 결과에 따르면 GPT-5의 개발은 원래 예상했던 것보다 더 복잡하고 어렵다는 것이 밝혀졌습니다.
따라서 OpenAI 연구팀은 Orion에 일련의 기술적 조정을 하기로 결정했고 기존 공개 인터넷 데이터가 더 이상 모델의 요구 사항을 충족할 수 없다는 것을 깨달았습니다. GPT-5의 성능을 향상시키기 위해서는 더 많은 유형과 더 높은 품질의 데이터가 시급히 필요합니다.
“처음부터 데이터 만들기”: 데이터 부족에 대처하기
데이터 부족 문제를 해결하기 위해 OpenAI는 '데이터를 처음부터 생성'하기로 결정했습니다. 그들은 새로운 소프트웨어 코드를 작성하거나 수학적 문제를 해결하기 위해 소프트웨어 엔지니어와 수학자를 고용하고 Orion이 이러한 작업을 통해 배울 수 있도록 합니다. 또한 OpenAI를 통해 이러한 전문가는 작업 프로세스를 설명하고 인간의 지능을 기계 학습 가능한 지식으로 전환할 수 있습니다.
많은 연구자들은 소프트웨어 언어인 코드가 대규모 모델이 이전에 보지 못한 문제를 해결하는 데 도움이 될 수 있다고 믿습니다. Turing CEO Jonathan Siddharth는 "우리는 인간의 지능을 인간 두뇌에서 기계 두뇌로 옮기고 있습니다."라고 말했습니다.
OpenAI는 이론 물리학과 같은 분야의 전문가와 협력하여 해당 분야의 어려운 문제를 해결하는 방법을 설명하기도 합니다. 그러나 이 "처음부터 데이터 생성" 접근 방식은 그리 효율적이지 않습니다. GPT-4의 훈련 데이터는 약 13조 개의 토큰이다. 1,000명이 하루에 5,000단어를 쓴다고 해도 10억 개의 토큰을 생산하는 데는 수개월이 걸린다.
OpenAI는 훈련 속도를 높이기 위해 AI가 생성한 '합성 데이터'도 활용하려고 합니다. 그러나 AI 생성 데이터를 AI 훈련에 재사용하는 피드백 루프로 인해 모델이 오류를 범하거나 의미 없는 답변을 생성하는 경우가 있다는 연구 결과가 나왔습니다. 이와 관련하여 OpenAI 과학자들은 o1이 생성한 데이터를 사용하면 이러한 문제를 피할 수 있다고 믿습니다.
내부 및 외부 문제: OpenAI는 여러 가지 과제에 직면해 있습니다.
OpenAI는 기술적인 어려움에 직면할 뿐만 아니라 내부 혼란과 경쟁사의 밀렵에도 직면해 있습니다. 동시에 기술과 금융의 이중 압력도 증가하고 있습니다. 각 교육 세션 비용은 최대 5억 달러이며, 최종 교육 비용은 10억 달러를 초과할 가능성이 높습니다. 동시에 Anthropic 및 Google과 같은 경쟁업체도 OpenAI를 따라잡기 위해 차세대 모델을 출시하고 있습니다.
두뇌 유출과 내부 불일치로 인해 개발 속도가 더욱 느려졌습니다. 작년에 OpenAI 이사회는 Altman을 갑자기 해고했고 일부 연구자들은 회사의 미래에 의문을 제기했습니다. Altman은 신속하게 CEO로 재임명되어 회사의 지배 구조를 개혁하기 시작했지만 공동 창업자이자 최고 과학자인 Ilya Sutskever와 기술 책임자인 Mira Murati를 포함하여 20명 이상의 핵심 임원, 연구원 및 장기 임원이 처음부터 교체되었습니다. 올해부터 직원들이 속속 퇴사하고 있습니다.
Orion 프로젝트의 진행이 정체되면서 OpenAI는 GPT-4의 단순화된 버전과 AI 영상 생성 제품인 Sora를 포함한 다른 프로젝트와 애플리케이션을 개발하기 시작했습니다. 그러나 이로 인해 한정된 컴퓨팅 리소스를 놓고 여러 팀, 특히 신제품 개발팀과 오리온 연구팀 사이에 치열한 경쟁이 벌어졌습니다.
AI 개발 병목 현상, 업계는 심층적 사고에 직면해 있는가?
GPT-5의 딜레마는 더 큰 업계 제안을 드러낼 수 있습니다. AI가 개발의 "병목 현상 기간"에 접근하고 있습니까? 업계 관계자는 대규모 데이터와 더 큰 모델에 의존하는 전략이 점차 효과가 없다고 지적합니다. 전 OpenAI 과학자 수즈코 베르(Suzko Ver)는 “우리에게는 인터넷이 하나뿐이다”라고 말한 적이 있으며, 데이터 증가 속도가 느려지고 AI 도약을 주도하는 “화석연료”가 점차 고갈되고 있습니다.
Altman은 GPT-5의 미래에 대한 명확한 시간표를 제시한 적이 없습니다. OpenAI가 GPT-5라고 불릴 만한 모델을 언제 출시할지는 아직 확실하지 않습니다. GPT-5에 대한 이러한 딜레마는 AI의 미래 발전 방향에 대한 사람들의 심층적인 고민을 촉발하기도 했습니다.
GPT-5 프로젝트의 정체는 OpenAI 자체의 발전에 영향을 미칠 뿐만 아니라 전체 AI 산업에 경종을 울려 데이터 규모와 모델 크기에만 의존하는 길은 끝났을 수 있으며, 미래에는 AI 개발은 새로운 접근 방식과 기술 혁신을 모색해야 합니다.