OpenAI는 2025 년 2 월 27 일에 GPT-4.5 시스템 카드 보고서를 발표 하여이 최신 대형 언어 모델의 개발, 기능, 보안 평가 및 준비 프레임 워크 평가를 자세히 설명했습니다. 이 보고서는 GPT-4.5의 진행 상황과 잠재적 위험을 입증하고 OpenAI의 반응을 설명하는 것을 목표로합니다. 다음은 보고서의 주요 내용에 대한 해석입니다.
GPT-4.5는 OpenAI의 최신 및 가장 지식이 풍부한 대형 언어 모델이며 연구 미리보기 버전으로 출시됩니다. 그것은 GPT-4O를 기반으로 구축되었으며 STEM (과학, 기술, 공학, 수학) 추론에 중점을 둔 모델보다 더 포괄적 인 모델로 배치되어 있습니다. 이 모델은 감독 미세 조정 (SFT) 및 인간 피드백 강화 학습 (RLHF)과 같은 전통적인 방법을 결합한 새로운 감독 기술을 채택합니다. 이러한 방법은 GPT-4O 교육과 유사하지만 확장되었습니다.
초기 테스트에 따르면 GPT-4.5는 상호 작용 성격, 지식의 폭, 사용자 의도 정렬, 감성 지능 등의 관점에서 개선되었으며 작문, 프로그래밍 및 문제 해결 및 환각과 같은 작업에 적합합니다. Research Preview 버전으로서 OpenAi는 사용자 피드백을 통해 장점과 한계를 이해하고 예상치 못한 응용 프로그램 시나리오를 탐색하기를 희망합니다. 배치 전에 광범위한 보안 평가가 수행되었으며 기존 모델보다 상당한 보안 위험이 발견되지 않았습니다.
모델 데이터 및 교육 측면에서 GPT-4.5는 감독되지 않은 학습의 경계를 홍보하고, 세계 모델의 정확성을 향상시키고, 환각을 줄이며, 연관 사고 능력을 향상시킵니다. 생각의 사슬을 확장함으로써 모델은 복잡한 문제를보다 논리적으로 처리 할 수 있습니다. 소규모 모델로 생성 된 데이터를 사용하여 더 큰 모델을 훈련시키기 위해 새로운 확장 가능한 정렬 기술이 개발되어 GPT-4.5의 조작, 뉘앙스 및 자연 대화 기능에 대한 이해를 향상시킵니다.
내부 테스터는 GPT-4.5가 더 따뜻하고 직관적이며 자연스럽고 특히 창의적인 작문 및 디자인 작업에서 더 강한 미적 직관과 창의성을 가지고 있다고보고했습니다. 교육 데이터에는 공개 데이터, 파트너가 제공하는 독점 데이터 및 내부 사용자 정의 데이터 세트가 포함됩니다. 데이터 처리 프로세스는 개인 정보 처리를 줄이고 중재 API 및 보안 분류기를 사용하여 유해하거나 민감한 콘텐츠를 제거하기 위해 엄격하게 필터링됩니다.
보안 문제 및 평가 측면에서 보고서는 내부 평가 및 외부 레드 팀 테스트를 포함하여 보안 측면에서 GPT-4.5의 테스트를 자세히 설명합니다. 테스트 컨텐츠에는 금지 된 콘텐츠 생성, 탈옥 견고, 환각, 공정성 및 편견, 교육 계층 등이 포함됩니다. 결과는 대부분의 경우 GPT-4O와 비슷하지만 다중 모드 평가에서이를 거부하는 경향이 약간 있음을 보여줍니다.
Red Team Evaluation의 결과에 따르면 위험 권장 사항에 대한 GPT-4.5의 안전한 출력 속도는 GPT-4O보다 약간 높지만 깊은 연구 및 O1보다 낮으며, 이는 견고성이 개선되었지만 최적이지 않음을 나타냅니다. Apollo Research 평가에 따르면 GPT-4.5의 플롯 위험은 O1보다 낮지 만 GPT-4O보다 높으며 자체 누출 테스트에서 2%의 경우 유출을 시도합니다. METR 평가에 따르면 GPT-4.5 성능은 GPT-4O와 O1 사이이며 시간 뷰 점수는 약 30 분입니다.
준비 프레임 워크 평가에서 GPT-4.5는 중간 위험 모델로 배치되었으며, GPT-4보다 10 배 이상 높은 계산 효율성이 도입되지 않았으며 전체 성능은 O1, O3-MINI 및 DEEP Research의 전체 성능보다 낮았습니다. 보안 자문 그룹은 사이버 보안, 화학 및 생물학적 위협, 설득, 모델 자율성 등을 포함한 적당한 위험으로 평가했습니다.
다국어 성능 평가에 따르면 14 개 언어로 설정된 MMLU 테스트에서 GPT-4.5가 GPT-4O보다 우수하여 글로벌 적용 가능성이 강한 것으로 나타났습니다. 예를 들어, 영어 점수는 0.896 (GPT-4O는 0.887)이고 중국 점수는 0.8695 (GPT-4O는 0.8418)입니다.
요약하면, GPT-4.5는 기능과 보안을 개선했지만 CBRN 및 설득력의 위험이 증가했습니다. 전반적으로, 그것은 중간 위험으로 평가되며 적절한 보호 조치가 구현되었습니다. OpenAI는 반복 배포를 주장하고 실제 피드백을 통해 모델 보안 및 기능을 지속적으로 향상시킵니다.
포괄적 인 평가에 따르면 GPT-4.5는 다목적 성, 자연적인 상호 작용 및 보안에서 OpenAI에서 중요한 발전이라고 생각합니다. 교육 방법과 데이터 처리는 기술 혁신을 반영하는 반면 안전 평가 및 위험 완화 조치는 잠재적 인 피해에 중요성을 나타냅니다. 그러나, 중간 위험의 설득력과 생물 레트 능력은 지속적으로주의를 기울이고 개선해야한다. 이 보고서는 AI 개발을 주도하면서 혁신과 보안의 균형을 맞추려는 OpenAI의 노력을 반영합니다.