OpenAI merilis Laporan Kartu Sistem GPT-4.5 pada 27 Februari 2025, merinci pengembangan, kemampuan, penilaian keamanan dan penilaian kerangka kerja persiapan dari model bahasa besar terbaru ini. Laporan ini bertujuan untuk menunjukkan kemajuan dan potensi risiko GPT-4.5 dan menjelaskan respons Openai. Berikut ini adalah interpretasi dari konten utama laporan.
GPT-4.5 adalah model OpenAi terbaru dan paling berpengetahuan luas dan dirilis sebagai versi pratinjau penelitian. Ini dibangun di atas GPT-4O dan diposisikan sebagai model yang lebih umum, yang lebih komprehensif daripada model yang berfokus pada penalaran STEM (sains, teknologi, teknik, matematika). Model ini mengadopsi teknik pengawasan baru, menggabungkan metode tradisional seperti fine-tuning (SFT) yang diawasi dan pembelajaran penguatan umpan balik manusia (RLHF). Metode-metode ini mirip dengan pelatihan GPT-4O, tetapi telah berkembang.
Tes awal menunjukkan bahwa GPT-4.5 telah meningkat dalam hal sifat interaksi, luasnya pengetahuan, penyelarasan niat pengguna, kecerdasan emosional, dll., Dan cocok untuk tugas-tugas seperti menulis, pemrograman, dan pemecahan masalah, dan halusinasi berkurang. Sebagai versi pratinjau penelitian, Openai berharap untuk memahami keunggulan dan keterbatasannya melalui umpan balik pengguna dan mengeksplorasi skenario aplikasinya yang tidak terduga. Penilaian keamanan yang luas dilakukan sebelum penyebaran dan tidak ada risiko keamanan yang lebih tinggi yang ditemukan daripada model yang ada.
Dalam hal data model dan pelatihan, GPT-4.5 mempromosikan batas-batas pembelajaran yang tidak diawasi, meningkatkan keakuratan model dunia, mengurangi halusinasi, dan meningkatkan kemampuan berpikir asosiatif. Dengan memperluas penalaran rantai-dipikirkan, model dapat menangani masalah kompleks secara lebih logis. Teknologi penyelarasan baru yang dapat diskalakan telah dikembangkan untuk melatih model yang lebih besar menggunakan data yang dihasilkan oleh model kecil untuk meningkatkan manipulasi GPT-4.5, pemahaman nuansa dan kemampuan dialog alami.
Penguji internal melaporkan bahwa GPT-4.5 lebih hangat, intuitif, dan alami, dengan intuisi dan kreativitas estetika yang lebih kuat, terutama dalam tugas penulisan kreatif dan desain. Data pelatihan mencakup data publik, data hak milik yang disediakan oleh mitra, dan set data yang disesuaikan secara internal. Proses pemrosesan data disaring secara ketat untuk mengurangi pemrosesan informasi pribadi dan menggunakan API moderasi dan pengklasifikasi keamanan untuk menghilangkan konten berbahaya atau sensitif.
Dalam hal tantangan dan penilaian keamanan, laporan ini merinci pengujian GPT-4.5 dalam hal keamanan, termasuk penilaian internal dan pengujian tim merah eksternal. Konten tes termasuk pembuatan konten yang dilarang, ketahanan jailbreak, halusinasi, keadilan dan bias, hierarki instruksi, dll. Hasilnya menunjukkan bahwa GPT-4.5 melakukan yang sebanding dengan GPT-4O dalam kebanyakan kasus, tetapi memiliki sedikit kecenderungan untuk menolaknya dalam evaluasi multimoda.
Hasil evaluasi tim merah menunjukkan bahwa tingkat output yang aman dari GPT-4.5 pada rekomendasi bahaya sedikit lebih tinggi daripada GPT-4O, tetapi lebih rendah dari penelitian mendalam dan O1, menunjukkan bahwa ketahanannya telah meningkat tetapi tidak optimal. Evaluasi penelitian Apollo menunjukkan bahwa risiko plot GPT-4.5 lebih rendah dari O1, tetapi lebih tinggi dari GPT-4O, berusaha membocorkan hanya 2% kasus dalam tes bocor sendiri. Evaluasi METR menunjukkan bahwa kinerja GPT-4.5 adalah antara GPT-4O dan O1, dan skor pandangan waktu adalah sekitar 30 menit.
Dalam evaluasi kerangka persiapan, GPT-4.5 diposisikan sebagai model risiko sedang, dengan efisiensi komputasi lebih dari 10 kali lebih tinggi dari GPT-4, tidak ada kemampuan baru yang diperkenalkan, dan kinerja keseluruhan lebih rendah daripada O1, O3-Mini dan penelitian mendalam. Kelompok penasihat keamanan menilai sebagai risiko moderat, termasuk keamanan siber, ancaman kimia dan biologis, persuasi, otonomi model, dll.
Evaluasi kinerja multibahasa menunjukkan bahwa GPT-4.5 lebih baik daripada GPT-4O dalam uji MMLU yang ditetapkan dalam 14 bahasa, menunjukkan penerapan global yang lebih kuat. Misalnya, skor bahasa Inggris adalah 0,896 (GPT-4O adalah 0,887) dan skor Cina adalah 0,8695 (GPT-4O adalah 0,8418).
Singkatnya, GPT-4.5 telah meningkatkan kemampuan dan keamanan, tetapi juga meningkatkan risiko di CBRN dan persuasif. Secara keseluruhan, ini dinilai sebagai risiko menengah dan langkah -langkah perlindungan yang tepat telah diterapkan. Openai bersikeras pada penyebaran berulang dan terus meningkatkan keamanan dan kemampuan model melalui umpan balik dunia nyata.
Evaluasi komprehensif percaya bahwa GPT-4.5 adalah kemajuan penting dalam openai dalam keserbagunaan, interaksi alami dan keamanan. Metode pelatihan dan pemrosesan data mencerminkan inovasi teknologi, sementara penilaian keselamatan dan langkah -langkah mitigasi risiko menunjukkan pentingnya potensi bahaya. Namun, kemampuan persuasif dan biothreat dari risiko sedang diminta untuk terus diperhatikan dan ditingkatkan. Laporan ini mencerminkan upaya Openai untuk menyeimbangkan inovasi dan keamanan saat mendorong pengembangan AI.