Baru-baru ini, editor Downcodes mengetahui bahwa Anna Makanju, Wakil Presiden Urusan Global OpenAI, berbagi pandangannya tentang bias kecerdasan buatan di "Future Summit" PBB, dengan fokus pada model inferensi o1 OpenAI. Dia percaya bahwa model tersebut dapat secara signifikan mengurangi bias dalam sistem AI dan menjelaskan mekanismenya untuk mengidentifikasi diri dan mengoreksi respons yang bias. Namun, hasil pengujian sebenarnya berbeda dari ekspektasi, sehingga memicu industri untuk berpikir lebih jauh tentang performa sebenarnya model AI.
Baru-baru ini, Anna Makanju, wakil presiden urusan global OpenAI, mengungkapkan pandangannya tentang bias kecerdasan buatan di “KTT Masa Depan” PBB.
Dia menyebutkan bahwa model "inferensi" seperti o1 OpenAI dapat secara signifikan mengurangi bias dalam sistem AI. Jadi, bagaimana O1 melakukan hal ini? Makanju menjelaskan bahwa model tersebut dapat mengidentifikasi bias dalam tanggapan dan mengikuti lebih dekat aturan untuk tidak menghasilkan tanggapan yang “berbahaya”.

Dia mengatakan model O1 menghabiskan lebih banyak waktu untuk mengevaluasi jawabannya sendiri ketika menghadapi suatu masalah dan mampu memeriksa dirinya sendiri: "Ia dapat berkata, 'Beginilah cara saya memecahkan masalah ini,' dan kemudian melihat jawabannya sendiri untuk melihat 'Oh, mungkin ada kesalahan dalam penalarannya di sini.'" Ia bahkan menekankan bahwa kita melakukan pekerjaan yang "hampir sempurna" dalam menganalisis bias-bias dalam diri kita, dan hal ini akan menjadi semakin baik seiring dengan kemajuan teknologi.
Namun pernyataan “hampir sempurna” ini nampaknya berlebihan. Pengujian internal OpenAI menemukan bahwa o1 tidak bekerja dengan baik dalam beberapa pengujian bias dibandingkan dengan model "non-inferensi", termasuk GPT-4o miliknya. Mengenai masalah ras, jenis kelamin, dan usia, kinerja o1 bahkan lebih buruk daripada GPT-4o dalam beberapa kasus. Meskipun o1 berkinerja lebih baik dalam hal diskriminasi implisit, dalam hal diskriminasi eksplisit, hal ini lebih menonjol dalam masalah usia dan ras.
Yang lebih menarik lagi adalah versi ekonomis o1, o1-mini, memiliki performa yang lebih buruk. Pengujian menunjukkan bahwa o1-mini memiliki kemungkinan lebih tinggi untuk melakukan diskriminasi eksplisit berdasarkan gender, ras, dan usia dibandingkan GPT-4o, dan diskriminasi implisit berdasarkan usia juga lebih jelas terlihat.
Selain itu, model inferensi saat ini memiliki banyak keterbatasan. OpenAI juga mengakui bahwa o1 memberikan manfaat minimal pada beberapa tugas. Responsnya lambat, dan beberapa pertanyaan membutuhkan waktu lebih dari 10 detik untuk dijawab. Selain itu, biaya o1 tidak dapat dianggap remeh, dan biaya operasionalnya 3 hingga 4 kali lipat dari GPT-4o.
Jika model inferensi yang dibicarakan Makanju memang merupakan cara terbaik untuk mencapai AI yang adil, maka model tersebut perlu meningkatkan aspek selain bias agar menjadi alternatif yang layak. Jika tidak, hanya pelanggan berkantong tebal dan bersedia menanggung segala jenis latensi dan masalah kinerja yang akan benar-benar mendapatkan keuntungan.
Menyorot:
Model o1 OpenAI dikatakan dapat mengurangi bias AI secara signifikan, namun hasil pengujian menunjukkan bahwa kinerjanya tidak sebaik yang diharapkan.
o1 berkinerja lebih baik dibandingkan GPT-4o dalam diskriminasi implisit, namun lebih buruk dalam diskriminasi eksplisit.
? Model inferensi o1 mahal dan berjalan lambat, dan masih perlu ditingkatkan dalam banyak aspek di masa depan.
Secara keseluruhan, jalan model o1 OpenAI masih panjang dalam mengurangi bias AI. Meskipun mekanisme koreksi mandirinya sangat mengesankan, keterbatasan biaya dan kecepatan yang tinggi, serta fakta bahwa teknologi ini berkinerja buruk dalam beberapa pengujian bias, menunjukkan bahwa teknologi ini masih dalam tahap awal dan masih cukup jauh dari jangkauan penerapan praktis . Redaksi Downcodes akan terus memperhatikan perkembangan bidang ini.