Penelitian bersama yang dilakukan oleh institusi terkemuka seperti Universitas Harvard dan Universitas Stanford menunjukkan bahwa model pratinjau o1 OpenAI telah menunjukkan kemampuan luar biasa dalam tugas-tugas penalaran medis, bahkan melampaui dokter manusia. Studi ini melakukan evaluasi komprehensif terhadap model pratinjau o1, yang mencakup berbagai aspek seperti pembuatan diagnosis banding, tampilan proses penalaran diagnostik, diagnosis banding triase, penalaran probabilistik, dan penalaran manajemen, serta membandingkannya dengan dokter manusia dan bahasa skala besar awal. model. Hasil penelitiannya sangat menarik, membawa terobosan baru dalam penerapan kecerdasan buatan di bidang medis, dan juga menunjukkan arah pengembangan kecerdasan buatan medis di masa depan.
Penerapan kecerdasan buatan di bidang medis sekali lagi membawa terobosan besar! Sebuah studi yang dilakukan bersama oleh Universitas Harvard, Universitas Stanford, dan institusi terkemuka lainnya menunjukkan bahwa model pratinjau o1 OpenAI menunjukkan kemampuan luar biasa dalam berbagai tugas penalaran medis, bahkan melampauinya. dokter manusia. Studi ini tidak hanya mengevaluasi kinerja model pada tes benchmark pilihan ganda medis, namun juga berfokus pada kemampuan diagnostik dan manajemennya dalam simulasi skenario klinis kehidupan nyata.

Para peneliti melakukan evaluasi komprehensif model o1-preview melalui lima percobaan, termasuk pembuatan diagnosis banding, tampilan proses penalaran diagnostik, diagnosis banding triase, penalaran probabilistik, dan penalaran manajemen. Eksperimen tersebut dievaluasi oleh para ahli medis menggunakan metode psikometri yang divalidasi dan dirancang untuk membandingkan kinerja o1-preview dengan kontrol manusia sebelumnya dan tolok ukur model bahasa besar sebelumnya. Hasil menunjukkan bahwa o1-pratinjau mencapai peningkatan yang signifikan dalam pembuatan diagnosis banding dan kualitas penalaran diagnostik dan manajemen.

Dalam menilai kemampuan o1-preview untuk menghasilkan diagnosis banding, para peneliti menggunakan kasus Clinical Pathology Colloquium (CPC) yang diterbitkan dalam New England Journal of Medicine (NEJM). Hasil penelitian menunjukkan bahwa diagnosis banding yang diberikan oleh model mencakup diagnosis yang benar pada 78,3% kasus, dan pada 52% kasus, diagnosis pertama adalah diagnosis yang benar. Yang lebih mengejutkan lagi, pratinjau o1 memberikan diagnosis yang akurat atau sangat mirip pada 88,6% kasus, dibandingkan dengan 72,9% kasus yang sama pada model GPT-4 sebelumnya. Selain itu, o1-preview juga bekerja dengan baik dalam memilih tes diagnostik berikutnya, memilih tes yang benar pada 87,5% kasus, dan memilih rejimen tes yang dianggap membantu pada 11% kasus.

Untuk mengevaluasi lebih lanjut kemampuan penalaran klinis o1-preview, para peneliti menggunakan 20 kasus klinis dari kursus NEJM Healer. Hasilnya menunjukkan bahwa pratinjau o1 bekerja secara signifikan lebih baik daripada GPT-4, dokter yang merawat, dan residen dalam kasus ini, mencapai skor R-IDEA sempurna pada 78/80 kasus. Skor R-IDEA adalah skala 10 poin yang digunakan untuk menilai kualitas dokumentasi penalaran klinis. Selain itu, para peneliti mengevaluasi kemampuan manajemen dan penalaran diagnostik o1-preview melalui kasus manajemen "Grey Matters" dan kasus diagnostik "Landmark". Dalam kasus "Grey Matters", skor pratinjau o1 jauh lebih tinggi dibandingkan GPT-4, dokter yang menggunakan GPT-4, dan dokter yang menggunakan sumber daya tradisional. Dalam kasus “Landmark”, kinerja o1-preview setara dengan GPT-4, namun lebih baik dibandingkan dokter yang menggunakan GPT-4 atau sumber daya tradisional.
Namun, penelitian ini juga menemukan bahwa kinerja o1-preview dalam penalaran probabilistik serupa dengan model sebelumnya, tanpa peningkatan yang signifikan. Dalam beberapa kasus, model tersebut lebih rendah dibandingkan manusia dalam memprediksi kemungkinan penyakit. Para peneliti juga mencatat bahwa keterbatasan pratinjau o1 adalah kecenderungannya untuk bertele-tele, yang mungkin berkontribusi terhadap skornya dalam beberapa percobaan. Selain itu, penelitian ini terutama berfokus pada kinerja model dan tidak melibatkan interaksi manusia-komputer, sehingga penelitian lebih lanjut tentang bagaimana pratinjau o1 meningkatkan interaksi manusia-komputer diperlukan di masa depan untuk mengembangkan alat pendukung keputusan klinis yang lebih efektif.
Namun, penelitian ini menunjukkan bahwa pratinjau o1 bekerja dengan baik dalam tugas-tugas yang memerlukan pemikiran kritis yang kompleks, seperti diagnosis dan manajemen. Para peneliti menekankan bahwa tolok ukur penalaran diagnostik di bidang medis dengan cepat menjadi jenuh, sehingga memerlukan pengembangan metode evaluasi yang lebih menantang dan realistis. Mereka menyerukan uji coba teknologi ini dalam lingkungan klinis nyata dan persiapan untuk inovasi kolaboratif antara dokter dan kecerdasan buatan. Selain itu, kerangka pengawasan yang kuat perlu dibentuk untuk memantau penerapan sistem pendukung keputusan klinis AI secara luas.
Alamat makalah: https://www.arxiv.org/pdf/2412.10849
Secara keseluruhan, penelitian ini memberikan bukti kuat mengenai penerapan kecerdasan buatan di bidang medis dan juga menunjukkan arah penelitian di masa depan. Performa luar biasa dari model pratinjau o1 memang menarik, namun keterbatasannya juga memerlukan pertimbangan cermat dan memastikan keamanan dan keandalannya dalam aplikasi klinis. Di masa depan, kolaborasi manusia-mesin akan menjadi tren penting di bidang medis.