Gemini Large Language Model (LLM) Google telah menunjukkan potensi luar biasa hanya dalam waktu enam bulan, terutama di bidang kesehatan. Model turunannya, PH-LLM, dirancang untuk memproses data perangkat yang dapat dikenakan dan bahkan mengungguli para ahli berpengalaman dalam rekomendasi tidur dan kebugaran. Artikel ini akan mempelajari kinerja luar biasa PH-LLM, keterbatasannya, dan arah pengembangan di masa depan.
Model Gemini Google baru berusia enam bulan dan telah menunjukkan kemampuan yang mengesankan di bidang keamanan, pengkodean, debugging, dan bidang lainnya. Namun, model bahasa besar (LLM) ini mengungguli manusia dalam hal rekomendasi tidur dan kebugaran. Para peneliti di Google telah meluncurkan Personal Health Large Language Model (PH-LLM), versi Gemini yang telah disesuaikan dan dapat memahami dan mempertimbangkan data kesehatan pribadi dari waktu ke waktu dari perangkat yang dapat dikenakan seperti jam tangan pintar dan monitor detak jantung. Dalam eksperimennya, model tersebut menjawab dan memprediksi pertanyaan secara signifikan lebih baik dibandingkan para ahli dengan pengalaman bertahun-tahun di bidang kesehatan dan kebugaran.

Teknologi yang dapat dipakai dapat membantu orang memantau kesehatan mereka dan, idealnya, membuat perubahan yang berarti. Perangkat ini menyediakan “sumber data yang kaya dan berjangka panjang” yang dapat “diperoleh secara pasif dan terus-menerus” dari masukan seperti catatan olahraga dan makanan, catatan harian suasana hati, dan terkadang bahkan aktivitas media sosial. Namun, data yang mereka ambil mengenai tidur, aktivitas fisik, kesehatan kardiometabolik, dan stres jarang diintegrasikan ke dalam pengaturan klinis “sedikit demi sedikit”. Para peneliti berspekulasi bahwa hal ini mungkin terjadi karena data diambil dengan konteks yang kurang dan memerlukan banyak komputasi untuk menyimpan dan menganalisis. Selain itu, interpretasi data ini mungkin sulit dilakukan.
Namun, para peneliti di Google telah membuat terobosan dalam melatih model PH-LLM untuk memberikan rekomendasi, menjawab pertanyaan ujian profesional, dan memprediksi hasil gangguan tidur dan gangguan tidur yang dilaporkan sendiri. Model tersebut diberikan pertanyaan pilihan ganda, dan para peneliti juga menggunakan metode "rantai pemikiran" (meniru penalaran manusia) dan metode "zero-shot" (mengidentifikasi objek dan konsep yang sebelumnya belum pernah ditemui).
Yang mengesankan, PH-LLM mencapai skor 79% pada ujian tidur dan 88% pada ujian kebugaran, keduanya melampaui skor rata-rata sampel kelompok ahli manusia, termasuk lima pelatih atletik profesional (pengalaman rata-rata 13,8 tahun) dan lima spesialis pengobatan tidur (pengalaman rata-rata 25 tahun). Skor rata-rata pakar kebugaran dan tidur masing-masing adalah 71% dan 76%.
“Meskipun pengembangan dan evaluasi lebih lanjut diperlukan dalam domain kesehatan pribadi, hasil ini menunjukkan basis pengetahuan yang luas dan kemampuan model Gemini,” kata para peneliti.
Untuk mencapai hasil ini, pertama-tama para peneliti membuat dan mengkurasi tiga kumpulan data untuk menguji wawasan dan rekomendasi yang dipersonalisasi dari perangkat yang dapat dikenakan, keahlian domain, dan prediksi kualitas tidur yang dilaporkan sendiri. Mereka bekerja dengan pakar domain untuk membuat 857 studi kasus yang mewakili skenario kehidupan nyata di bidang tidur dan kebugaran. Adegan Tidur menggunakan metrik individual untuk mengidentifikasi faktor mendasar dan memberikan rekomendasi yang dipersonalisasi untuk membantu meningkatkan kualitas tidur. Tugas kebugaran menggunakan informasi dari pelatihan, tidur, metrik kesehatan, dan umpan balik pengguna untuk mengembangkan rekomendasi intensitas aktivitas fisik pada hari tertentu.
Kedua studi kasus tersebut mencakup data sensor yang dapat dikenakan, termasuk data tidur hingga 29 hari dan data kebugaran selama lebih dari 30 hari, bersama dengan informasi demografis (usia dan jenis kelamin) dan analisis pakar.
Meskipun para peneliti mencatat bahwa PH-LLM hanyalah permulaan, sama seperti teknologi baru lainnya, masih ada beberapa permasalahan yang perlu dipecahkan. Misalnya, tanggapan yang dihasilkan oleh model tidak selalu konsisten, terdapat fiksi "perbedaan signifikan" dalam studi kasus, dan LLM terkadang tampak konservatif atau hati-hati dalam memberikan tanggapan. Dalam studi kasus kebugaran, model tersebut sangat sensitif terhadap latihan berlebihan, dan dalam satu kasus, pakar manusia mencatat bahwa model tersebut gagal mengidentifikasi potensi penyebab cedera akibat kurang tidur. Selain itu, studi kasus ini secara luas mencakup berbagai demografi dan individu yang relatif aktif sehingga mungkin tidak sepenuhnya mewakili populasi atau mengatasi masalah tidur dan kebugaran yang lebih luas.
Kesimpulannya, penerapan PH-LLM dalam bidang kesehatan diri menunjukkan potensi yang besar namun masih memerlukan perbaikan lebih lanjut. Penelitian di masa depan harus fokus pada konsistensi, kekuatan, dan penerapannya pada populasi yang lebih luas untuk memastikan penerapannya aman dan efektif dalam skenario nyata.