Совместные исследования ведущих институтов, таких как Гарвардский университет и Стэнфордский университет, показывают, что модель o1-preview от OpenAI продемонстрировала удивительные возможности в задачах медицинского рассуждения, превосходя даже врачей-людей. В этом исследовании была проведена всесторонняя оценка модели o1-предварительного просмотра, охватывающая множество аспектов, таких как постановка дифференциального диагноза, отображение процесса диагностического рассуждения, сортировочный дифференциальный диагноз, вероятностное рассуждение и управленческое рассуждение, и сравнили ее с врачами-людьми и ранними крупномасштабными языковыми рассуждениями. модели. Результаты исследований привлекательны, они приносят новые прорывы в применении искусственного интеллекта в медицинской сфере, а также указывают путь будущего развития медицинского искусственного интеллекта.
Применение искусственного интеллекта в медицинской сфере в очередной раз привело к крупному прорыву! Исследование, проведенное совместно Гарвардским университетом, Стэнфордским университетом и другими ведущими учреждениями, показало, что модель o1-preview от OpenAI продемонстрировала удивительные возможности в решении множества задач медицинского рассуждения, даже превосходя их. человеческие врачи. В этом исследовании не только оценивалась производительность модели в медицинских тестах с множественным выбором, но также основное внимание уделялось ее диагностическим и управленческим возможностям в смоделированных реальных клинических сценариях. Результаты впечатляют.

Исследователи провели всестороннюю оценку модели o1-предварительного просмотра посредством пяти экспериментов, включая постановку дифференциального диагноза, отображение процесса диагностического рассуждения, дифференциальную диагностику сортировки, вероятностное рассуждение и управленческое рассуждение. Эксперименты оценивались медицинскими экспертами с использованием проверенных психометрических методов и были разработаны для сравнения производительности o1-preview с предыдущими тестами на людях и более ранними тестами больших языковых моделей. Результаты показывают, что o1-preview позволяет значительно улучшить дифференциальный диагноз и качество диагностических и лечебных рассуждений.

Оценивая способность o1-preview ставить дифференциальные диагнозы, исследователи использовали случаи симпозиума по клинической патологии (CPC), опубликованные в Медицинском журнале Новой Англии (NEJM). Результаты показали, что дифференциальный диагноз, заданный моделью, включал правильный диагноз в 78,3% случаев, а в 52% случаев первый диагноз был правильным. Еще более поразительно то, что предварительный просмотр o1 дал точные или очень точные диагнозы в 88,6% случаев по сравнению с 72,9% тех же случаев для предыдущей модели GPT-4. Кроме того, предварительный просмотр o1 также хорошо показал себя при выборе следующего диагностического теста: правильный тест был выбран в 87,5% случаев, а схема тестирования была признана полезной в 11% случаев.

Для дальнейшей оценки возможностей клинического рассуждения o1-preview исследователи использовали 20 клинических случаев из курса NEJM Healer. Результаты показывают, что в этих случаях o1-preview работал значительно лучше, чем GPT-4, лечащие врачи и ординаторы, достигая отличных показателей R-IDEA в 78/80 случаях. Оценка R-IDEA представляет собой 10-балльную шкалу, используемую для оценки качества документации по клиническому обоснованию. Кроме того, исследователи оценили возможности o1-preview в области управления и диагностического рассуждения с помощью управленческого кейса «Серые вопросы» и диагностического кейса «Ориентир». В случае «Серые вопросы» o1-preview получил значительно более высокие оценки, чем GPT-4, врачи, использующие GPT-4, и врачи, использующие традиционные ресурсы. В случае «Ориентир» o1-preview работает наравне с GPT-4, но лучше, чем врачи, использующие GPT-4 или традиционные ресурсы.
Однако исследование также показало, что производительность o1-preview в вероятностных рассуждениях аналогична предыдущей модели без существенных улучшений. В некоторых случаях модель уступала людям в прогнозировании вероятности заболевания. Исследователи также отметили, что ограничением o1-preview является его склонность к многословию, что, возможно, способствовало повышению его оценки в некоторых экспериментах. Кроме того, это исследование в основном было сосредоточено на производительности модели и не включало взаимодействие человека с компьютером, поэтому в будущем необходимы дальнейшие исследования того, как o1-preview улучшает взаимодействие человека с компьютером для разработки более эффективных инструментов поддержки клинических решений.
Тем не менее, это исследование показывает, что o1-preview хорошо справляется с задачами, требующими сложного критического мышления, такими как диагностика и управление. Исследователи подчеркивают, что критерии диагностического рассуждения в медицинской сфере быстро насыщаются, что требует разработки более сложных и реалистичных методов оценки. Они призывают к испытаниям этих технологий в реальных клинических условиях и подготовке к совместным инновациям между врачами и искусственным интеллектом. Кроме того, необходимо создать надежную систему надзора для мониторинга широкого внедрения систем поддержки клинических решений с использованием искусственного интеллекта.
Адрес статьи: https://www.arxiv.org/pdf/2412.10849.
В целом, это исследование предоставляет убедительные доказательства применения искусственного интеллекта в медицинской сфере, а также указывает направление будущих исследований. Превосходные характеристики модели o1-preview впечатляют, но ее ограничения также требуют тщательного рассмотрения и обеспечения ее безопасности и надежности в клинических приложениях. В будущем сотрудничество человека и машины станет важной тенденцией в медицинской сфере.