Eine neue Studie der Harvard Medical School und der Stanford University zeigt, dass das künstliche Intelligenzsystem o1-preview von OpenAI bei der Diagnose komplexer medizinischer Fälle gute Leistungen erbringt und möglicherweise sogar menschliche Ärzte übertrifft. In der Studie wurde o1-preview umfassend getestet und die Ergebnisse waren beeindruckend: Sowohl die Genauigkeit als auch die Fähigkeiten zum medizinischen Denken übertrafen deutlich die Vorgängermodelle und übertrafen erfahrene Ärzte und Assistenzärzte. Diese Forschung gibt eine neue Richtung für die Anwendung künstlicher Intelligenz im medizinischen Bereich vor und löst auch Diskussionen über ethische und praktische Fragen der Anwendung künstlicher Intelligenz in der medizinischen Praxis aus.
Laut einer neuen Studie ist das künstliche Intelligenzsystem o1-preview von OpenAI bei der Diagnose komplexer medizinischer Fälle möglicherweise besser als menschliche Ärzte. Forschungsteams der Harvard Medical School und der Stanford University führten umfassende medizinische Diagnosetests mit o1-preview durch und die Ergebnisse zeigten, dass das System im Vergleich zu früheren Versionen deutlich verbessert wurde.
Den Studienergebnissen zufolge erreichte o1-preview eine korrekte Diagnoserate von 78,3 % aller getesteten Fälle. Im direkten Vergleich von 70 konkreten Fällen erreichte die genaue Diagnoserate des Systems 88,6 % und übertraf damit deutlich die 72,9 % des Vorgängers GPT-4. Auch in Sachen Medical Reasoning ist die Leistung von o1-preview beeindruckend. Unter Verwendung der R-IDEA-Skala, einem Qualitätsbewertungsstandard für medizinisches Denken, erhielt das KI-System eine perfekte Punktzahl von 78 von 80 Fällen. Im Vergleich dazu erreichten erfahrene Ärzte nur in 28 Fällen perfekte Ergebnisse, und Assistenzärzte erreichten nur in 16 Fällen perfekte Ergebnisse.
Die Forscher räumten auch ein, dass o1-preview möglicherweise einige Testfälle in die Trainingsdaten aufgenommen hat. Als sie das System jedoch an neuen Gehäusen testeten, sank die Leistung nur geringfügig. Dr. Adam Rodman, einer der Autoren der Studie, betonte, dass es sich zwar um eine Benchmark-Studie handele, die Ergebnisse jedoch wichtige Implikationen für die medizinische Praxis hätten.
Besonders gut schnitt o1-preview bei der Bearbeitung komplexer Managementfälle ab, die speziell von 25 Experten entwickelt wurden. „Menschen sind diesen Problemen gegenüber machtlos, aber die Leistung von O1 ist erstaunlich“, erklärte Rodman. In diesen komplexen Fällen erreichte o1-preview einen Wert von 86 %, während Ärzte, die GPT-4 verwendeten, nur 41 % erreichten und herkömmliche Tools nur 34 % erreichten.
Allerdings ist o1-preview nicht ohne Mängel. In Bezug auf die Wahrscheinlichkeitsbewertung hat sich die Leistung des Systems nicht wesentlich verbessert. Bei der Bewertung der Wahrscheinlichkeit einer Lungenentzündung ergab o1-Preview beispielsweise eine Schätzung von 70 %, was deutlich über dem wissenschaftlichen Bereich von 25 % bis 42 % liegt. Die Forscher fanden heraus, dass o1-preview bei Aufgaben, die kritisches Denken erforderten, gut abschnitt, bei abstrakteren Herausforderungen wie dem Schätzen von Wahrscheinlichkeiten jedoch hinter den Erwartungen zurückblieb.
Darüber hinaus liefert o1-preview häufig detaillierte Antworten, was die Bewertung möglicherweise verbessert hat. Die Studie konzentrierte sich jedoch nur auf die alleinige Wirkung von o1-preview und bewertete nicht seine Wirkung in Zusammenarbeit mit Ärzten. Einige Kritiker weisen darauf hin, dass die von o1-preview vorgeschlagenen Diagnosetests oft kostspielig und unpraktisch seien.

Obwohl OpenAI neue Versionen von o1 und o3 veröffentlicht hat und bei komplexen Inferenzaufgaben gute Leistungen erbracht hat, lösen diese leistungsstärkeren Modelle immer noch nicht die von Kritikern angesprochenen praktischen Anwendungs- und Kostenprobleme. Rodman forderte Forscher auf, bessere Möglichkeiten zur Bewertung medizinischer KI-Systeme zu benötigen, um die Komplexität realer medizinischer Entscheidungen zu erfassen. Er betonte, dass diese Forschung nicht dazu gedacht sei, Ärzte zu ersetzen, und dass die tatsächliche medizinische Behandlung immer noch die Beteiligung des Menschen erfordere.
Papier: https://arxiv.org/abs/2412.10849
Highlight:
o1-preview übertraf Ärzte bei der Diagnoserate und erreichte eine Genauigkeitsrate von 88,6 %.
Beim Medical Reasoning erreichte o1-preview in 80 Fällen 78 Vollwerte und übertraf damit die Leistung von Ärzten bei weitem.
Trotz der hervorragenden Leistung müssen die hohen Kosten und unrealistischen Testempfehlungen von o1-preview in praktischen Anwendungen noch berücksichtigt werden.
Insgesamt zeigt diese Studie das große Potenzial künstlicher Intelligenz im Bereich der medizinischen Diagnose, erinnert uns aber auch daran, dass wir beim Einsatz von KI in der medizinischen Praxis vorsichtig sein und auf ihre Grenzen und potenziellen Risiken achten müssen In Zukunft sind Forschung und Verbesserungen erforderlich, um sicherzustellen, dass KI die medizinische Arbeit sicher und effektiv unterstützen und der menschlichen Gesundheit besser dienen kann.