Künstliche Intelligenz hat in verschiedenen Bereichen leistungsstarke Fähigkeiten bewiesen, ihre Grenzen bei der Bewältigung komplexer historischer Probleme treten jedoch immer deutlicher hervor. Neuere Forschungen zeigen, dass selbst hochmoderne, groß angelegte Sprachmodelle erhebliche Mängel bei der Verarbeitung nuancierter historischer Details aufweisen. Diese Forschung stellt neue Herausforderungen an die Zuverlässigkeit und den Anwendungsbereich bestehender KI-Modelle und liefert auch wertvolle Hinweise für die Verbesserungsrichtung zukünftiger KI-Modelle.
Neue Forschungsergebnisse zeigen, dass künstliche Intelligenz zwar in Bereichen wie Programmierung und Inhaltserstellung hervorragende Leistungen erbringt, bei der Bewältigung komplexer historischer Fragestellungen jedoch immer noch unzureichend ist. Eine kürzlich auf der NeurIPS-Konferenz veröffentlichte Studie zeigte, dass selbst die fortschrittlichsten großen Sprachmodelle (LLM) Schwierigkeiten haben, bei historischen Wissenstests zufriedenstellende Ergebnisse zu erzielen.
Das Forschungsteam entwickelte einen Test-Benchmark namens Hist-LLM, um drei Top-Sprachmodelle zu bewerten: GPT-4 von OpenAI, Llama von Meta und Gemini von Google. Der Test wurde mit der globalen historischen Datenbank Seshat durchgeführt und die Ergebnisse waren enttäuschend: Der leistungsstärkste GPT-4Turbo hatte eine Genauigkeit von nur 46 %.

Maria Del Rio-Chanona, außerordentliche Professorin am University College London, erklärte: „Diese Modelle schneiden gut ab, wenn es um grundlegende historische Fakten geht, sind aber unzureichend, wenn es um tiefgreifende historische Forschung auf Doktorandenebene geht.“ dass KI oft in Details falsch liegt, etwa bei der Fehleinschätzung, ob das alte Ägypten zu bestimmten Zeiten über bestimmte militärische Technologien oder stehende Armeen verfügte.
Forscher glauben, dass diese schlechte Leistung auf die Tendenz von KI-Modellen zurückzuführen ist, aus gängigen historischen Erzählungen zu schließen, und auf die Schwierigkeit, feinere historische Details genau zu erfassen. Darüber hinaus ergab die Studie, dass diese Modelle bei der Bearbeitung historischer Probleme in Regionen wie Afrika südlich der Sahara schlechter abschnitten, was mögliche Verzerrungsprobleme in den Trainingsdaten aufdeckte.
Peter Turchin, Forschungsleiter am Complexity Science Center (CSH), sagte, diese Erkenntnis zeige, dass KI in einigen Berufsfeldern noch nicht in der Lage sei, menschliche Experten zu ersetzen. Das Forschungsteam bleibt jedoch hinsichtlich der Anwendungsaussichten von KI in der historischen Forschung optimistisch und verbessert den Test-Benchmark, um zur Entwicklung besserer Modelle beizutragen.
Die Ergebnisse dieser Studie erinnern uns daran, dass sich die Technologie der künstlichen Intelligenz zwar rasant weiterentwickelt, das Wissen und Urteilsvermögen menschlicher Experten in einigen spezifischen Bereichen jedoch immer noch unersetzlich ist. Zukünftig muss das KI-Modell weiter verbessert werden, damit es komplexe historische Informationen besser verarbeiten kann und effektivere Hilfswerkzeuge für die historische Forschung bereitstellt.