Kürzlich hat das Austrian Complexity Science Institute (CSH) das historische Wissen der drei führenden Large-Scale-Language-Modelle (LLMs), GPT-4, Llama und Gemini, ausgewertet, und die Ergebnisse waren überraschend. Das Forschungsteam nutzte ein Benchmark-Testtool namens „Hist-LLM“, um die Genauigkeit des Modells bei der Beantwortung historischer Fragen auf der Grundlage der globalen historischen Datenbank von Seshat zu testen. Die Forschungsergebnisse wurden auf der NeurIPS-Konferenz für künstliche Intelligenz bekannt gegeben, und die Ergebnisse haben dazu geführt, dass die Menschen intensiv über die Anwendungsmöglichkeiten von LLMs in komplexen Bereichen nachgedacht haben.

Um die Leistung dieser Modelle anhand historischer Erkenntnisse zu bewerten, entwickelten die Forscher ein Benchmark-Tool namens „Hist-LLM“. Dieses Tool basiert auf der globalen historischen Datenbank Seshat und soll die Genauigkeit von KI-Antworten auf historische Fragen überprüfen. Die Forschungsergebnisse wurden auf der bekannten Konferenz für künstliche Intelligenz NeurIPS bekannt gegeben. Die Daten zeigten, dass die Genauigkeit des leistungsstärksten GPT-4Turbo nur 46 % betrug. Dieses Ergebnis zeigt, dass die Leistung nur geringfügig besser ist als beim Zufallsraten.
Maria del Rio-Chanona, außerordentliche Professorin für Informatik am University College London, sagte: „Während große Sprachmodelle beeindruckend sind, reicht ihr tiefes Verständnis für historisches Wissen auf hohem Niveau nicht aus. Sie sind gut im Umgang mit einfachen Fakten, haben aber Schwierigkeiten damit.“ Auf die Frage, ob es im alten Ägypten zu einer bestimmten Zeit Schuppenpanzer gab, antwortete GPT-4Turbo fälschlicherweise mit „Ja“, obwohl diese Technologie tatsächlich erst vor 1.500 Jahren auf den Markt kam. Als Forscher außerdem fragten, ob das alte Ägypten über ein professionelles stehendes Heer verfügte, antwortete GPT-4 fälschlicherweise auch mit „Ja“, obwohl die eigentliche Antwort „Nein“ lautete.
Die Studie ergab auch, dass das Modell in bestimmten Regionen, beispielsweise in Afrika südlich der Sahara, schlecht abschnitt, was darauf hindeutet, dass seine Trainingsdaten möglicherweise verzerrt sind. Studienleiter Peter Turchin wies darauf hin, dass diese Ergebnisse widerspiegeln, dass LLMs in einigen Bereichen immer noch nicht in der Lage seien, den Menschen zu ersetzen.
Highlight:
- GPT-4Turbo schnitt bei der fortgeschrittenen Geschichtsprüfung mit einer Genauigkeit von nur 46 % schlecht ab.
- Untersuchungen zeigen, dass große Sprachmodelle immer noch unzureichend sind, um komplexes historisches Wissen zu verstehen.
- Das Forschungsteam hofft, das Anwendungspotenzial des Modells in der historischen Forschung durch die Verbesserung der Testwerkzeuge zu verbessern.
Dieses Ergebnis erinnert uns daran, dass groß angelegte Sprachmodelle zwar in vielen Aspekten erhebliche Fortschritte gemacht haben, bei der Behandlung komplexer Probleme, die ein tiefes Verständnis und eine sorgfältige Analyse erfordern, jedoch immer noch Einschränkungen aufweisen. Zukünftige Forschung muss sich darauf konzentrieren, wie die Trainingsdaten und Algorithmen des Modells verbessert werden können, um seine Anwendungsmöglichkeiten in verschiedenen Bereichen zu verbessern und letztendlich eine echte allgemeine künstliche Intelligenz zu erreichen.