ChatGPT von OpenAI oder Bard von Google beziehungsweise ihre zugrundeliegenden Sprachmodelle GPT-4 oder PalM2, aber auch andere große Sprachmodelle beherrschen so manche Fähigkeit, die noch vor wenigen Jahren als Meilenstein der künstlichen Intelligenz (KI) gefeiert worden wäre. Eloquent beantworten sie Fragen, bestehen akademische Prüfungen mit Bravour und verblüffen mit erstaunlichem Allgemeinwissen. Doch gibt es auch einfache Aufgaben, an denen die Systeme kläglich scheitern? Was also ist wirklich dran an der „Genialität“ dieser Systeme? Wissenschaftler rätseln noch, wie die Fähigkeiten richtig zu bewerten sind.
Kürzlich sorgte eine Studie für Aufsehen, die zeigt: Den aktuell besten KI-Systemen bereiten schon einfache visuelle Logik-Rätsel große Probleme. Das Team um Melanie Mitchell vom Santa Fe Institute präsentierte GPT-4 Aufgaben, bei denen farbige Blöcke in einem Raster angeordnet sind. Aus mehreren Beispielen soll auf die zugrundeliegende Regel geschlossen und vorhergesagt werden, wie sich die Blöcke als nächstes verändern. Die meisten Menschen lösen solche Aufgaben mühelos. GPT-4 jedoch schaffte nur ein Drittel in einer Kategorie richtig und in anderen erreichte sie teils nur 3 Prozent. Andere KI-Systeme, die speziell für solche Rätsel entwickelt wurden, erreichten zwar bessere, aber immer noch deutlich schlechtere Ergebnisse als Menschen. Die Studie zeigt: Den künstlichen Systemen fällt es aktuell noch schwer, zugrundeliegende Konzepte zu erkennen und daraus zu lernen. Eines der Kennzeichen menschlicher Intelligenz ist aber gerade die Fähigkeit zur Abstraktion und zum Transfer auf neue Situationen.
Woran liegt es also, dass KI-Systeme den Menschen in solchen Basisfähigkeiten noch so deutlich unterlegen sind, sind doch die Konversationen mit ihnen teils von verblüffender Eloquenz? Eine Erklärung ist, dass sie anders lernen als Menschen. Große Sprachmodelle wie GPT-4 werden durch das Durchforsten gewaltiger Mengen an Texten trainiert. Sie erkennen statistische Korrelationen zwischen Wörtern, um bei einer Eingabe das wahrscheinlich nächste Wort zu ermitteln. Menschen hingegen erleben schon als Kind konkrete Erfahrungen mit Objekten und Situationen und bauen ihre eigene Repräsentation der Welt auf und entwickeln kognitive Fähigkeiten wie Abstraktionsvermögen und logisches Denken.
Dies könnte erklären, warum GPT-4 zwar Texte wie von Menschen verfasst in hoher Qualität ausgeben kann, aber an einfachen visuellen Tests scheitert. Das Training beruht in diesem Fall nämlich ausschließlich auf Sprache und nicht auf realen Erfahrungen und dem notwendigen Verbinden von Sprache mit konkreten, erlebten Dingen. Manche Forscher vermuten, dass KI- Systeme daher Wörter auch nicht so „verstehen“ wie wir Menschen, da sie dadurch keine echte Begrifflichkeit der Welt entwickelt können.
Eine Kontroverse entstand kürzlich durch eine Studie des Microsoft-Forschers Sébastien Bubeck und Kollegen mit dem provokanten Titel „Funken der künstlichen Intelligenz: Frühe Experimente mit GPT-4“. Anhand einer Vorabversion von GPT-4 dokumentierten sie eine Reihe erstaunlicher Fähigkeiten abseits der reinen Sprachverarbeitung. So konnte GPT-4 Tests zur „Theory of Mind“ bestehen, mit denen Psychologen typischerweise bestimmte Kernfähigkeiten des menschlichen Geistes überprüfen. Dabei geht es darum, die geistigen Zustände anderer vorherzusagen und nachzuvollziehen. Diese Forscher sahen dies indes als Hinweis, dass GPT-4 sehr wohl eine interne Repräsentation der Welt aufbaut und in gewissem Sinne „denkt“. Sie bezeichneten GPT-4 als mögliche „frühe Version einer allgemeinen KI“.
Die Debatte zeigt: Es ist extrem schwierig, angemessene Tests zu finden, um die Fähigkeiten von KI-Systemen umfassend zu verstehen. Mit klassischen Benchmarks und akademischen Prüfungen ist es nicht getan. Doch was genau die „richtigen“ Tests sind, darüber herrscht noch wenig Klarheit in der Wissenschaft. So wird weiter lebhaft debattiert, was hinter den teils erstaunlichen, teils begrenzten Fähigkeiten von Systemen wie GPT-4 steckt.
Wie nun also die wahren Fähigkeiten und Grenzen solcher Systeme bestimmen? Jahrzehntelang galt der Turing-Test als Maßstab für Intelligenz. Wenn eine KI so menschlich wirkt, dass man sie im Chat nicht von einer Person unterscheiden kann, hat sie gewissermaßen „intelligentes“ Verhalten gezeigt. Doch KI-Experten halten diesen Test mittlerweile für überholt. Zum einen messe er mehr die Fähigkeit zum Täuschen als echte Intelligenz und zum anderen können selbst einfache Chatbots mittlerweile viele Menschen täuschen, zumindest für kurze Dialoge. Dies bedeute daher nicht, dass diese Systeme menschlicher Intelligenz tatsächlich nahekommen. Man könne sie leicht entlarven, sagen Experten, indem man ihre Schwachstellen gezielt ausnutzt. Etwa, indem man Situationen so variiert, so dass sie nicht mehr dem Muster ihrer Trainingsdaten folgen. Oder wenn man Gespräche aus ihrem „Komfortbereich“ führt, was beispielsweise Microsoft dazu veranlasste, dass man dem Bing- Chatbot nur noch fünf Fragen in Folge zu einem bestimmten Thema stellen darf, damit längere Gespräche nicht mehr in Beleidigungen enden können.
Daher setzen Wissenschaftler heute eher auf eine Vielzahl spezifischer Tests, um Stärken und Grenzen eines KI-Sprachmodells differenziert abzubilden. So wurden KI-Systeme akademischen und beruflichen Prüfungen unterzogen, die eigentlich für Menschen konzipiert wurden. So bestand GPT-4 kürzlich eine Reihe anspruchsvoller Examen, darunter für Medizin und Jura, mit teils sehr guten Ergebnissen.
Doch selbst solche vermeintlichen Erfolge sind mit Vorsicht zu interpretieren. Während gute Ergebnisse beim Abschneiden dieser Tests bei Menschen meist eine generelle kognitive Leistungsfähigkeit unterstellen, lässt sich dies bei KI-Systemen nicht so einfach verallgemeinern, da diese völlig anders funktionieren als Menschen. So ließe sich GPT-4 etwa durch minimale Veränderung von Prüfungsfragen oder Kontexten bei Themen durchfallen lassen, die es zuvor sicher beherrscht zu haben schien. Die Fähigkeiten sind bisweilen also nur oberflächlich vorhanden und bereits bei einer geringen Variation einer Aufgabe zeigt sich die nackte Unkenntnis über die Materie.
Es gilt also, geeignete Tests zu finden, die KI-Systeme umfassend „durchleuchten“. Dabei dürfe man sie aber nicht vorschnell nach Maßstäben menschlicher Intelligenz beurteilen. Man neigt dazu, intelligent scheinende Fähigkeiten wie beim Menschen auf echtes Verstehen und Denken zurückzuführen. Doch KI-Systeme funktionieren fundamental anders. Die Herausforderung ist, Tests zu entwickeln, die ihre Besonderheiten abzubilden vermögen.
Wozu das Ganze? Zum einen geht es um Grundlagenforschung – zu verstehen, was Intelligenz ausmacht und wie sie entsteht. Zum anderen ist es für die praktische Anwendung wichtig, gerade auch die Grenzen von KI-Systemen zu kennen. Nur so können sie etwa in Medizin oder Recht sicher eingesetzt werden. Es zeigt sich: Die vermeintlich intelligenten Systeme sind zugleich genial und begrenzt. Ihre wahre Natur zu ergründen, ist eine der spannendsten Fragen der modernen Informatik.