
Die neueste Generation von Sprachmodellen wie GPT-4o und Gemini 1.5 Pro wird als „multimodal“ angepriesen und soll in der Lage sein, Bilder und Audio sowie Text zu verstehen. Eine neue Studie macht jedoch deutlich, dass sie nicht wirklich sehen, wie man es erwarten würde. Tatsächlich sehen sie vielleicht überhaupt nicht.
Um von Anfang an klar zu sein, hat niemand behauptet: „Diese KI kann sehen wie Menschen!“ (Nun, vielleicht einige). Aber das Marketing und die Benchmarks, die verwendet werden, um diese Modelle zu bewerben, verwenden Begriffe wie „Sehfähigkeiten“, „visuelles Verständnis“ usw. Sie sprechen darüber, wie das Modell Bilder und Videos sieht und analysiert, um alles von Hausaufgaben bis zum Anschauen des Spiels für Sie zu erledigen.
Obwohl die Behauptungen dieser Unternehmen geschickt formuliert sind, ist deutlich, dass sie ausdrücken wollen, dass das Modell in gewissem Sinne sieht. Und das tut es - aber so ähnlich wie es Mathematik macht oder Geschichten schreibt: Muster im Eingabedaten mit Mustern in seinen Trainingsdaten abgleicht. Dies führt dazu, dass die Modelle beim Scheitern in derselben Weise versagen wie bei bestimmten anderen Aufgaben, die trivial erscheinen, wie das Auswählen einer Zufallszahl.
Einige der Tests zeigten ähnliche Muster; es lag nicht daran, dass sie gut oder schlecht sahen oder schlussfolgerten, sondern es schien einen anderen Grund zu geben, warum sie in einem Fall zählen konnten, in einem anderen Fall jedoch nicht.
Eine potenzielle Antwort liegt natürlich direkt vor uns: Warum sollten sie so gut darin sein, ein Bild mit fünf Kreisen korrekt zu zählen, aber so kläglich bei den anderen versagen, oder wenn es fünf Pentagonen sind? Weil in ihren Trainingsdaten alle ein Bild mit fünf Ringen prominent enthalten: die Olympischen Ringe.
Dieses Logo wird nicht nur immer wieder in den Trainingsdaten wiederholt, sondern wahrscheinlich auch detailliert in Alternativtexten, Verwendungshinweisen und Artikeln darüber beschrieben. Aber wo in ihren Trainingsdaten würden sie sechs ineinander greifende Ringe finden. Oder sieben? Wenn ihre Reaktionen ein Hinweis sind: Nirgendwo! Sie haben keine Ahnung, was sie „sehen“, und kein tatsächliches visuelles Verständnis davon, was Ringe, Überlappungen oder irgendwelche dieser Konzepte sind.
Er spekulierte, dass die Modelle nicht genau blind seien, sondern dass die visuellen Informationen, die sie aus einem Bild extrahieren, näherungsweise und abstrakt seien, etwa wie „es gibt einen Kreis auf der linken Seite“. Aber die Modelle haben keine Möglichkeit, visuelle Urteile zu fällen, was ihre Antworten wie die von jemandem macht, der über ein Bild informiert ist, es aber tatsächlich nicht sehen kann.
Bedeutet das alles, dass diese „visuellen“ KI-Modelle nutzlos sind? Ganz im Gegenteil. Nicht in der Lage zu sein, elementare Schlussfolgerungen über bestimmte Bilder zu ziehen, spricht für ihre grundlegenden Fähigkeiten, aber nicht für ihre spezifischen Fähigkeiten. Jedes dieser Modelle wird höchstwahrscheinlich bei Dingen wie menschlichen Handlungen und Ausdrücken, Fotos von alltäglichen Objekten und Situationen und dergleichen sehr genau sein. Und genau das ist es, was sie interpretieren sollen.
Wenn wir uns allein auf das Marketing der KI-Unternehmen stützen, um uns zu sagen, was diese Modelle alles können, würden wir denken, dass sie ein 20/20-Sehvermögen hätten. Forschung wie diese ist notwendig, um zu zeigen, dass die Modelle, egal wie genau sie sein mögen, ob eine Person sitzt oder geht oder rennt, dies ohne „Sehen“ im Sinne (wenn man so will) tun, wie wir es tendenziell verstehen.