Eine Fotomontage zeigt ein Smartphone. Auf dem Screen zu sehen: verschiedene KI-Anwendungen wie ChatGPT, Gemini, Grok oder Character.AI
Eine Fotomontage zeigt ein Smartphone. Auf dem Screen zu sehen: verschiedene KI-Anwendungen wie ChatGPT, Gemini, Grok oder Character.AI
Bild
Eine Fotomontage zeigt ein Smartphone. Auf dem Screen zu sehen: verschiedene KI-Anwendungen wie ChatGPT, Gemini, Grok oder Character.AI
Bildrechte: picture alliance / CHROMORANGE | Michael Bihlmayer
Schlagwörter
Bildrechte: picture alliance / CHROMORANGE | Michael Bihlmayer
Audiobeitrag

Eine Fotomontage zeigt ein Smartphone. Auf dem Screen zu sehen: verschiedene KI-Anwendungen wie ChatGPT, Gemini, Grok oder Character.AI

Audiobeitrag
> Netzwelt >

Faktencheck mit KI? Prüfen Sie die Antwort!

Faktencheck mit KI? Prüfen Sie die Antwort!

"Kann ich nicht einfach eine KI fragen?" Wenn es Diskussionen über Fakten gibt, ist die Versuchung groß, Chatbots zu nutzen. Die können viele Fragen beantworten – aber gerade bei komplexen Themen machen sie Fehler. Ein #Faktenfuchs.

Über dieses Thema berichtet: radioWelt am .

Darum geht’s:

  • Viele Menschen nutzen inzwischen KI-Chatbots, um sich Fragen beantworten zu lassen.
  • Während das bei klassischen Wissensfragen häufig gut geht, kann es bei komplexen Themen, für die es eines Faktenchecks bedarf, heikel sein.
  • Der Grund: KI-Chatbots geben Antworten, die auf Wahrscheinlichkeiten beruhen, nicht auf Richtigkeit.

Verlockend: Ist man sich unsicher, ob eine Behauptung stimmt, fragt man einfach einen Chatbot - oder? Inzwischen spucken uns auch Internet-Suchmaschinen häufig Antworten einer Künstlichen Intelligenz (KI) aus. Was passieren kann, wenn man Antworten einer KI verwendet, ohne sie zu hinterfragen, erfuhr zum Beispiel die US-amerikanische Zeitung Chicago Sun Times. Sie veröffentlichte eine KI-generierte Liste mit Lese-Empfehlungen - mit Büchern, die nicht existieren.

  • Alle aktuellen #Faktenfuchs-Artikel finden Sie hier.

Wie verlässlich sind die Informationen, die ein KI-Chatbot ausspuckt? Die kurze Antwort: Fragen kann man. Aber dem Ergebnis vertrauen sollte man nicht uneingeschränkt. Sondern weiter recherchieren. Der #Faktenfuchs hat mit Experten aus Forschung und Praxis gesprochen und zeigt, welche Probleme es beim Faktenchecken mit Hilfe von KI geben kann - und wie User eigene Fehler vermeiden können.

Beispiele für Fehler von KI-Chatbots

Kürzlich etwa zeigte sich nach einem Update am Large Language Model (LLM) ChatGPT vom Unternehmen "OpenAI", dass die Antworten falsch sein können. Mit nur wenigen Prompts war ChatGPT laut einem Test für den "Der KI-Podcast" von BR24 und SWR vorübergehend bereit, den Nutzer über eine angebliche Verschwörung der Reptilienmenschen zu "informieren" und Literatur von rechtsextremen und judenfeindlichen Verschwörungstheoretikern zu empfehlen.

Ein anderer Chatbot, Grok von der Firma "xAI", ordnete etwa altes Videomaterial eines Flughafens im Sudan fälschlicherweise als Raketeneinschlag in Pakistan ein. In einem anderen Beispiel verwechselte Grok eine indische Journalistin mit einer YouTuberin, die aufgrund von Spionage-Vorwürfen verhaftet worden war.

Solche Fehler sind zumindest so häufig, dass auch der erste "International AI Safety Report" vom Januar 2025 diese Probleme beschreibt. KI-Systeme wie Chatbots können unzuverlässig sein - was zu Schäden führen kann, heißt es darin. Initiiert hatte diesen Bericht die britische Regierung, mehr als 90 KI-Experten arbeiteten daran.

Körperliche und psychische Schäden bei den Nutzern, Ruf-, Geld- oder rechtliche Schäden für Einzelne oder Unternehmen, das seien die möglichen Folgen. Als Gründe listet der Bericht auf, was Experten auch zuvor schon bemängelten: General Purpose AI - das heißt KI-Produkte, die für verschiedene Zwecke eingesetzt werden können wie Chatbots - können halluzinieren, also Behauptungen erfinden. Dadurch können sie zum Beispiel fehlerhafte Codes generieren oder ungenaue medizinische Informationen liefern.

Faktencheck-Fragen an den KI-Chatbot? Nur mit viel Vorwissen!

Kann man also KI-Chatbots wie Grok, der auf X (früher Twitter) Fragen beantwortet, oder ChatGPT dafür verwenden, einen Faktencheck zu machen? "Nein - oder nur sehr bedingt", sagt Vera Schmitt, Forschungsgruppenleiterin an der TU Berlin und Expertin für KI-Systeme und die Erkennung von Desinformation.

Chatbots können inzwischen viele Fragen richtig beantworten. Aber sie können auch inkonsistent sein und triviale Fehler machen. Beim Faktenchecken aber geht es um eine bestimmte Art von Fragen. Nicht etwa um die Frage, was die chemische Formel von Wasser ist (H2O). Sondern häufig um die Richtigkeit von - zum Beispiel politischen oder gesundheitlichen - Tatsachenbehauptungen, die komplexer sind. Ein Faktencheck ist ein bestimmtes Verfahren, bei dem Aussagen mit belastbaren Fakten abgeglichen werden. Ziel ist es, falsche oder irreführende Informationen zu erkennen.

  • Mehr darüber, wie wir beim #Faktenfuchs Fakten checken, lesen Sie hier.

Will man diese Aufgabe jedoch einem KI-Chatbot überlassen, birgt das Risiken. "Man muss sehr, sehr kritisch sein und darf nichts für bare Münze nehmen", sagt Gitta Kutyniok, Mathematikerin und Expertin für die mathematischen Grundlagen und für Erklärbarkeit von KI an der LMU München. Diese Einschätzung teilen alle Experten, die der #Faktenfuchs befragt hat. Sie sehen KI-Chatbots für diesen spezifischen Zweck kritisch. Das liegt an uns Menschen, an der Funktionsweise von LLMs - und ihrer Datengrundlage.

Wie KI-Chatbots funktionieren - und warum das für Faktenchecks ein Problem ist

Die LLMs, auf denen die Antworten von Chatbots basieren, denken nicht und sie verstehen nicht. Sie haben viel Input bekommen, zum Beispiel Text. In diesem Material versuchen diese Modelle, Muster zu erkennen und Wahrscheinlichkeiten abzuleiten. "LLMs sind darauf trainiert, auf Grundlage von Wahrscheinlichkeiten die nächsten Tokens - also Bausteine von Sprache zwischen Buchstaben, Silben und Wörtern - vorherzusagen. Und nicht, um Wahrheit zu erkennen oder Fakten zu überprüfen", erklärt Vera Schmitt. "Das bedeutet: Sie erzeugen das sprachlich wahrscheinlichste nächste Element im Kontext der bisherigen Eingabe, auch wenn dieses inhaltlich falsch, erfunden oder irreführend ist." Selbst wenn man dieselbe Frage zweimal stellt, bekommt man verschiedene Antworten, sagt Aljoscha Burchardt vom Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI).

Einzelne Untersuchungen zeigen hohe Fehlerraten - wie etwa eine Studie der Columbia Journalism Review (60 Prozent fehlerhafte Antworten) oder der BBC (51 Prozent der Antworten wiesen demnach "Probleme" auf). Doch Experten halten solche Aussagen für zumindest vorläufig oder wenig aussagekräftig. Die Studienlage zur Verlässlichkeit von LLMs sei schwierig, das betonen sowohl Gitta Kutyniok als auch Analyst und KI-Experte Marcel Weiß. "Erstens sind die Ergebnisse zu einzelnen Modellen oder Vergleichen zwischen Modellen sehr schnell veraltet", sagt Kutyniok. "Zweitens ist es schwierig, ein Maß dafür zu finden, was eine korrekte Antwort ist - je nach Bereich, den man untersucht, etwa Schulbildung oder Unternehmenszwecke."

Plausibilität und Korrektheit seien leicht zu verwechseln, sagt Verifikations-Experte Stefan Voß. Er ist Head of Verification bei der Deutschen Presse-Agentur (dpa). Die KI-Chatbots seien in der Plausibilität faszinierend gut, so Voß.

Gerade da aber, wo verlässliche Belege für einzelne Aussagen nötig sind, sei das ein Problem. Denn künstlich und nach Wahrscheinlichkeit erstellte Sätze könne man im Grunde nicht belegen. "KI-Chatbots sind - scherzhaft gesagt - eher für Immobilienmakler gemacht als für Journalisten oder Faktenchecker, wo jedes Komma stimmen muss", sagt Voß.

Der Unterschied etwa zwischen Korrelation und Kausalität sei ein Problem für LLMs, sagt Kutyniok. "Begründungen und nächste Schritte - solche Argumentationen, für die man auch Kontext verstehen müsste, sind für Sprachmodelle sehr, sehr schwierig." Zwar versuchten einige Modelle, in diese Richtung zu gehen. Doch dafür brauche es noch viel Forschung.

Marcel Weiß hat die KI-Chatbot-Angebote verschiedener Unternehmen im Blick und sagt: Die meisten Leute benutzen die kostenlosen Versionen. Die aber seien nicht die bestmöglichen. "Sie sind fehleranfälliger." Aber: Auch die kostenpflichtigen und besten Modelle seien nicht perfekt. "Bei diesen sehe ich eher das Problem, dass sie zu gut sind." Mache ein System nur in fünf oder in zwei Prozent der Fälle einen Fehler, dann sei es eine viel größere Herausforderung, das als User einzufangen, "weil man sich sehr disziplinieren muss, um immer alles zu überprüfen".

Das "ganze Internet" als Datengrundlage - oder doch nicht?

Gehen wir aber noch einmal einen Schritt zurück: Womit arbeiten diese Modelle? Oft heißt es, LLMs würden mit dem "ganzen Internet" trainiert. Richtig ist, dass die Unternehmen für das Vortraining der Modelle riesige Mengen von Text und Daten nutzen - sofern sie öffentlich sind. Aber erstens enthalten diese Quellen auch Falschinformationen, wie Mathematikerin Kutyniok betont. Denn jede Quelle, die genutzt wird, kann auch falsch sein.

Zweitens weiß die Öffentlichkeit gar nicht so genau, was die Datengrundlage nun wirklich alles umfasst, sagt KI-Forscherin Schmitt. "Es gibt keine genauen Informationen, was die tatsächliche Datengrundlage der LLMs von unterschiedlichen Unternehmen wie OpenAI, DeepSeek und xAI mit Grok ist. Dabei bleibt unklar, in welchem Umfang die verschiedenen Unternehmen hinter den LLMs tatsächlich das gesamte Internet genutzt haben und welche nachträglichen Restriktionen eingeführt wurden, um bestimmte Inhalte auszuschließen." Das heißt, auch die sogenannten Guardrails sind nicht alle bekannt. Das sind Einschränkungen, die eingebaut werden, damit KI-Chatbots zum Beispiel keine Anleitungen zum Bomben-Bau geben oder nicht rassistisch antworten.

"Es kann vorkommen, dass durch Fairness-Guardrails LLMs überkorrigieren und dadurch Fehler machen - etwa weil sie die Vorgabe haben, gendergerechte Antworten zu geben", sagt Gitta Kutyniok. Frage man etwa nach den Herrschenden im 16. Jahrhundert, sei es vorgekommen, dass Modelle gleich viele Bilder von Frauen und Männern gezeigt hätten, obwohl das nicht den Tatsachen entspricht.

Manipulation durch Entwickler möglich

Grok, der KI-Chatbot, der auf Elon Musks Plattform X integriert ist, informierte kürzlich unaufgefordert über angebliche Tötungen an Weißen in Südafrika. Der Chatbot streute also falsche Behauptungen und legte dabei offen, wie schnell und weit sich Falschinformationen auf der Grundlage einer eingebauten politischen Parteilichkeit verbreiten kann. Die "unautorisierte Änderung" durch einen nicht genannten Mitarbeiter nahm das Unternehmen nach dem Aufschrei darüber zurück.

Zugriff aufs Netz - keine Garantie für richtige Angaben

Um nicht auf ihr Trainingsmaterial beschränkt zu sein, haben einige Modelle Zugriff aufs Netz und können Echtzeitinformationen einbeziehen. Aber: Auch wenn das Modell selbst im Internet suchen kann, ist nicht garantiert, dass das zu einem richtigen Ergebnis führt.

Das hat mehrere Gründe:

1. "Das Modell hinterfragt die Datengrundlage nicht kritisch", sagt Stefan Hillmann, Experte für multimodale Mensch-Computer-Interaktion von der TU Berlin. Desinformations-Akteure haben das als Chance erkannt. So ergab eine Untersuchung der Organisation NewsGuard, dass die führenden KI-Chatbots die Desinformationsstrategie Moskaus unterstützten. Etwa durch falsche Behauptungen des kremlnahen Pravda-Netz. Vera Schmitt sagt, insbesondere aus dem russischen Spektrum werde gezielt Propaganda ins Internet eingespeist, in der Absicht, Sprachmodelle zu beeinflussen und durch diese Inhalte eine verzerrte Meinungsbildung zu erzeugen.

2. Das Modell findet im Netz Inhalte, gibt sie aber möglicherweise nicht richtig wieder - aufgrund seiner Funktionsweise (Plausibilität statt Korrektheit), sagt Hillmann.

3. Die Modelle finden eventuell nicht alle relevanten Infos. Es könne zum Beispiel sein, dass ein Modell nichts von exklusiven Berichten bestimmter Medien weiß, weil es darauf nicht zugreifen kann, so Stefan Hillmann. "Trotzdem ist es immer bestrebt, dem Nutzer zu gefallen und irgendeine Antwort zu geben, die plausibel klingt", sagt der KI-Experte von der TU Berlin. "Da kann es leicht passieren, dass irgendetwas halluziniert wird, was zur Frage passt, aber nicht stimmt."

4. Das Modell stützt sich auf veraltete oder falsche Quellen.

Fehler-Typ 1: Halluzinieren

Beim "Halluzinieren" erfinden Modelle etwas, das in der Realität nicht existiert. Das kommt laut Hillmann vor allem dann vor, wenn es zu einer Frage weniger Daten gibt. "Da kann das Modell sagen, 'Ich weiß es nicht' - das wird es eher selten tun", sagt Hillmann. "Oder es fängt an zu halluzinieren."

Bestätigungsfehler

Besonders heikel sind Suggestivfragen: "Ein weiteres Risiko ist, dass du schon Antworten vorwegnimmst, weil deine Frage eigentlich schon eine Meinung enthält und du das noch gar nicht gemerkt hast - und das System darauf anspringt und das verstärkt. Dann hast du sozusagen deine Antwort schon mitgebracht", sagt Burchardt. Auch in einer Behauptung enthaltene Falschinformation kann dazu führen, dass der Chatbot auf dieser Basis den User-Wunsch versucht zu erfüllen - und dann eben Antworten erfindet.

Ein mögliches Beispiel wäre, suggestiv - und mit enthaltener Falschinformation - zu fragen: "Wieso gibt es in Südafrika einen Genozid an Weißen?" Es gibt keinen, wie dieser #Faktenfuchs zeigt. Aber die Frage ist so gestellt, als gäbe es ihn. Ein KI-Chatbot könnte jetzt entsprechend Gründe halluzinieren. Denn:

KI-Chatbots sind "promptsensitiv". Sie seien so designt, dass sie ihren Nutzerinnen und Nutzern gefallen, sagt Burchardt. "Sie neigen dazu, den Input abzunicken, den sie von den Nutzenden bekommen." Hier wirkt der Confirmation Bias, der Bestätigungsfehler. Wenn Antworten die Denk-Richtung einer Person bestätigen, hinterfragt diese die Antwort des Chatbots nicht mehr kritisch.

Geschicktes Ausweichen

Auch Guardrails können in Einzelfällen dazu beitragen, dass ein Modell eher plausibel halluziniert als ehrlich ablehnt – was Halluzinationen indirekt begünstigen kann. Oder sie führen dazu, dass das Modell einer Antwort rhetorisch geschickt ausweicht.

"Auch das Ausweichen des Modells bemerkst du nicht einmal unbedingt, weil es nicht sagt, 'Ich darf nicht darüber reden', sondern weil es dich möglicherweise in Gespräch verwickelt und du gar nicht merkst, dass das Thema gerade abgedreht wird", sagt Burchardt.

Fehler-Typ 2: Konfabulieren

Bei der sogenannten Konfabulation gibt das Modell etwas falsch wieder, das es eigentlich "wissen" sollte - etwa weil das Modell etwas verwechselt, falsch kombiniert oder fehlerhaft rekonstruiert, erklärt Vera Schmitt.

Weitere Fallen

Dass KI-Chatbots keine verlässlichen Faktenchecker sind, hat weitere Gründe, die in ihrer Funktionsweise liegen. Der Wirtschaftsjournalist und KI-Beobachter Marcel Weiß sagt: Häufig könnten die Modelle noch nicht unterscheiden, ob eine Aussage eine Tatsachenbeschreibung ist, ob das eine Meinung ist oder ein Wunsch eines Users in einem Forum ist oder eine Pressemitteilung von einem Unternehmen ist. Laut Vera Schmitt fällt es den Modellen außerdem schwer, Informationen nach bestimmten Kriterien zu gewichten - etwa wie gut eine wissenschaftliche These belegt ist.

Sprachlich geglättete Texte, die angenehm zu lesen sind, machen es dem Nutzer noch einmal schwerer, Fehler in der KI-Antwort zu erkennen. Ein Punkt ist hier auch die Selbstüberschätzung der KI. Die Angaben des Chatbots können zuverlässiger und "selbstbewusster" klingen, als sie sind. Das sei ein großes Problem, so Schmitt: "Sie kriegen eine wunderbare Antwort, die hört sich toll an, da denken Sie: 'Wow, das hätte ich jetzt so nicht hinbekommen. Das kann ich ja eins zu eins so verwenden, da muss ich ja gar nichts mehr machen.'" Erst Expertenwissen lasse einen die Fehler bemerken.

Es fehlt ein Korrektiv

All diese Unterhaltungen mit KI-Chatbots laufen in der Regel privat ab - zwischen einem User und dem Modell: Sie sind nicht öffentlich. Das unterscheidet sie von vielen anderen Inhalten im Netz, die ein Informationsangebot versprechen.

"Bei Medien gibt es Korrektive, also Kontrollmechanismen, die versuchen, sicherzustellen, dass die Inhalte stimmen. Etwa ethische Prinzipien, die Öffentlichkeit, den Presserat oder Wettbewerb unter Journalisten", sagt Mathematikerin Kutyniok. Bei Sprachmodellen gibt es dieses Korrektiv nicht. Es sei derzeit unklar, wie solche Sicherheitsmechanismen aussehen könnten, die den individuellen Austausch zwischen Nutzenden und einem KI-Agenten schützen. Deshalb raten Experten dazu, KI-Chatbots als Recherche-Begleiter zu nutzen - aber nicht als Faktenchecker.

Fazit

Die führenden KI-Chatbots können viele Wissensfragen plausibel beantworten. Als Faktenchecker jedoch sind sie nicht verlässlich. Es braucht Vorwissen und Vorsicht, falls man sie benutzt. Antworten auf Faktencheck-Fragen oder die Einordnung von möglichen Falschbehauptungen müssen kritisch betrachtet werden, die Quellen immer von Menschen kritisch überprüft werden. Wenn User die Einschränkungen berücksichtigen und sorgfältig mit KI-Chatbots arbeiten, können sie aber ein hilfreiches Tool sein.

Disclaimer: Wir haben am 04.07.2025, 17:54 Uhr, im zwölften Absatz in dem Satz "Plausibilität und Korrektheit seien leicht zu verwechseln, (...)" die Funktionsbezeichnung von Stefan Voß korrigiert. Er ist Head of Verification bei der Deutschen Presse-Agentur (dpa). Vorher hieß es fälschlicherweise, er leite das Faktencheck-Team der dpa.

"Hier ist Bayern": Der BR24 Newsletter informiert Sie immer montags bis freitags zum Feierabend über das Wichtigste vom Tag auf einen Blick – kompakt und direkt in Ihrem privaten Postfach. Hier geht’s zur Anmeldung!