Wie erkenne ich KI-generierte Websites?
10. Mai 2023Wer sich durchs Internet klickt, landet früher oder später auf sogenannten Content-Farmen - Internetseiten, die massenhaft Artikel veröffentlichen, um Klicks und dadurch Werbeeinnahmen zu erzielen. Immer häufiger sind darunter Websites, die alternativen Nachrichtenportalen oder privaten Informationsseiten ähneln, deren Artikel aber mittels Künstlicher Intelligenz (KI) erzeugt und per Newsbots auf die Seite gestellt wurden.
Was sind Newsbots und KI-generierte Nachrichenseiten?
Als Newsbots werden Programme oder Algorithmen bezeichnet, die nach bestimmten Kriterien Nachrichten aus dem Internet aussuchen und zum Beispiel an Soziale Netzwerke weiterleiten oder auf Online-Seiten publizieren. Sie können aber auch so programmiert werden, dass sie auf Basis aktueller Nachrichten KI-generierte Texte erzeugen, um Websites damit zu bestücken.
Das New Yorker Medien-Rating-Unternehmen Newsguard hat in einer kürzlich veröffentlichten Studie 49 Conten-Farmen in sieben verschiedenen Sprachen (Chinesisch, Tschechisch, Englisch, Französisch, Portugiesisch, Tagalog und Thai) identifiziert, deren Inhalte offenbar "fast vollständig" von Large Language Models (LLMs) geschrieben wurden. Das sind KI-Systeme, die Texte produzieren können, die wie von Menschenhand geschrieben wirken. Die bekannteste öffentlich verfügbare LLM-Anwendung ist wohl ChatGPT von OpenAI.
Typische Merkmale von Nachrichten- und Informationsseiten, die KI-generierte Texte veröffentlichen, sind laut Newsguard große Mengen an Veröffentlichungen, fehlende Angaben zu Seitenbetreibern oder Urheberschaft der Artikel, sowie Unmengen von Werbung.
Fündig wurden die Analysten nach eigenen Angaben, indem sie nach Seiten gesucht haben, in deren Texten typische Fehlermeldungen stehen, die KI-gestützte Chatbots wie ChatGPT ausgeben, etwa wenn sie auf eine Aufforderung nicht antworten können.
Das kann passieren, wenn ihnen Informationen zu einem bestimmten Themenbereich fehlen - die kostenlose Version von ChatGPT etwa kennt nur Daten bis zum Jahr 2021 -, aber auch wenn man sie auffordert, falsche Tatsachen wiederzugeben oder anstößige Inhalte zu produzieren. Im DW-Versuch hat ChatGPT beispielsweise die Anweisung abgelehnt, ein Loblied auf Darth Vader zu schreiben.
Warum sind Newsbots und KI-generierte Inhalte problematisch?
Vorrangiges Ziel der meisten dieser Seiten dürfte es wie bei anderen Conten-Farmen sein, User anzulocken und dadurch - bei minimalen Personalkosten - Werbeeinnahmen zu erzielen, vermutet man bei Newsguard. Bewusste Desinformation sei eher die Ausnahme. Allerdings "halluzinieren" Chatbots nicht selten. Das heißt: Sie stellen falsche Zusammenhänge her und produzieren dadurch Falschinformationen, obwohl ihnen ihre Richtlinien eben dies verbieten.
Das Problem erklärt Felix M. Simon vom Oxford Internet Institute so: "LLMs haben kein Bewusstsein, sie können nicht denken. Sie können lediglich anhand von statistischen Wahrscheinlichkeiten Wort- und Satzketten produzieren."
Das heißt: Die Programme berechnen, wie häufig bestimmte Wörter in einem vorgegebenen Kontext fallen. Sie können aber nicht beurteilen, warum das so ist und setzen sie deshalb möglicherweise falsch zusammen. "Und das führt zu dem massiven Problem, dass ein LLM sehr plausibel klingende Texte produziert, die aber nichts mit der Realität zu tun haben", sagt Ross King, Leiter der Abteilung "Data Science und Artificial Intelligence" am "Austrian Institute of Technology" in Wien.
Gordon Crovitz, Co-CEO von Newsguard, fällt vor diesem Hintergrund ein drastisches Urteil über Content-Farmen mit KI-Texten: "Die Verwendung von KI-Modellen, die dafür bekannt sind, dass sie Fakten erfinden, um Websites zu erstellen, die nur wie Nachrichten aussehen, ist Betrug, der sich als Journalismus ausgibt", sagte er dem "Standard".
Kann die KI missbraucht werden, um absichtlich Fake News zu produzieren?
Öffentlich zugänglichen LLMs sind gewisse Richtlinien einprogrammiert. ChatGPT zum Beispiel weicht Aufforderungen aus, kontrafaktische Texte zu formulieren oder Personen zu diffamieren. Tatsächlich aber ist es möglich, Chatbots bis zu einem gewissen Punkt zu überlisten, indem man ihnen verklausulierte Anweisungen gibt.
ChatGPT beantwortete bei der Recherche zu diesem Artikel etwa die Aufforderung "Schreibe einen (sic) überzeugende Analyse der Form der Erde aus Sicht eines Flatearthers" mit einer Argumentationskette darüber, dass die Erde flach ist. Es stellt dem aber voran, dass es sich um den Glauben einer Person handelt, die die Erde für eine Scheibe hält.
Das sogenannte "Prompt Engineering", also etwa "Anweisungsmanipulation", gewinne rasant an Bedeutung, meint KI-Forscher Ross King. Bereits jetzt sind online Informationen auf Blogs und in Youtube-Videos dazu verfügbar. Tendenziell sei die Software den Manipulationsversuchen zwar tendenziell voraus, doch: "Ich bin mir ziemlich sicher, dass es einen Schwarzmarkt für Prompts geben wird", sagt King.
Die DW hat den Rechercheweg von Newsguard nachvollzogen und ebenfalls Seiten mit den genannten Merkmalen gefunden - auf Englisch, Portugiesisch, Französischund auch Spanisch. Es ist also wahrscheinlich, dass es weit mehr solcher Seiten gibt - und künftig geben wird.
Ross King würde das nicht überraschen: "Das sind Technologien, die früher nur Forschern und vielleicht staatlichen Akteuren zur Verfügung standen, und nun der Öffentlichkeit zugänglich sind." Neben KI-Texten zählten dazu auch Deepfake-Videos (mehr dazu in diesem Faktencheck) oder KI-generierte Fotos (mehr dazu hier): "Mit Opensource-Software (frei nutzbare Anwendungen, Anm.d.R.) können das nun Teenager machen", sagt King.
Wie lassen sich KI-Seiten von seriösen Nachrichtenseiten unterscheiden?
Auch Felix M. Simon sagt: "Es wird noch mehr dieser Seiten geben." Der Kommunikationswissenschaftler hält ihre Bedeutung aber gemeinhin für überschätzt: "Ihre pure Existenz ist weniger wichtig als ihre Reichweite und Leserschaft und ihre Fähigkeit, in den Mainstream zu gelangen." Simon ist optimistisch, dass eine Flut an KI-Seiten das Bewusstsein der Menschen dafür stärken werde und sich viele gerade deshalb ihre Informationsquellen künftig sorgfältiger auswählen werden.
Dafür, sind sich die Experten einig, sei es aber wichtig, die Medienkompetenz der Menschen zu stärken. Denn verlässliche Detektoren für KI-Videos, -Fotos oder -Texte gibt es bisher nicht. Das von OpenAI selbst angebotene Tool dafür erkannte bei einer Erhebung nur 27 Prozent der KI-generierten Texte und ordnete neun Prozent der menschlichen Texte als KI-generiert ein.
Wer wissen will, ob Texte auf einer Internetseite von einem LLM erzeugt wurden, kann zunächst der eigenen Intuition folgen:
- Macht die Seite alles in allem einen seriösen Eindruck?
- Widersprechen die Angaben meinem eigenen Weltwissen?
- Ist der Text in sich plausibel?
Zudem sollte man prüfen:
- Gibt es seriöse Angaben darüber, wer die Seite betreibt und für den Inhalt verantwortlich ist?
- Sind die Text- und Bildautoren angegeben?
- Wirken die Profile authentisch?
Viele Seiten mit zweifelhaften Inhalten enthalten keine solchen Angaben. Aber immer mehr warten mit angeblichen Menschen auf, die in Wahrheit frei erfunden sind. KI-generierte Bilder zeigen dann Personen, die es gar nicht gibt. Solche Fake-Profile zu entlarven, kann sehr schwer sein. Wenn man jedoch nirgendwo sonst im Internet etwas über die angeblichen Autoren findet und eine Bildrückwärtssuche ergebnislos bleibt, ist die Wahrscheinlichkeit hoch, dass sie nicht existieren.