Können Künstliche Intelligenzen Hass erkennen?
Ein Bild, ein humorvoller oder sarkastischer Text dazu – fertig ist das Meme. Viele Memes lösen Lacher aus bei den Betrachter:innen. Doch im Internet kursieren auch Memes, die Hetze verbreiten. KI-Modelle können dabei helfen, diese Memes zu entdecken. Aber wie geht das, wenn sich der Hass zwischen Text und Bild versteckt?
Ein Meme ist wie ein kleines Rätsel. Ein Bild, ein Text, irgendwo dazwischen eine Pointe, die entschlüsselt werden muss. Manchmal ist das ganz leicht: ein schlechter Witz, der einem ins Auge springt, eine eindeutige Anspielung auf einen Alltagsmoment, den jeder und jede schonmal erlebt hat. Aber manchmal ist das Rätsel schwerer zu knacken, weil die Pointe um die Ecke sitzt und man Insiderwissen braucht, um sie zu verstehen.
Das ist das Besondere an Memes: Ihre Botschaft ergibt sich oft erst, wenn man Text und Bild zusammendenkt. Genau das macht sie zu einem beliebten Stilmittel, um Hass im Netz zu verbreiten. Und genau das macht es auch für die Künstliche Intelligenz so schwierig, sie richtig zu lesen.
Aber der Reihe nach.
Stellen wir uns vor, eine KI trifft auf ein Meme. Wir wollen, dass uns diese KI eine ganz einfache Frage beantwortet: Ist das Hass? Ja oder nein, Alarm oder Entwarnung. Damit das Modell diese Frage richtig beantwortet, muss es allerdings wissen, was das ist: Hass.
Und da gibt es das erste Problem.
Problem 1: Hass ist subjektiv
Es gibt dieses Meme, da sitzt ein Mann neben einer Frau im Auto. »The way every man feels when a woman is driving«, steht darüber. Die Grimasse des Mannes und seine Umklammerung des Haltegriffs verraten: Der Mann ist angespannt. So wie jeder Mann, wenn eine Frau Auto fährt, ist die Botschaft.
Ist das Hass?
Dann gibt es noch dieses Meme: Auf dem Bild sieht man Cinderella aus dem Zeichentrickfilm, wie sie den Boden putzt. Darüber steht: »If you watch Cinderella backwards – it’s about a woman who learns her place.«
Ist das Hass?
Nächstes Meme: Eine Frau sitzt zusammengekauert in einer Ecke, vor ihr steht ein Mann, man sieht seine geballte Faust. Dazu der Text: »Women deserve equal rights – and lefts.«
Ist das Hass?
Hass hat unterschiedliche Ausprägungen. Er kann eindeutig und strafbar sein, so wie im letzten Meme. Oder er kann sich in Klischees und Stereotypen verstecken, so wie in den ersten beiden Memes. Je subtiler, desto schwerer zu beantworten und desto abhängiger davon, wer betrachtet. Die Frage, wann ein Meme hasserfüllt ist, ist eine subjektive Entscheidung.
Das ist ein Problem für die automatisierte Erkennung. Denn das KI-Modell weiß erst einmal nicht, was Hass ist. Ein Schimpfwort, eine Beleidigung, ein rassistisches Symbol haben für das Modell keine Bedeutung. Es muss Hass beigebracht bekommen und dafür braucht es Datensätze zum Üben. Und diese Datensätze annotieren Menschen, das heißt, sie nehmen jedes einzelne Übungs-Meme und kleben ein Etikett drauf: Das ist Hass, das ist kein Hass. Graustufen gibt es nicht – denn jede Graustufe würde die Annotation aufwendiger und teurer machen.
Und so haben alle Datensätze, mit denen das KI-Modell trainiert wird, menschlich bedingte Schwachstellen: Bilder und Posts, die es nicht als Hass erkennt. Begriffe, die nicht als Hinweise auf Hass verschlagwortet wurden. Symbole oder Codes für Hass, die schon der Mensch nicht als solche erkannt hat.
Problem 2: Hass ist selten
Hass produziert Schlagzeilen, Hass dominiert eine Debatte, aber Hass ist eigentlich nicht besonders häufig: Würde man einen Datensatz erstellen, indem man zufällig Inhalte aus dem Netz zieht, hätte Hate Speech darin einen Anteil von etwa einem Prozent. Das heißt: Würde das Modell mit dieser zufälligen Datenauswahl trainiert, hätte es nicht genug Hate Speech kennengelernt, um sie später verlässlich klassifizieren zu können. Um gute Entscheidungen zu treffen, muss es gute Beispiele gezeigt bekommen.
Deswegen arbeiten Annotator:innen mit verdichteten Datensätzen, die zu 20 bis 30 Prozent aus Hate Speech bestehen. So werden die Trainingsdaten aber gleichzeitig verzerrt: Denn bei der Zusammenstellung entstehen wiederum Lücken. Es kann zum Beispiel passieren, dass die Menschen ganze Themenbereiche bei der Auswahl vergessen – oder neue Themen und Trends nicht berücksichtigen. Dann findet das Modell vielleicht mühelos frauenfeindliche Inhalte, weil es dafür gute Beispiele gezeigt bekommen hat, tut sich aber schwer mit antimuslimischem Rassismus, weil dieser schon im Datensatz vergessen wurde. Oder es findet frauenfeindliche Posts über Angela Merkel, aber nicht über Annalena Baerbock, weil es mit veralteten Schlagworten trainiert wurde.
Mit diesen Problemen sind KI-Modelle immer konfrontiert, wenn sie Hass im Netz erkennen sollen – egal, ob Tweet oder Telegram-Chat. Mit Memes aber kommt jetzt ein drittes Problem dazu, das die Forschung vor die bislang größte Herausforderung stellt:
Problem 3: Hass steht zwischen den Zeilen
Bei jedem Meme muss es Klick machen, auch im menschlichen Gehirn: Aha, der Mann zieht eine Grimasse, also fürchten sich Männer, wenn sie Frauen das Steuer überlassen. Wie war das nochmal bei Cinderella – ist sie nicht am Anfang zum Putzen und Kochen verdammt? Wenn man den Film also rückwärts anschaut, gehört eine Frau in die Küche und an den Wischmopp. Und mit »equal rights and lefts« sind anscheinend die Fäuste des Mannes gemeint, und nicht gleiche Rechte für alle.
Wir brauchen Vorwissen, um die Aussage dieser Memes zu verstehen. Wir müssen die Klischees kennen und die Filme gesehen haben. Wir müssen Ironie und Zynismus herauslesen. Um dann den Zusammenhang zwischen Text und Bild herstellen zu können.
Damit unser KI-Modell das hinkriegt, braucht es Kontext. Statt nach einzelnen Schlagworten oder Emojis zu suchen, muss es das Umfeld jedes Wortes betrachten und den Zusammenhang verstehen. Erst dann ist es in der Lage, Muster erkennen zu können, nach denen Hassbotschaften verfasst sind. Ein gutes – wenn auch harmloses – Beispiel ist das englische Wort »apple«: Das Modell muss den Begriff in seinem Kontext betrachten, um zu verstehen, ob die Frucht oder das Unternehmen gemeint ist.
Gleichzeitig ertastet es Stück für Stück das Bild des Memes und trifft eine Aussage darüber, was zu sehen ist. Einen Elefanten würde die KI nicht über seine Form erkennen, sondern über seine Textur und die Farbe seiner Haut. Und die Erkenntnisse, die es währenddessen sammelt, muss es in Bezug setzen zu dem Text, den es erfasst: Welches Wort könnte mit welchem Bildausschnitt zusammenhängen?
Bei dem Meme mit dem Auto könnte das Modell also zum Beispiel erkennen, dass »Frau« und »Mann« nah beieinander stehen, es versteht vielleicht auch, dass das Wort »driving« eine Rolle spielt und es identifiziert zusätzlich das Auto sowie die Gesichter des Mannes und der Frau. Im Idealfall erkennt es auch, dass der Mann angespannt ist – das wäre in diesem Fall ein Schlüsselfaktor, um die harmlose Aussage einordnen zu können.
Das gleiche geschieht bei dem Meme, in dem Gewalt droht: Hier erkennt das Modell das Wort »women« und die Faust des Mannes. Macht es zusätzlich eine Stimmungsabfrage, registriert es vielleicht die düstere Beleuchtung und die Haltung der Frau, die sich in die Ecke kauert.
Problem 4: Effizienz vs. Erklärbarkeit
Seit Kurzem gibt es einen neuen Trend: ein Verfahren, das »Zero Shot Learning« oder »Few Shot Learning« genannt wird. Es könnte die automatisierte Erkennung von Hass-Memes nicht nur um ein Vielfaches beschleunigen, sondern auch seine Trefferquote deutlich verbessern. Wie? Indem es mit riesigen Mengen an Textdaten – und je nach Modell auch Bilddaten – vortrainiert wird. Es erhält sozusagen eine Grund- vor der Fachausbildung. Wir alle kennen ein Beispiel für ein solches Modell – ChatGPT. Solche großen Sprachmodelle können eine Aufgabe auf Anhieb oder mit nur wenigen Anläufen lösen. Denn sie verfügen über ein solch breites Vorwissen, dass sie Text (und Bild) in der Regel sehr verlässlich einordnen können.
In ersten Testläufen mit Hate-Memes haben diese Modelle erstaunlich gute Ergebnisse erzielt. Forscher:innen hoffen deswegen, in Zukunft darauf verzichten zu können, Hate-Speech-Datensätze aufwändig und teuer zusammenstellen und kennzeichnen zu müssen. Aber noch machen die Modelle zu viele Fehler, sie brauchen Nachhilfe im Fach »Hate Speech«. Man gibt dem Modell also ein Feintuning, damit es sich verbessern kann: Kontext und Hinweise, auf welche Merkmale es besonders achten soll. Dafür greift man wiederum auf die begrenzten Datensätze zurück – und nimmt die Risiken, die sie bergen, in Kauf.
Prinzipiell gilt: Je eigenständiger das Modell arbeitet, desto schwieriger ist es für den Menschen, nachzuvollziehen, warum es ein Meme als hasserfüllt kategorisiert oder nicht. Die automatisierte Erkennung von Hass-Memes ist also ein Kompromiss: Entweder man trainiert sein Modell per Handarbeit auf verschiedene Merkmale hin – dann ist das Modell aber auf diese Merkmale beschränkt und wird nichts finden, was es nicht zu suchen angewiesen wurde. Oder man verlässt sich auf das Modell und sein intransparentes Vorgehen – kann diese Entscheidung aber später nicht erklären.
So oder so: Die endgültige Entscheidung darüber, ob ein Meme Hass verbreitet oder nicht, muss nach wie vor ein Mensch treffen. Die KI kann diese Entscheidung beschleunigen – aber die Modelle sind nicht zuverlässig genug, um automatisiert zu löschen oder zu blockieren. Hier schließt sich der Kreis zu einem alten Problem: Hass ist subjektiv. Und ein neues Problem wartet auch schon: Denn am Ende entscheiden Unternehmen darüber, wie gründlich sie gegen den Hass auf ihren Plattformen vorgehen wollen. Hass generiert Streit, Streit generiert Traffic und Traffic generiert Umsatz. Und damit kommen wir zum letzten Problem: Hass ist eben auch lukrativ.
Erschienen am 22. November 2024
Du hast selbst digitale Gewalt erlebt oder wurdest Zeug:in von Hass im Netz? Dann wende dich an die Organisation HateAid. HateAid bietet ein Meldeformular für Online-Gewalt, leistet Beratung und unterstützt auch rechtlich.
Newsletter
Jeden Monat ein Thema. Unseren Newsletter kannst du hier kostenfrei abonnieren: