Frauen werden von Algorithmen regelmäßig diskriminiert. Ihre Stimmen und Gesichter werden von der künstlichen Intelligenz schlechter erkannt, ihre Bewerbungen häufiger aussortiert. Wie ginge es anders?
Ein Gedankenexperiment
Stell Dir Folgendes vor: Eine Frau schaltet ihren Laptop ein. Ein Fenster ploppt auf, sie hat eine E-Mail bekommen. Betreff: Ihre Bewerbung bei unserem Unternehmen. »Leider müssen wir Ihnen mitteilen, dass wir Ihnen zum jetzigen Zeitpunkt keine Stelle anbieten können.«
Vor einem anderen Laptop scrollt ein Mitarbeiter der Personalabteilung durch eine Rangliste mit Bewerberinnen und Bewerbern. Zum ersten Mal hat er sie nicht selbst erstellt, sondern diese Künstliche Intelligenz, die sie jetzt benutzen, irgendein Algorithmus, so ganz verstanden hat er es nicht. Auf Platz eins steht ein Mann. Der Mitarbeiter checkt sein Profil: Ja, das passt, guter Abschluss, Berufserfahrung, Mitte 30, kinderlos.
In der digitalen Welt bildet sich ein Muster ab, nach dem wir in der realen Welt schon lange sortieren und bewerten: das Geschlecht.
Einige Stunden zuvor hat ein System aus Algorithmen seine Berechnungen abgeschlossen. Die Aufgabe: aus 100 Bewerbungen die vielversprechendsten aussuchen. In der Entwicklung wurde das System darauf trainiert. Ihm wurde beigebracht, was Erfolg ist und wer Erfolg verspricht. Der junge Mann auf Platz eins zum Beispiel.
0100011001110010
0110000101110101.
F – 01000110
r – 01110010
a – 01100001
u – 01110101
Künstliche Intelligenz ist neutral – sie kennt weder gut noch böse, weder Vorurteil noch Ungerechtigkeit. Diese Annahme hält sich hartnäckig. Dabei bildet sich auch in der digitalen Welt ein Muster ab, nach dem wir schon lange sortieren und bewerten: das Geschlecht.
2015 muss Amazon nur ein Jahr nach der Entwicklung ein Programm einstellen, das bei der Vergabe von Tech-Jobs systematisch Frauen aussortiert. 2017 zeigt die US-amerikanische Informatikerin Joy Buolamwini in ihrer Studie Gender Shades, dass die Gesichtserkennungssoftware großer Firmen wie IBM oder Microsoft Schwarze Frauen schlechter erkennt als weiße Männer.
2020 belegt die deutsche NGO AlgorithmWatch mit einem Experiment auf Facebook, dass Stellenausschreibungen nach Geschlechterstereotypen geschaltet werden: Eine Stelle als LKW-Fahrerin (m/w/d) wird zum Beispiel zehn Mal häufiger Männern als Frauen angezeigt, eine Stelle als Erzieherin (m/w/d) hingegen 20-mal häufiger Frauen.
Stimmerkennungssoftware reagiert schlechter auf weibliche Stimmen. Banken vergeben seltener Kredite an Frauen. Die Anrede »Dear Professor« wird in Übersetzungsprogrammen mit »Sehr geehrter Herr Professor« übersetzt.
Wo liegt der Nullpunkt digitaler Diskriminierung? Wie viel Verantwortung können Algorithmen übernehmen, wenn ihre Entscheidungen Menschen systematisch benachteiligen? Und an welchen Stellen müsste man ansetzen, damit sie nicht nur effizient, sondern auch fair entscheiden?
Um das herauszufinden, starten wir ein Gedankenexperiment:
Stell Dir vor, du bist Entwickler oder Entwicklerin in dem Unternehmen, das der Frau zu Beginn eine Absage geschickt hat. Statistisch gesehen bist Du ein Mann, vielleicht gehörst Du auch zu einem Team aus Männern. Die Wahrscheinlichkeit, dass Du eine Frau bist, ist jedenfalls niedrig: Eurostat zufolge lag 2021 der Anteil von Frauen in der IT deutscher Unternehmen bei 19 Prozent, EU-weit ebenso. Du hast den Auftrag bekommen, ein Modell zu entwickeln, dass automatisch die besten Kandidatinnen oder Kandidaten für einen Job auswählt.
Du stehst vor Deiner ersten Frage: Woher weißt Du, wer die Besten sind?
»Erfolg muss in Zahlen abbildbar sein«, sagt Sabrina Burtscher. Burtscher studiert Media and Human-Centered Computing an der Technischen Universität Wien und hat für ihre Masterarbeit ein Set von Empfehlungen zusammengestellt, wie man Diskriminierung durch algorithmische Systeme erkennt und behandelt. Für den Chaos Computer Club hält sie dazu regelmäßig Vorträge. »Du kannst eine Person nie vollständig abbilden, sondern immer nur einzelne Merkmale.« Aber welche Merkmale versprechen Erfolg?
Für den Computer ist »Erfolg« eine ebenso unverständliche Kategorie wie »Geschlecht«. Um voraussagen zu können, wer der Firma Erfolg bringen wird, muss er wissen, wer der Firma in der Vergangenheit Erfolg gebracht hat. Er braucht Daten.
Du beginnst, ihn mit diesen Daten zu füttern: Personaldaten und Lebensläufe bereits eingestellter Personen, Leistungsbewertungen von Mitarbeiterinnen und Mitarbeitern. Jede Information wird zu einem Kriterium, der Mensch zu einer Sammlung loser Datenpunkte. Das algorithmische System beginnt, die Daten zu lesen, es erstellt Korrelationen und findet Gesetzmäßigkeiten. Nicht jedes System kann das: Manche Systeme funktionieren regelbasiert, das heißt, sie brauchen für jeden Schritt einen Befehl, so wie manche Menschen nur nach Rezept kochen. Systeme wie Deines hingegen, die mithilfe maschinellen Lernens arbeiten, brauchen nur ein Ziel, auf das sie selbst zusteuern – ein fertiges Gericht, das später auf dem Tisch stehen soll. In diesem Fall: die Liste mit den besten Kandidatinnen und Kandidaten. Es findet von selbst Muster in den Trainingsdaten und überträgt diese Muster auf die eingehenden Bewerbungen. Die Sortierung wird automatisiert.
Künstliche Intelligenz ist neutral – sie kennt weder gut noch böse, weder Vorurteil noch Ungerechtigkeit. Diese Annahme hält sich hartnäckig.
Solche Systeme sind noch nicht die Regel in Deutschland, werden aber immer häufiger eingesetzt, vor allem in der IT, der Produktentwicklung, Logistik und im Vertrieb. Laut einer Studie der IDG Research Services setzen bereits 73 Prozent der großen Unternehmen mit mehr als 10.000 Beschäftigten in verschiedenen Bereichen auf maschinelles Lernen.
Was finden die Algorithmen in den Daten? Sie erkennen Hinweise darauf, dass in den vergangenen Jahren vor allem eine bestimmte Personengruppe eingestellt wurde. Dass all diese Personen Männer sind, ist dem System egal. Es ist wie ein Schulkind, dem am Karrieretag nur Menschen in Anzügen ihre Berufe vorstellen und das deswegen folgert, Menschen, die Kleider tragen, würden nicht arbeiten. Das System berechnet: Je mehr die Bewerberinnen und Bewerber den Merkmalen dieser Personengruppe entsprechen, desto höher die Wahrscheinlichkeit, dass ihre Einstellung ein Erfolg wird.
»Künstliche Intelligenz verstärkt, was schon da ist«, sagt Sabrina Burtscher. »Solange du Daten aus der Vergangenheit verwendest, bringst du dem algorithmischen System bei, dass die Welt – so, wie sie jetzt ist – gut ist.«
Du nimmst erst einmal die Hände von der Tastatur. Ist die Welt gut, so, wie sie ist? Du wolltest ein Tool für Bewerbungsverfahren entwickeln und nicht über philosophische Fragen sinnieren. Aber Dein Bauchgefühl und Artikel drei des Grundgesetzes sagen Dir: Geschlecht sollte bei der Auswahl keine Rolle spielen. Was jetzt? Wie können die Algorithmen, die Du programmierst, die Welt verändern, statt sie nur abzubilden?
Deine erste Idee: der Datensatz. Mit jeder Frau, die in den Trainingsdaten auftaucht, müsste doch auch die Wahrscheinlichkeit steigen, dass eine Frau eingestellt wird. Und je ausgeglichener das Geschlechterverhältnis in den Datensätzen, desto weniger spielt Geschlecht eine Rolle in der Bewertung.
Wo liegt der Nullpunkt digitaler Diskriminierung? Wie viel Verantwortung können Algorithmen übernehmen?
»Mehr Daten sind gut«, sagt Burtscher, »wenn sie mehr Menschen repräsentieren.« Denn wenn von 100 Angestellten nur zehn Frauen seien, schlage eine einzige negative Leistungsbewertung einer Frau deutlich schwerer ins Gewicht und verzerre die Auswertung. Nur mehr Daten zu sammeln reiche aber nicht: »Wir brauchen auch einen kritischeren Blick auf diese Daten«, sagt sie. Welche Informationen über Menschen wurden zu Daten gemacht, die Algorithmen weiterverarbeiten können – und warum?
Du überlegst: Wenn Du das Datenset selbst auswählen könntest, mit dem das algorithmische System trainiert wird – dann könntest Du auch überprüfen, in welchem Verhältnis Geschlecht und andere Merkmale vorkommen, wer die Daten erhoben und aufbereitet hat. Aber für Deine Vorgesetzten sind nicht irgendwelche Daten interessant, sondern die Daten aus dem eigenen Unternehmen. Und in diesen Daten kommen Frauen seltener vor, weil sie seltener eingestellt wurden.
Du überlegst weiter: Wenn Du nicht bei den Trainingsdaten ansetzen kannst – dann vielleicht bei den Daten, die das System noch nicht kennt. Was würde passieren, wenn Du alle Hinweise auf das Geschlecht aus den Daten streichst? Geschlechtslose Daten: Lebensläufe ohne Vornamen und Pronomen, keine weibliche oder männliche Form. Du wirst enttäuscht, das Ergebnis ist das gleiche. Statt der offensichtlichen Merkmale findet das System Ersatz-Merkmale, die es zu der gleichen Schlussfolgerung führen: Lücken, die durch die Elternzeit im Lebenslauf entstehen, kennt es weniger gut, weil es mit Lebensläufen von Männern trainiert wurde, die im Schnitt deutlich kürzer in Elternzeit gehen als Frauen. Das Gleiche gilt für Interessen, Hobbys oder sogar Wörter: »Ausführen« oder »erfassen« benutzen zum Beispiel häufiger Männer, sodass Bewerbungen, in denen diese Worte fehlen, tendenziell schlechter bewertet werden.
Diese Ersatzinformationen nennt man Proxy-Daten. Sie sind Stellvertreter für das Wissen, das uns fehlt. »Du kannst bestimmte Faktoren ausblenden«, sagt Sabrina Burtscher. »Aber das heißt nicht, dass sie keine Rolle mehr spielen. Unser Leben ist durchsetzt von Identitätskategorien.«
Würde ein Wenn-Dann-Befehl funktionieren: wenn Frau, dann automatisch zehn Punkte mehr?
Du kannst Geschlecht also nicht außen vor lassen. Damit bleibt Dir nur noch eine Möglichkeit: Geschlecht besonders zu berücksichtigen. Du könntest Deinem Modell beibringen, dass es Frauen bei gleicher Qualifikation bevorzugt. Du hältst inne: Das wäre ja wie eine Frauenquote, nur im Digitalformat. Eigentlich hältst Du nichts von solchen Regularien. Aber solange Dein Modell mit Daten aus der Vergangenheit lernt, wird es Frauen nicht berücksichtigen. Du musst es ihm vorgeben. Aber wie?
Würdest Du ein regelbasiertes System programmieren, also eines, das auf ein Rezept angewiesen ist, dann könntest Du den Faktor Geschlecht umgewichten. Dazu bräuchte es einen Wenn-Dann-Befehl: Wenn Frau, dann automatisch zehn Punkte mehr. Du zögerst, weil Du ahnst: Es wäre mehr manuelle Vorarbeit nötig. Du müsstest die Bewerbungen markieren, damit das System weiß, welche Bewerbung von einer Frau kommt. Du müsstest zählen, wie viele Bewerbungen von Frauen sind und das Punktesystem so skalieren, dass nicht nur Frauen ausgewählt werden. Es wäre mehr Arbeit, aber es ginge.
Du entwickelst aber kein regelbasiertes System, sondern eines, dass ohne Deine Anweisungen Entscheidungen über die Bewerbungen trifft, nur auf Basis der Daten, mit denen es trainiert wurde. Du weißt nicht, welche Muster es findet – ab dem Moment, in dem Du die Daten einspeist, gibst Du die Kontrolle ab. Das bedeutet, die Entscheidung ist selbst für Dich als Entwickler oder Entwicklerin kaum noch nachzuvollziehen.
Das ist beim Menschen ja nicht anders, denkst Du. Der Personalchef trifft seine Entscheidung am Ende nach Sympathie oder weil der Bewerber ihm ähnlich ist. Aber bei Deinem Modell wird diese Entscheidung zum Gesetz: Hat es eine Regel aus den Daten abgeleitet, wird es nicht von ihr abweichen.
Im April 2021 hat die Europäische Kommission einen Entwurf für eine Verordnung über Künstliche Intelligenz vorgelegt, das die Anwendung von automatisierter Entscheidungsfindung durch rechtliche Vorgaben eingrenzt. Die Kommission sieht dafür ein Stufensystem vor, das KI nach Risikoklassen einteilt. Ein Tool, wie Du es programmieren sollst, ordnet der Entwurf als Anwendung mit hohem Risiko ein, das besonderen Transparenz- und Kontrollpflichten unterliegen muss. Deine Firma müsste zum Beispiel gewährleisten, dass sie die Auswahl der Bewerberinnen rückverfolgen kann und kennzeichnen, dass sie KI für das Bewerbungsverfahren eingesetzt hat. Verstöße will die Kommission mit hohen Bußgeldern bestrafen. Im November 2021 hat die EU-Ratspräsidentschaft einen Kompromissvorschlag vorgelegt, im Sommer wird nun das EU-Parlament darüber diskutieren.
Dein Auftrag war, ein Modell zu entwickeln, das automatisch die besten Kandidatinnen und Kandidaten für einen Job auswählt. Ein Modell, das nicht nur Arbeit, sondern auch Verantwortung übernimmt. Aber vorher musstest Du selbst Entscheidungen treffen: Ob Du die analoge Welt abbilden oder verändern willst; ob es fairer ist, Geschlecht auszublenden oder vorzuziehen. Du weißt jetzt, wo Du ansetzen könntest, damit Dein Modell fairer entscheidet: Du bräuchtest einen möglichst diversen Datensatz und Du müsstest einsehen können, welche Faktoren die Entscheidung in welchem Ausmaß beeinflussen.
Nervös gehst Du in Deinem Büro auf und ab. Ein solches Modell entspricht nicht Deinem Auftrag. Aber bei der automatisierten Entscheidungsfindung kannst Du nicht abschätzen, welche Folgen die Berechnungen haben werden. Du kannst nicht garantieren, dass es wirklich die besten Kandidatinnen oder Kandidaten sind, die es auswählt. Erschöpft sinkst Du auf Deinen Stuhl.
In unserem Gedankenexperiment musst du jetzt ein letztes Mal entscheiden: Entweder Du entwickelst das Modell, mit dem Du beauftragt wurdest. Oder Du schlägst eine Alternative vor. Wie entscheidest Du Dich?