Algorithmen in der Verwaltung: Wenn der Computer Nein sagt
Welcher Arbeitslose kriegt einen teuren Kurs bezahlt? Welche Person wird von der Polizei verhört? Zunehmend bestimmt das auch Software mit. Ein Essay.
Ein Algorithmus wird künftig den Ausschlag geben, welche Ressourcen zur Erhöhung seiner Chancen am Arbeitsmarkt ein Arbeitsloser bekommt - ob er eine teure Weiterbildung belegen oder nur einen vergleichsweise billigen Kurs besuchen darf. Denn die Software bewertet für jeden Arbeitslosen, wie groß oder klein dessen Chancen am Arbeitsmarkt sind. Wer nur einen niedrigen Wert erhält, also wer laut Kalkulation nur geringe Chancen auf einen Job hat, der soll in Zukunft eher keine teuren Trainings mehr erhalten. Ziel der Berechnung ist es, festzustellen, bei wem sich kostspielige Weiterbildung noch lohnt - und welche Arbeitslosen hingegen günstige Kurse erhalten sollen.
Das ist keine Science Fiction, es ist Realität. In Österreich tritt dieses System 2019 schrittweise in Kraft. Seither bewertet ein Algorithmus jeden Arbeitslosen. Das österreichische Beispiel ist keineswegs ungewöhnlich: Zunehmend setzt auch die öffentliche Hand Algorithmen in Form von kluger Software ein, um Vorhersagen über Bürger zu treffen. In der Schweiz setzt die Polizei Software ein, um gewalttätige Männer vor einer schweren Straftat zu erkennen; in US-Bundesstaaten wie Florida verwenden Richter Software bei der Entscheidung, wer auf Bewährung freikommen darf und wer ins Gefängnis muss. Im Umkreis von Pittsburgh kalkuliert die Software, welche Familie ihr Kind womöglich misshandeln wird.
Der Staat und öffentliche Einrichtungen nutzen zunehmend solche Prognosetools, um die Komplexität einer Situation besser bewerten zu können. Das wirft viele ethische Fragen auf: Wie treffsicher sind solche Instrumente, gibt es Bevölkerungsgruppen, bei denen die Software öfters falsch liegt? Diskriminieren einzelne Algorithmen ganze Menschengruppen? Und darüber hinaus: Gibt es politische Themen, bei denen wir als Gesellschaft solche Berechnungen nicht wollen? Gibt es Grenzen? All diese Fragen sind akut. Wir müssen sie jetzt beantworten, weil die Technik weltweit zunehmend eingesetzt wird.
Die Formel lautet: „– 0,14 x GESCHLECHT_WEIBLICH“
Österreichs Arbeitsmarktservice (AMS), das Pendant zur deutschen Arbeitsagentur, also eine öffentliche Einrichtung, hat von einem privaten Forschungsinstitut namens Synthesis Forschung GmbH ein Modell erstellen lassen, mit dem man die Jobchancen jedes Bürgers berechnen kann. Zur Erstellung dieses Algorithmus konnten die Forscher Millionen von historischen Daten des AMS auswerten, darunter Information über Alter, Bildungsstand, Geschlecht, Kinderbetreuungspflichten von Arbeitslosen in Österreich. Sie kalkulierten auf Basis der Daten der vergangenen Jahre, welche Faktoren sich im Schnitt negativ oder positiv auf die Jobsuche auswirken. Ein Alter über 50 wirkt sich negativ für die Jobchancen aus, eine abgeschlossene Lehre positiv.
Wirklich interessant an der Datenanalyse ist, dass sie auch bestehende Ungleichheit greifbar macht. Die Forscher sahen, dass Frauen messbar schlechtere Karten am Arbeitsmarkt hatten. In einer ihrer Formeln notierten sie: „– 0,14 x GESCHLECHT_WEIBLICH“. Das heißt, Frausein ist ein Negativfaktor. Sind sich eine weibliche Arbeitslose und ein männlicher Arbeitsloser in allen anderen Aspekten gleich (gleiche Ausbildung, gleiches Alter, gleiche Berufserfahrung), hat die Frau trotzdem im Schnitt eine leicht niedrigere Chance am Arbeitsmarkt. Und das ist nicht die einzige Ungleichheit, die in der Analyse zum Vorschein kam: Wenn Frauen Kinder haben und diese betreuen müssen, sinken ihre Jobchancen noch einmal zusätzlich. Bei den männlichen Arbeitslosen konnten die Forscher diesen Effekt nicht messen. Wenn Männer Kinder und Betreuungspflichten hatten, war das für sie kein Nachteil bei der Jobsuche.
Die Datenanalyse legt nahe, dass der Arbeitsmarkt Frauen mit Kind leicht bestraft. Aus frauenpolitischer Sicht ist diese Berechnung zuerst mal beeindruckend: Schwarz auf weiß wird dokumentiert, dass es Frauen selbst bei gleicher Qualifikation eine Spur schwerer haben. Umstritten ist allerdings, was mit dieser Kalkulation in Zukunft passiert: Basierend auf den Zahlen sollen ab 2020 auch Ressourcen verteilt werden. Alle Arbeitslosen werden in drei Gruppen eingeteilt: eine Gruppe mit hohen Chancen am Arbeitsmarkt, eine mit mittleren Chancen und eine mit niedrigen Jobchancen. Und wer in der niedrigsten Gruppe landet, soll künftig keine teure Weiterbildung bezahlt bekommen – oder nur dann, wenn sich der eigene Betreuer über den Computer hinwegsetzt. Auch soll die Gruppe mit hohen Chancen am Arbeitsmarkt keine besondere Förderung erhalten, weil sie wahrscheinlich ohnehin Jobs findet.
Wie steht es um die ethische Verträglichkeit?
Das führt zu einer Sorge: Werden Frauen in solch einem System benachteiligt? Das AMS dementiert dies vehement und betont, dass sich in der aktuellen Verteilung Frauen verstärkt in der Gruppe mit den mittleren Arbeitsmarktchancen wiederfinden – die stark gefördert werden soll. Sind also die Sorgen vor algorithmischer Diskriminierung überzogen? Wirklich klar ist das bisher nicht. Um diese Frage gründlich zu beantworten, müssten Wissenschaftler Vergleichskalkulationen anstellen, sie müssten mit den Daten des Arbeitsmarktservice experimentieren dürfen. „Um das Modell besser zu verstehen, wäre zum Beispiel interessant, in welchen der drei Gruppen die Frauen landen, wenn man den Faktor Geschlecht bewusst weglässt oder wenn man getrennte Analysen für Frauen und Männer rechnen würde“, sagt Erich Neuwirth, ein Experte am Feld der Statistik und langjährige Professor an der Universität Wien. Bisher veröffentlichte die zuständige Synthesis Forschungs GmbH 16 Seiten zu ihrem Algorithmus - von außen gibt es bisher wenig Einblick in das System.
Außerdem wurde vor der Einführung keine eigene ethische Untersuchung geplant, wie sich dieses Programm in der Praxis auswirken könnte. Dabei gibt es Fälle, wo dezidiert auch die ethische Verträglichkeit von Algorithmen vorab evaluiert wurde. Ein gutes Beispiel liefert die Region rund um Pittsburgh, genannt Allegheny County: Dort führte das Jugendamt 2016 ein vieldiskutiertes Prognose-Instrument namens „Allegheny Family Screening Tool“ ein. Wenn jemand bei der Jugendhilfe anruft und den Verdacht äußert, eine Familie misshandle womöglich ihr Kind, dann prüft auch die Software den Fall.
Basierend auf früheren Aufzeichnungen der Jugendhilfe, von Sozialeinrichtungen und der Justiz berechnet die Software die Wahrscheinlichkeit, ob ein Kind in einer Familie gefährdet ist. Auch hier wird kontrovers diskutiert, ob Behörden solche Berechnungen anstellen sollen und ob es womöglich Schattenseiten eines solchen Programms gibt. Aber auf jeden Fall hat der Landkreis diesen Prozess sehr transparent kommuniziert. Im Vorfeld führten Wissenschaftler eine ethische Analyse durch, ob ein solches Tool sinnvoll ist und wo potenzielle Risiken liegen. Das Dokument kann jeder online nachlesen.
Software sei unabhängig, objektiv, treffsicher - aber was, wenn sie schlampig programmiert wurde?
Tragisch ist, dass eine solche Transparenz seitens des Staates längst nicht Normalität ist, dass viel eher Verwaltung und Justiz häufig Algorithmen als Entscheidungshilfe einsetzen, ohne dass man Näheres darüber weiß. In der Schweiz sorgte erst 2018 ein Bericht des Senders SRF für Aufregung, demzufolge die Polizei in etlichen Kantonen ein Prognosetool namens Dyrias einsetzt, das die Wahrscheinlichkeit berechnen soll, ob ein Mann seine Frau schwer verletzen oder gar töten wird. Bei einer Untersuchung von 60 Fällen, in denen die Software angewendet wurde, kam heraus, dass das Programm in den untersuchten Männern rasch einen Gefährder sieht. „Zwei Drittel von denen, die Dyrias als hoch gefährlich bezeichnete, schritten nie zur Tat“, schreibt der SRF.
Zunehmend bemerken öffentliche Einrichtungen, die Verwaltung oder Justiz, auf welchem Datenschatz sie eigentlich sitzen. Sie wissen, wer Sozialleistungen bezog, in welchem Haus öfters die Polizei gerufen wird oder wer wie lange arbeitslos gemeldet war. Auch die öffentliche Hand will zunehmend Big-Data-Analysen nutzen, um aus riesigen Datenmengen neue Erkenntnisse zu gewinnen. Einerseits lässt sich mit solchen Tools vielleicht Personal einsparen oder dieses zumindest effizienter einsetzen. Andererseits erhofft man sich von der Software auch, dass sie treffsicherer als der Mensch ist, dass sie mehr Informationen auf einmal berücksichtigen kann und gleichzeitig weniger Vorurteile hat. Aber es ist teils unklar, ob dieser Anspruch erfüllt wird.
In Florida führt Software dazu, dass mehr Schwarze in Haft sind
Zwar hat Software die Aura, dass sie unabhängig, objektiv und viel treffsicherer als der Mensch sei. Doch kann Software auch schludrig entworfen sein oder Daten können Fehler und Lücken in sich bergen. Oft fehlt es an unabhängigen Analysen über die Qualität derartiger Programme oder unerwünschter Nebeneffekte.
Das eindrücklichste und wohl am besten dokumentierte Beispiel sind jene Algorithmen, die in den USA Richter unterstützen sollen: In Florida und etlichen anderen US-Bundesstaaten berechnet eine Software, wie wahrscheinlich es ist, ob ein Straftäter in den nächsten Jahren erneut ein Verbrechen begehen wird. Diese Information soll Richtern bei der Entscheidung helfen, wer auf Bewährung freikommt und wer eingesperrt wird. Eine Untersuchung zeigte jedoch: Bei Afroamerikanern lag die Wahrscheinlichkeit höher, dass die Software sie als Wiederholungstäter einstufte. Es kam bei Schwarzen sogar fast doppelt so oft zu sogenannten „false positives“: Sie wurden als potenzielle Wiederholungstäter eingestuft, begingen in den nächsten zwei Jahren aber keine Straftat. Weiße hingegen wurden öfters fälschlicherweise der Niedrigrisiko-Gruppe zugeordnet: In nahezu jedem zweiten Fall, bei dem weißen Amerikanern ein niedriges Risiko zugeschrieben wurde, beging die Person in den kommenden zwei Jahren eine Straftat. Dies geht aus einer groß angelegten Datenanalyse der Investigativplattform ProPublica aus dem Jahr 2016 hervor.
Unter Wissenschaftlern ist es ein Streitthema, ab wann man einen Algorithmus als diskriminierend bezeichnen muss. Ein Teil des Problems ist dabei auch, dass häufig nicht direkt die Software, sondern die Datengrundlage das Problem ist.
Studien weisen darauf hin, dass Afroamerikaner viel strenger als Weiße von der Polizei behandelt werden: Sie werden öfter beim Autofahren aufgehalten, ihr Fahrzeug wird häufiger durchsucht. Sie werden ebenso bereits für kleinere Vergehen wie öffentliche Ruhestörung, Besitz weicher Drogen oder Landstreicherei verhaftet. Und letztlich bekommen Schwarze oft auch höhere Strafen als Weiße vor Gericht. All das kann dazu führen, dass schon die Datengrundlage eines Algorithmus rassistisch geprägt ist – was eine faire Einschätzung erschwert.
Gibt es Entscheidungen, bei denen der Mensch nicht als Zahl betrachtet werden sollte?
Hier zeigt sich eine Parallele zu Österreich: Die Datenanalyse ergab, dass es in der Gesellschaft eine Ungleichheit von Mann und Frau gibt, dass es Frauen eine Spur schwerer am Arbeitsmarkt haben. Das ist nicht die Schuld des Algorithmus. Der spiegelt nur die Realität wider. Zu Recht ist es aber ein politisches Streitthema, wie die öffentliche Hand nun mit dieser Information umgehen soll. Das AMS könnte mit Blick auf solche Zahlen auch sagen, dass es die Förderung von Frauen umso gezielter ausbaut, da die Datenanalyse ihre Schlechterstellung deutlich zeigte.
Eines gehört in diesem Fall betont: Nicht die Software entscheidet, wer eine Weiterbildung vom Staat gezahlt bekommt - auch wenn Software Zahlen zum Status quo liefert, ist es weiterhin eine menschliche Entscheidung. Wir befinden uns hier am Anfang einer wichtigen Debatte des 21. Jahrhunderts. Relevant wird dabei erstens die Frage sein: Gibt es sensible Bereiche, bei denen wir kategorisch nicht wollen, dass der Staat algorithmische Vorhersagen nutzt? Noch einfacher gesagt: Gibt es Entscheidungen, bei denen der Mensch nicht als Zahl betrachtet werden sollte? Zum Beispiel kann die Verteilung medizinischer Ressourcen ein Feld sein, in dem wir jeden Menschen gleich behandeln wollen - egal, was in seinem Datensatz drinsteht.
Und zweitens lautet die Herausforderung: Dort, wo Algorithmen eingesetzt werden, sollten sie möglichst fair und nachvollziehbar sein. Die neue Datenschutzgrundverordnung sieht schon jetzt Auskunftsrechte des Bürgers vor, wenn ein Algorithmus eine für ihn relevante Entscheidung trifft. Interessant wird sein, was dieses Recht in der Praxis bedeutet, wie viel Informationen interessierte Bürger letztlich bekommen werden.
Gerade ein Staat wie Deutschland könnte mit gutem Beispiel vorangehen und zum Beispiel definieren, in welchen Feldern der Verwaltung es eine verpflichtende Evaluierung braucht, ehe ein Algorithmus eingesetzt wird. Ebenso könnte gesetzlich festgelegt werden, welche Information öffentliche Stellen unabhängigen Wissenschaftlern zur Verfügung stellen müssen. Solche Tests sind notwendig, denn wenn ein Fehler in dieser Software enthalten oder die Datengrundlage unzuverlässig ist, dann sind womöglich alle Arbeitslosen oder alle Häftlinge davon betroffen. Die Schattenseiten von Algorithmen können jeden betreffen. Deswegen sollten wir genau auf derartige Software schauen: weil wir uns schwerwiegende Fehler als Gesellschaft gar nicht leisten können.
- Ingrid Brodnig ist österreichische Journalistin und Publizistin. 2015 bis 2017 war sie Redakteurin des österreichischen Nachrichtenmagazins Profil.
Ingrid Brodnig