Risiken von Big Data: Wenn die Datenmenge wächst
Ein Team aus Sozial- und Kulturanthropologen hat die Risiken von Big Data in der Forschung untersucht.
Mit Big Data kam die Euphorie. „Die wissenschaftliche Methode ist obsolet“, proklamierte Chris Anderson, Chefredakteur des Technologiemagazins Wired, im Jahr 2008. Damals rief er die Petabyte-Ära aus: eine Epoche, in der Forscherinnen und Forschern fast unendlich viele Daten zur Verfügung stehen. Um die Welt zu erklären, brauche die Wissenschaft keine Theorien und keine Modelle mehr, schrieb Anderson damals: „Die Zahlen sprechen für sich selbst.“
Wissenschaftlerinnen und Wissenschaftler haben diese Euphorie im Rahmen eines internationalen Forschungsprojekts hinterfragt. Knowledge Complexity, kurz: KPLEX, heißt das von der Europäischen Kommission im Rahmen des Horizon-2020-Forschungsprogramms finanzierte Projekt, das Anfang des Jahres abgeschlossen wurde. Neben Forschungsgruppen in Irland, Lettland und den Niederlanden war auch ein dreiköpfiges Team der Freien Universität Berlin an KPLEX beteiligt: Unter der Leitung von Thomas Stodulka, Professor für Sozial- und Kulturanthropologie, hat es Empfehlungen für die EU-Kommission erarbeitet, wie diese Fördermittel für Big Data zielgerichtet einsetzen sollte.
In der Wissenschaft werden immer häufiger enorme Datenmengen mit moderner Technik bearbeitet und statistisch ausgewertet, etwa in der Astrophysik, der Genomforschung und in den Projekten am Teilchenbeschleuniger der Kernforschungsorganisation CERN. Doch nicht nur in den Naturwissenschaften ist Big Data populär: Aufgrund von Twitter-Daten werden Netzwerkanalysen erstellt, die etwa zeigen, wie sich Rechtsextreme online vernetzen. Google hat derweil durch die Auswertung seiner Nutzerdaten den Werbemarkt revolutioniert.
Die Herkunft der Daten ist nicht immer durchschaubar
Doch die schiere Menge der Daten könne zu vorschnellen Schlüssen verleiten, warnt Jörg Lehmann, promovierter Historiker und einer der am KPLEX-Projekt beteiligten Wissenschaftler: „Es ist oft völlig intransparent, wie ein Datensatz zustande gekommen ist und was ausgelassen wurde.“ Die Herkunft der Zahlen sei bei staatlichen Zensusdaten, der ältesten Form von Big Data, noch durchschaubar; nicht aber, wenn die Daten von Unternehmen wie Facebook stammten, die Wissenschaftlern keinen Zugriff auf alle Daten und die Methoden ihrer Generierung gewährten.
Der Dateninhalt sei aber entscheidend dafür, was sich daraus folgern lasse, sagt Jörg Lehmann. Big Data bilde nicht schlicht „die Realität“ ab, auch wenn die Daten einen umfassenden Eindruck machten. Es gebe Vorannahmen, die die Datenauswahl beeinflussen. Darüber müsse sich jeder Nutzer klar sein. In der medizinischen Forschung seien es die Klassifikationssysteme, etwa der „diagnostische und statistische Leitfaden“, der in der Psychiatrie zum Einsatz komme. Er entscheidet darüber, wer als krank und wer als gesund zählt, und damit, wer in den von der Forschung untersuchten Patientenakten enthalten ist und wer nicht.
Viele Unternehmen erforschen Emotionen mithilfe von Big Data
Um herauszufinden, wie Forscherinnen und Forscher mit großen Datenmengen umgehen, hat das Team der Freien Universität 23 Experteninterviews geführt und 123 Wissenschaftlerinnen und Wissenschaftler in ganz Europa einen Fragenkatalog ausfüllen lassen. Der Fokus lag dabei auf der Emotionsforschung, ein Querschnittsthema, das den Vergleich vieler verschiedener Disziplinen zulässt: In der Neurowissenschaft werden anhand der komplexen Bilder, die Magnetresonanztomografen erzeugen, Emotionen bestimmten Gehirnregionen zugeordnet. Politikwissenschaftlerinnen und -wissenschaftler dagegen untersuchen zum Beispiel die Nutzung von Emojis auf Facebook. Auch viele Unternehmen erforschen Emotionen mithilfe von Big Data: So entwickeln Computerlinguisten im Auftrag der Deutschen Telekom eine Software, die anhand von Tonhöhe und Tonfall den Gemütszustand eines Anrufers erkennen soll, während Microsoft Online-Tools zur Verfügung stellt, die auf Fotos und in Videos Mimik analysieren und Emotionen erkennen sollen. Die Umfrage habe gezeigt, mit welchen Schwierigkeiten die Emotionsforschung bei der Verwendung von Big Data konfrontiert sei, berichtet Thomas Stodulka. Das beginne beim Zugang zu den Daten: Während große Unternehmen ständig Daten sammelten, ohne über deren Verwendungszweck und die Ergebnisse ihrer Analysen Auskunft zu geben, hätten viele Wissenschaftlerinnen und Wissenschaftler schlicht keinen Zugang zu den Forschungsdaten. Nur die wenigsten erhöben ihre Daten selbst, und das Teilen von Daten zwischen den Disziplinen sei oft nicht ohne Weiteres möglich. Aber auch die Qualität der Informationen sei nicht immer ausreichend, vieles gehe verloren: „Die relationalen, historischen, situativen und körperlichen Aspekte von Emotionen und Affekten können nicht erfasst werden, auch nicht ambivalente Emotionen wie Ironie“, sagt Thomas Stodulka.
„Big-Data-Ansätze rütteln an den Grundfesten der Wissenschaft“
Für wie verlässlich man Big Data hält, hängt auch vom Grundverständnis der wissenschaftlichen Methode ab. Geht man, wie im Positivismus der Naturwissenschaften üblich, von einer objektiv messbaren Wirklichkeit aus? Oder nimmt man an – wie es die Konstruktivisten in den Sozialwissenschaften tun –, dass es darauf ankommt, wie die Wirklichkeit interpretiert wird, dass eine objektive Sicht der Dinge also gar nicht möglich ist? Die promovierte Sozial- und Kulturanthropologin und KPLEX-Forscherin der Freien Universität Elisabeth Huber befürchtet, dass Big Data einen Anschein von Objektivität ausstrahlt und die Wissenschaftler zu einem naiven Positivismus führen könnte. „Algorithmen liefern aber keine automatisch objektiven Wahrheiten“, sagt sie.
„Big-Data-Ansätze rütteln an den Grundfesten der Wissenschaft, denn sie erzielen Ergebnisse, ohne vorher theoretische Annahmen operationalisiert oder überhaupt eine Forschungsfrage gestellt zu haben“, sagt Thomas Stodulka. Die Wissenschaftler fordern kein Ende der Big-Data-Forschung, raten aber zu großer Vorsicht, vor allem, wenn es um Kausalitäten geht. Wichtig sei, sich die Grenzen von großen Datenmengen in der Forschung klarzumachen, empfiehlt der Anthropologe. „Um Phänomene verstehen zu können, sind Big-Data-Analysen alleine nicht ausreichend, ihr Wahrheitsanspruch ist nicht exklusiv.“
Im Internet: polsoz.fu-berlin.de/ethnologie/forschung/arbeitsstellen/kplex
Jonas Huggins