„Big Data“ – das bedeutet das Sammeln, Verarbeiten und Analysieren riesiger Datenmengen. Die Kunst besteht vor allem darin, daraus die richtigen Schlüsse abzuleiten. US-Informatiker Michael Jordan schlägt dafür einen „neuen Denkstil“ vor, der die Stärken von Computerwissenschaft und Statistik miteinander kombiniert – auch wenn die dahinter liegende Forschung noch Jahrzehnte dafür brauchen könnte.
Die Krise wissenschaftlicher Studien
„Es ist sehr leicht, aus Big Data die falschen Schlüsse zu ziehen, weil man nicht wirklich versteht, was dabei passiert. Der Computer macht die ganze Arbeit“, umriss der an der Universität Berkeley (USA) tätige Professor für Statistik und Computerwissenschaft im Gespräch mit der APA eines der Ausgangsprobleme. Jordan hält morgen, Mittwoch, am Institute of Science and Technology (IST) Austria einen Vortrag zum Thema „Computational Thinking, Inferential Thinking and Data Science“.
Ist etwa bei der Analyse von Bevölkerungsdaten eine Population überproportional vertreten („Oversampling“), dann „weiß“ das der Computer nicht und produziert verzerrte Resultate. Solche statistischen Unschärfen hätten in den vergangenen Jahren zu einer „Reproduzierbarkeits-Krise“ von wissenschaftlichen Studien geführt. So konnten etwa kolportierte Zusammenhänge zwischen einem Gen und einer Krankheit anschließend oft nicht mehr nachvollzogen werden, nannte Jordan ein Beispiel aus der Medizin.
Kluft zwischen Informatik und Statistik
Die dahinter liegenden Probleme der statistischen Entscheidungsfindung zu lösen, die eine große Anzahl von Menschen, verschiedene Kulturen und Situationen überspannen, ist für den Experten „weit schwieriger als alles, was bisher in der Computerwissenschaft gemacht wurde“. Beikommen könnte man dem zumindest zum Teil, indem bei der Auswertung von Daten durch Computersysteme statistische Fehlerkorrekturen wie die „False Discovery Rate“ bereits im Voraus mit eingeplant sind. Von solchen Lösungsansätzen aus der Statistik wüssten jedoch viele Informatiker, die diese Systeme planen und bauen, nichts oder noch zu wenig.
Die grundsätzliche Krux, die es zu überwinden gelte, ist die: Wo sich der Statistiker über möglichst viele Daten freut, weil sie genauere Rückschlüsse zulassen, will der Informatiker die Komplexität der Daten reduzieren, um den Überblick zu behalten. Die Kluft zwischen diesen Welten ist zum Teil auf fehlende Schwerpunkte in der Ausbildung zurückzuführen, hat aber auch tiefere Gründe. „Bestehende Konzepte, die beide Sphären unterstützen, stehen eher in Konflikt miteinander, anstatt voneinander zu profitieren“, erklärte Jordan.
Im Wesentlichen gehe es darum, inferentielles Denken – grob gesagt geht es um Schlussfolgerungen auf statistischer Basis – und informatisches Denken stärker, auch institutionell, zu verbinden. „Es wird einiges intellektuelles Sondieren und wahrscheinlich mehrere Jahrzehnte an Forschung brauchen, um Konzepte zu entwickeln, die besser miteinander harmonieren“, so Jordan, für den diese Anstrengungen letztlich in der Etablierung einer neuen akademischen Disziplin kulminieren sollen.
Maschinelle Superintelligenz noch Sci-Fi-Szenario
Der Informatiker, aufgrund seines wissenschaftlichen Impakts und seiner Namensgleichheit mit einer US-Basketball-Legende einmal als der „Michael Jordan des Machine Learning“ bezeichnet, hat keine Angst vor einer die Menschheit bedrohenden maschinellen Superintelligenz. Solche Szenarien seien pure Science Fiction und wenn, dann vielleicht erst in 500 Jahren denkbar. Wahre Intelligenz spricht der „Skeptiker und Optimist“ zumindest den heutigen Computern rundweg ab. Bestenfalls könne man von erweiterter („augmented“) Intelligenz sprechen, die den Menschen – etwa bei Suchanfragen im Web, per Spracherkennung oder bei Empfehlungsdiensten – unterstützt.
Selbst die Tatsache, dass Computer mittlerweile in hoch komplexen Spielen wie Go menschliche Spitzenspieler schlagen, heißt für Jordan, der Universitätsabschlüsse in Psychologie, Mathematik und Kognitionswissenschaften vorzuweisen hat, im Grunde „genau gar nichts“: „Ein Computer, der Milliarden von möglichen Pfaden durchforstet und die richtigen findet, das ist eine gute Ingenieursleistung. Das heißt aber nicht, dass der Computer plötzlich superschlau ist.“