Ständig wird über Digitalisierung gesprochen und dabei fast ritualisiert der Datenschutz als Klotz am Bein diffamiert. Ohne Datenschutz würden wir die Corona-Krise besser bewältigen oder würden auch in Sachen KI oder Gesundheitsschutz viel größere Fortschritte machen können. Die restliche Welt, die sich viel weniger um Datenschutz kümmert, wird uns abhängen. Ich will in diesem Beitrag zunächst nicht weiter über Datenschutz schreiben sondern über das Wesen der Digitalisierung. Nur, wer versteht, was der Treibstoff des Digitalen wirklich ist, woher er kommt und was er bewirkt und wie digitale und analoge Welt zusammenspielen, der ist überhaupt in der Lage, die Chancen und Risiken von Digitalisierung ernsthaft zu begreifen. Alles andere sind Diskussionen, die hauptsächlich von Buzzwords getrieben werden und wenig in die Tiefe gehen. Leider bestimmen diese Diskussionen zumeist den öffentlichen Diskurs und zeigen auf dramatische Weise die digitale Inkompetenz unserer Gesellschaft.
Bei Digitalisierung und Datenschutz geht um Menschen in der analogen Welt.
Wir Menschen – und darum geht es ja letzten Endes – leben in einer analogen Welt. Nur hier können wir handeln, fühlen, denken und Dinge verändern. Nur die analoge reale Welt (wir lassen jetzt mal erkenntnistheoretische Fragestellungen der Einfachheit wegen weg) wirkt auf uns ein. Das soll nicht heißen, die digitale Welt hätte keinen Einfluß. Aber dieser besteht nur indirekt, vermittels der analogen Welt. Der digitale Raum kennt nur ein einziges Element. Eine binäre Einheit, das Bit, welches entweder den Wert 0 oder 1 annehmen kann. In der Quantenwelt wird es komplexer und deshalb sind Quantencomputer mit Ihren QBits leistungsfähiger, aber dieser Umstand ändert wenig an der prinzipiellen Diskussion. Bleiben wir also beim Bit.
Das Digitale kennt also nur diesen einen Stoff und kann daher auch nur damit umgehen. Wenn uns das Digitale dann etwas nützen soll, müssen wir unweigerlich die Dinge der analogen realen Welt durch Folgen solcher Bits beschreiben. Jede Folge entspricht einer natürlichen Zahl, weshalb wir einfacher auch von Zahlen sprechen können. Jede Situation, jeder Gedanke, jede Handlung, jedes Faktum müssen wir in eine oder mehrere Zahlen abbilden, damit ein Computer damit etwas anfangen kann.
Die Zahl selbst bedeutet aber nichts. Die Zahl 37 kann für ein Lebensalter stehen, für eine Körpertemperatur oder für die Menge an Bargeld in meinem Portemonnaie. Die Zahl im digitalen Raum wird erst durch eine Interpretation, durch die Beisteuerung einer Interpretation zu etwas Nützlichem. Diese Interpretation ist allerdings keineswegs selbstverständlich, sondern folgt Vereinbarungen zwischen Menschen, die sich vorher auf eine gemeinsame Interpretation geeinigt haben.
Die vermessene Realität
Wir kennen das. Wir versuchen die Realität und das Leben zu vermessen, indem wir für viele Aspekte entsprechende Datenpunkte erstellen und mit zugehörigen Interpretationen versehen. Längenangaben, Temperaturen, Volumina, Geschwindigkeit, Farben usw. sind abstrakte Beschreibungen von Dingen in der Realität. Umgekehrt können wir verschiedene Datenpunkte nehmen und daraus wieder Schlüsse über unsere Realität ziehen. Interpretieren wir die Zahl 42 nicht als Lösung für das Leben, das Universum und das Überhaupt, sondern als Körpertemperatur eines Menschen, dann können wir ableiten, dass dieser dem Tod womöglich näher ist als dem Leben.
Daten werden erst durch Interpretation zu Information
Der erste Knackpunkt – und da haben wir eigentlich noch gar nichts berechnet oder im eigentlichen Sinne verarbeitet – besteht in der Interpretation der gesammelten Datenpunkte. Ist diese Interpretation richtig und lässt sie die richtigen Schlüsse zu? Insbesondere wenn die Schlüsse eine Wirkung auf die Realität entfalten, indem sie zu Handlungen auffordern, Möglichkeiten eröffnen oder auch verweigern (z.B. einen Kredit), ist dies von erheblicher Bedeutung. Wenn also eine Menge Datenpunkte über meine Person gesammelt werden, dann sollte sichergestellt sein, dass eine andere Person, die mich nicht persönlich kennt, daraus keine falschen Schlüsse zieht.
Die digitale Beschreibung einer Realität besteht immer aus endlich vielen Datenpunkten. Sie ist immer eine Abstraktion der Wirklichkeit und muss daher notwendigerweise Aspekte der Wirklichkeit auslassen. Je mehr Datenpunkte ich sammele, um so präziser kann ein digitales Abbild der Realität werden. Man kann sich das wie den Fußabdruck am Strand vorstellen. Wenn der Strand nur mit groben Kieselsteinen bedeckt ist, bleiben mir vielleicht nur eine Handvoll Steine zur Abbildung und diese wird grob. Habe ich feinsten Sand, gelingt mir bereits eine einigermaßen gute Abbildung meines Fußes. Er ist klar zu erkennen.
Was für Schlussfolgerungen kann ich aus Daten ziehen?
Es stellt sich die Frage, wie gut muss eine digitale Abbildung sein, damit man bestimmte Schlussfolgerungen daraus ziehen kann? Paradoxerweise kann so eine hohe Datensparsamkeit sogar negativer wirken als eine ausreichende Versorgung mit Datenpunkten. Betrachten wir z.B. Wirtschaftsauskunfteien. Üblicherweise besitzen sie weit weniger Daten über Verbraucher, als es zumeist angenommen wird. D.h., diesen Mangel an Datenpunkten muss eine Auskunftei durch die geschickte Interpretation weniger Datenpunkte ausgleichen. Ob das ausreicht, um für jeden Verbraucher eine gerechte Beurteilung erstellen zu können, lasse ich hier bewußt offen. Offensichtlich sind sich Auskunfteien wie die Schufa dieser Problematik bewußt. Sonst wären sie nicht so unbedingt an der Erfassung von vielen anderen individuellen Datenpunkten wie Kontobewegungen interessiert.
Man kann das Dilemma so sehen: Je mehr Datenpunkte ich über die Realität sammle, umso weitreichender sind meine möglichen validen Interpretationsmöglichkeiten und Rückwirkungen auf Betroffene, je weniger Datenpunkte ich habe, umso weniger Interpretationsmöglichkeiten bestehen und umso „riskanter“ können Interpretationsversuche werden.
Es geht um Macht und Deutungshoheit
Entscheidend für die Beurteilung einer Datenverarbeitung sind also die Interpretationen und die Datenbasis, auf derer sie vorgenommen werden. Diese Interpretation erfolgen durch Menschen und haben in vielen Fällen direkte Auswirkungen auf das Leben, die Rechte und Freiheiten von anderen Menschen. Es geht damit sehr banal um Macht. Wer bestimmt, welche Datenpunkte erfasst werden und wie diese Daten interpretiert werden, um damit die Realität zu beeinflußen, hat Macht.
Wer also – und jetzt komme ich doch wieder beim Datenschutz vorbei – so gerne behauptet, er hätte nichts zu verbergen, der sieht leider nur den ersten Teil der Gleichung und ignoriert geflissentlich den Rest. Die Frage nämlich, welche Datenpunkte erhoben werden, entscheidet nur darüber, welche Interpretationen der Daten seriös möglich sind. Es entscheidet aber nicht, welche Interpretationen tatsächlich vorgenommen werden (auch unseriöse) und welche Rückwirkungen dies auf die Realität haben wird. Letztlich liegt in der Aussage, ich habe nichts zu verbergen, bereits eine eigene Interpretation der möglichen Datenpunkte vor, die diese für harmlos – also ohne Erwartung einer negativen Rückwirkung – hält. Niemand kann aber sagen, ob diese Interpretation von den Mächtigen, also denen, die über die tatsächlichen Interpretationen und möglichen Rückwirkungen entscheiden, geteilt wird.
Interpretation, Rückwirkung und Zweck
Im Datenschutzrecht ist die Interpretation von Daten mit den möglichen Rückwirkungen eng mit dem Begriff des Zwecks verbunden. Das Ziel der Datenverarbeitung bestimmt letztlich die Menge der erfassten Datenpunkte, deren Interpretation und den Spielraum möglicher Rückwirkungen. Insofern überrascht es nicht, dass dem Zweck und der Zweckbindung einer Datenverarbeitung eine hohe Bedeutung zukommt.
Die Notwendigkeit, Daten interpretieren zu müssen, um den Rückweg aus der digitalen in die analoge Welt zu schaffen, birgt weitere Untiefen. Interpretationen basieren in der Regel nicht auf einzelnen Daten sondern aus Kombinationen unterschiedlicher Daten aus möglicherweise unterschiedlichen Quellen. Damit werden Interpretationen selbst schnell komplex und fehleranfällig. Dateninterpretationen, die auf Einschätzungen, Statistiken, Korrelationen basieren, sind anfällig für Verzerrungen bis hin zur Diskriminierung von Betroffenen.
Algorithmen und Berechnung
Datenverarbeitung besteht aber längst nicht nur aus der Erfassung von Datenpunkten und deren Interpretation. Vielmehr geht es darum, aus zahlreichen Datenpunkten neue Datenpunkte zu erzeugen, deren Interpretation erneut valide Rückschlüsse auf die Realität zulassen. Dieser Prozess nennt sich Berechnung. Aus vielen eingehenden Datenpunkten, deren Interpretation festgelegt wurde, werden neue Datenpunkte berechnet, deren Interpretation für die Realität eine sinnvolle Bedeutung hat. Diese Berechnungen bestehen aus Verarbeitungsschritten, die in der traditionellen Betrachtungsweise von Menschen in Form von Algorithmen beschrieben werden. Wenn heute die öffentliche Diskussion den Algorithmus für sich entdeckt und deshalb jetzt so intensiv über die Gefahren von Algorithmen diskutiert, dann ist das schon ein bisschen lustig, weil es keine Datenverarbeitung ohne Algorithmen gibt. Algorithmen gab es, so gesehen, schon vor der Erfindung des Computers. Das eine ist heute untrennbar mit dem anderen verbunden. Ein Algorithmus ist nichts anderes, als ein in einer formalen Sprache formuliertes Kochrezept, wie eingehende Datenpunkte in neue Datenpunkte umgewandelt, d.h., berechnet werden sollen. Dabei unterliegt auch der Algorithmus einer Interpretation durch Menschen. Ob das Subtrahieren meines Geburtsdatums vom aktuellen Datum mein Alter ergibt, ist dem Computer total egal. Es ist meine Interpretation, die dieser Operation ihren Sinn verleiht. Es ist meine Aufgabe als Programmierer/Software-Entwickler die Anweisungen des Algorithmus so zu formulieren, dass die resultierenden Datenpunkte unter der vorgegebenen Interpretationsweise auch einen Sinn ergeben.
Sind die Ergebnisse offensichtlich unsinnig, so sind entweder die Eingangsdaten inkorrekt oder der Algorithmus hat einen Fehler. Man würde vielleicht einfach sagen, das Programm spinnt. Gefährlich wird es, wenn die Daten nicht vollkommen sinnlos sind sondern nur leicht abweichen. Dann wird ein Fehler möglicherweise nicht sofort erkannt. Im schlimmsten Fall kostet das dann Menschenleben wie z.B. bei den beiden Abstürzen einer Boing 747-Max.
Traditionelle Algorithmen kann man überprüfen. Experten können jeden einzelnen Verarbeitungsschritt nachvollziehen und auf seine Richtigkeit überprüfen. Trotzdem ist es aufgrund der Komplexität solcher Algorithmen de facto nicht möglich, die Fehlerfreiheit eines Algorithmus auf diese Weise sicherzustellen. In der Praxis ist dies zudem nur denjenigen möglich, die über die Algorithmen verfügen. Viele kritische Algorithmen sind nicht öffentlich und können daher nicht von unabhängigen Experten überprüft werden. So sind die Algorithmen z.B. der Schufa, die angeblich die Kreditwürdigkeit eines Verbrauchers aus einer Reihe von wenigen Datenpunkten errechnen können, ein Geschäftsgeheimnis. Dem Verbraucher bleibt nur, die Unsinnigkeit eines so berechneten Ergebnisses mühsam zu beweisen bzw. die Richtigkeit der Schufa-Berechnung zu widerlegen.
Fortsetzung folgt ….
Marc Dauenhauer ist Diplom Informatiker und Politikwissenschaftler. Er beschäftigt sich seit 30 Jahren mit den unterschiedlichen Aspekten der digitalen Transformation und der Digitalisierung. Er hat viele Unternehmen – von kleinen Mittelständlern bis hin zu Weltkonzernen – beraten und bei IT-Projekten unterstützt. Sein Spezialgebiet ist die Umsetzung von Privacy by Design bei neuen Entwicklungsprojekten, die er in der Kombination aus Solution Architect und Datenschutzexperte betreut. Darüberhinaus arbeitet er als Datenschutzbeauftragter (TÜV) und Auditor (TÜV).
Weitere zufällig ausgewählte Artikel aus meinem Blog