Big Data und künstliche Intelligenz – Chancen und Risiken für die Polizeiarbeit der Zukunft

27. Mai 2020

Von KK`in Dr. Julia Fricke, KPB Recklinghausen

Die Autorin erhielt im Februar 2019 auf dem europäischen Polizeikongress für ihre Arbeit den „Zukunftspreis Polizei“.

Das Phänomen Big Data steht für die Extraktion von Wissen aus Daten. Es beschreibt die Verarbeitung großer heterogener Datenmengen – wie sie zunehmend auch im Polizeialltag anfallen – in hoher Geschwindigkeit. Die hierzu verwendeten Methoden der Künstlichen Intelligenz (KI) setzen dabei dort an, wo herkömmliche Werkzeuge der Datenverarbeitung an ihre Grenzen stoßen. Sie ermöglichen es, Daten in einem noch nie dagewesenen Umfang zu analysieren, Muster oder Zusammenhänge zwischen ihnen zu erkennen und letztlich Aussagen über die Vergangenheit, Gegenwart und insbesondere die Zukunft abzuleiten. Damit haben Big Data-Analysen ein hohes Wertschöpfungspotenzial – auch für die deutsche Polizei.

Big Data und Künstliche Intelligenz

Big Data und Künstliche Intelligenz (KI) sind Technologien mit einem breiten und stetig steigenden Spektrum möglicher Anwendungen in unserer Lebens- und Arbeitsweise. So werden sie bereits im medizinischen Bereich zur Prognose von Grippe-Pandemien oder zur Unterstützung in der Krebsdiagnostik eingesetzt. In der Wirtschaft können sie entscheidend zur Optimierung von Geschäftsprozessen beitragen (Business Intelligence) und in der Finanzbranche die Kreditwürdigkeit bemessen (Scoring). Besonders für die Sprach-, Text- und Bilderkennungsfähigkeiten von Maschinen mit KI ergeben sich erstaunliche Anwendungsmöglichkeiten. Als Beispiel seien hier digitale Assistenten wie Apple Siri und Amazon Alexa genannt. Diese können mit rasanter Geschwindigkeit lernen, Fragen des Menschen verstehen und beantworten sowie Aufgaben selbstständig erledigen. Ein weiteres Anwendungsbeispiel ist das autonome Fahren durch selbstfahrende Fahrzeuge, was in einigen Jahren den Straßenverkehr entscheidend verändern könnte.

Big Data

Big Data wird in der Gesellschaft sehr unterschiedlich verstanden. So existieren unzählige Definitionen für den Begriff Big Data. Jedoch handelt es sich bei Big Data nicht bloß um große Mengen von Daten. Der Begriff steht auch für die Sammlung, Nutzung und Analyse solcher Datenmassen. Ebenso schließt er die zur Datenverarbeitung notwendigen Technologien und analytischen Werkzeuge ein. In der fachwissenschaftlichen Literatur wird die Technologie daher mit den sogenannten „3 V“ charakterisiert. Diese Merkmale stehen für „Volume“ (Datenmenge, Umfang), „Variety“ (unstrukturierte Daten, Heterogenität der Daten) und „Velocity“ (hohe Geschwindigkeit der Datengenerierung und -verarbeitung). Zusammengefasst beschreibt Big Data also die Analyse und Verarbeitung von Datenmassen aus unterschiedlichen Quellen (Text-, Bild-, Video- und Audiodateien) in enorm hoher Geschwindigkeit – teilweise sogar in Echtzeit.

Da das bloße Sammeln und Speichern der Datenmengen noch keinen Mehrwert hat, müssen die Daten mittels geeigneter Methoden und Analysewerkzeuge nutzbar gemacht werden. Herkömmliche Methoden der Datenverarbeitung und standardisierte Instrumente stoßen dabei an ihre Grenzen. Die Grundlagen einer solchen analytischen Verarbeitung (Big Data Analytics, auch Advanced Analytics) bilden daher Algorithmen, entweder in Form von vordefinierten mathematisch-statistischen Modellen („Regeln“) oder selbstlernenden Systemen. Die hierzu verwendeten Methoden sind das Data-Mining (Daten-Bergbau) und Machine Learning (Maschinelles Lernen). Beide Methoden sind wiederum KI-Komponenten. Für die Auswertung und Analyse von Big Data sind also (unter anderem) KI-Methoden von großer Bedeutung.

Künstliche Intelligenz (KI)

Der Begriff der KI wird häufig mit Robotern und Maschinen, die intellektuelle Aufgaben – teilweise sogar besser als der Mensch – ausführen können, assoziiert („starke KI“). Die derzeitigen Entwicklungen zielen jedoch weniger darauf ab, den Menschen zu ersetzten, als ihn bei der Bewältigung seiner Aufgaben zu unterstützen („schwache KI“). Solche KI-Systeme sind in der Lage, „menschenähnliche“ Verhaltensweisen zu zeigen. Sie können Informationen wie Texte, Sprache und Bilder inhaltlich verstehen, interpretieren, bewerten und Hypothesen erstellen. Zudem können sie mit dem Anwender in natürlicher Sprache kommunizieren und in Abhängigkeit von seinem Verhalten bzw. Feedback „lernen“. Das wohl bekannteste „kognitive“ System ist Watson, welches von dem Innovationsführer IBM entwickelt wurde. Watson ist in der Lage, Infor¬mationen in natürlicher Sprache zu verarbeiten und somit auch Fragen in natürlicher Sprache zu beantworten. So war es Watson im Jahr 2011 möglich, gegen zwei menschliche Champions in der Quizshow „Jeopardy“ zu gewinnen.

Big Data in der Polizeiarbeit

Die polizeilich zur Verfügung stehenden Daten sind ein Beispiel einer Datenmenge, welche zur Erkenntnisgewinnung ausgewertet werden kann (auch wenn es sich dabei streng genommen eher um „Small Data“ handelt). So werden in einigen Bundesländern bereits Daten aus Vorgangsbearbeitungs-, Fahndungs- und Auskunftssystemen sowie Lagebildern oder der Polizeilichen Kriminalstatistik verwendet, um Straftaten zu prognostizieren. Diese Vorgehensweise wird als Predictive Policing, die „vorausschauenden Polizeiarbeit“, bezeichnet.

Grundsätzlich kann dabei in orts- und personenbezogenes Predictive Policing unterschieden werden. In Deutschland wird hauptsächlich das ortsbezogene Predictive Policing durchgeführt. Das primäre Ziel dabei ist es, in Datenmengen der Vergangenheit zunächst Muster zu erkennen, um darauf basierend Wahrscheinlichkeiten für das Auftreten von künftigen Straftaten möglichst exakt raum-zeitlich zu berechnen (derzeit insbesondere zur Vorhersage von Wahrscheinlichkeiten für das Delikt des Wohnungseinbruchdiebstahls). Auch wenn sich die Länderpolizeien hierzu unterschiedlicher Software bedienen, so sind die Grundlagen der Predictive Policing-Systeme identisch. Sie basieren im Kontext des Data-Mining auf mathematisch-statistischen Analysen, um Muster und Relationen abzuleiten und diese auf die Zukunft zu transferieren.

Hingegen gibt es im internationalen Raum bereits Bemühungen zum personenbezogenen Predictive Policing, durch welches unter anderem (kriminelle) Handlungen einzelner Personen prognostiziert werden sollen. Ein Beispiel ist das in England von der Durham Constabulary entwickelte KI-basierte System „Harm Assessment Risk Tool“ (HART). Mit Hilfe dieses Systems soll das Risiko prognostiziert werden, mit dem ein Täter innerhalb der nächsten zwei Jahre weitere Straftaten begehen wird. Damit soll das HART die Polizei bei der Entscheidung unterstützen, welche Täter einem Resozialisierungsprogramm zugeführt werden können. Zu diesem Zweck wurde das HART so trainiert, dass es bestimmte Muster in der Rückfälligkeit erkennt. Die verwendeten (Lern-) Daten stammen aus unterschiedlichen Kategorien und umfassen unter anderem das Alter, das Geschlecht, die Postleitzahl des Wohnortes sowie die (kriminelle) Vergangenheit. Somit ist der Algorithmus in der Lage, das Risiko für eine Rückfälligkeit einzelner Individuen als gering, mittel oder hoch zu klassifizieren. In Deutschland wird personenbezogenes Predictive Policing (bisher) jedoch nicht durchgeführt.

Big Data zur polizeilichen Gefahrenabwehr

Auch wenn das in Deutschland bisher durchgeführte ortsbezogene Predictive Policing aus taktischer Sicht ein wirkungsvolles Instrument ist, so ist es dennoch in gewisser Weise beschränkt. Verwertbare polizeiliche Datensätze (z.B. Tatzeiten, Tatorte, Beute und Modi Operandi) sind begrenzt auf Daten der Vergangenheit und die zugrundeliegenden Algorithmen werden von bereits bekannten (Kriminalitäts-) Theorien abgeleitet.

Vor diesem Hintergrund ist die methodisch-technische Weiterentwicklung von Predictive Policing durch KI-Komponenten, also eine „intelligente polizeiliche Datenanalyse“, sowie die Verknüp¬fung mit personenbezogenen Daten, ähnlich des HART, besonders interessant. Eine „intelligente polizeiliche Datenanalyse“ würde es ermöglichen, eine weitaus größere Menge von Daten aus unterschiedlichen Quellen zeitnah zu verarbeiten und auszuwerten. Denkbar wäre es, Daten zu Wetterbedingungen, Feier- und Ferientagen, Veranstaltungen und Großereignissen sowie zur Verkehrslage in die Systeme einzuspeisen. Auch könnten die Systeme durch die Nutzung von Open-Source-Intelligence (OSINT), also öffentlich zugänglicher Informati¬onen, erweitert werden. Hierzu zählen vor allem Informationen aus den sozialen Medien wie Facebook, Twitter und Instagram. In diesen sind personenbezogene Daten wie Lichtbilder, Kontakte, Aufenthaltsorte, Urlaubsreisen sowie (politische) Einstellungen und Meinungen zu bestimmten Themen offen zugänglich (abhängig von den Allgemei¬nen Geschäftsbedingungen der Dienste).

Derartige Informationen lassen sich durch die bereits aus der kommunikationswissenschaftlichen Forschung bekannten Methoden der „Social Media Analytics“ (SMA) auf die Tonalität und die Sinnstruktur von Texten (Text-Mining), die Struktur von sozialen Netzwerken (soziale Netzwerkanalyse) sowie die Entwicklung von Themen (Trend-analyse) automatisiert analysieren. In einer in England durchgeführten Studie zur Hasskriminalität wurden mittels Algorithmen zehn¬tausende Twitter-Meldungen (Tweets) hinsichtlich ausländer- und fremdenfeindlicher Inhalte bzw. Hashtags analysiert, um zeitliche sowie räumliche Muster aufzudecken. Die Studie verdeutlicht, dass Daten aus sozialen Medien einen detaillierten Einblick in die Gedanken und Vorhaben tausender Menschen liefern können. Durch die Kombina¬tion von OSINT und polizeilichen Daten in Big Data-Analysen ließen sich Verhaltens-muster erkennen und Hypothesen über künftige Straftaten ableiten. Eine weitere Möglichkeit Anwendung wäre in diesem Zusammenhang die Identifizierung von gesell-schaftlichen Trends im Hinblick auf neue Gefahrenlagen.

Nicht zuletzt aus datenschutzrechtlichen Gründen gibt es aber bisher kaum recherchier- und belastbare Studien oder Informationen zu möglichen Anwendungen solcher Innovatio¬nen in der Polizeiarbeit. Die Potenziale einer „intelligenten polizeilichen Datenanalyse“ lassen sich jedoch erahnen, betrachtet man das Beispiel des US-amerikanischen Durham Police Department. Die Polizei setzte hier intelligente IBM-Analysesysteme ein, um aus riesigen Datenmengen (polizeiliche Daten, Notrufe, Informationen zu Bandenmitgliedern und ihren Verbündeten, Strafakten zu Gewaltverbrechen) bisher verborgene Zusammenhänge zischen Straftaten aufzudecken und neue Einblicke in kriminelle Netzwerke zu gewinnen. So fand sie heraus, dass etwa 20 % aller Notrufe, die aufgrund von Schusswaffengebrauch getätigt wurden, aus einem Gebiet stammten, welches nur 2 % der Gesamtfläche der Stadt ausmachte. Weitere Analysen zeigten zudem, dass in diesem Gebiet eine ebenso unverhältnismäßig hohe Anzahl an Gewalt¬verbrechen, Prostitution und Drogenkriminalität verzeichnet wurde. Diese Informationen konnten anschließend genutzt werden, um Kräfte gezielt in diesem Gebiet einzusetzen, entsprechende Polizeimaßnahmen durchzuführen und Kriminalitätsraten zu senken. Dieses Beispiel verdeutlicht, dass mittels Big Data-Analysen auch bisher unbekannte „Kriminalitätsmuster“ und unbekannte Zusammenhänge (z.B. zwischen verschiedenen Deliktsbereichen) aufgedeckt werden können, um letztlich neue polizeilich relevante Erkenntnisse zu gewinnen.

Big Data zur polizeilichen Strafverfolgung

Neben dem präventiven Einsatz können Big Data-Analysen auch wesentliche Vorteile für die kriminalpolizeiliche Ermittlungsarbeit haben. Mit der Generierung immer größerer Datenmengen und den fortschreitenden technischen Entwicklungen wie dem Internet der Dinge wird der Umfang zu analysierender und als Beweismittel zu sichernder Daten in den kommenden Jahren stetig zunehmen. Während früher hauptsächlich strukturierte Daten aus Datenbanken untersucht werden mussten, muss heute häufig eine unüberschaubare Menge von unstrukturier¬ten Daten zeitnah ausgewertet werden. So sehen sich die Ermittler nicht selten mit dem Problem konfrontiert, unzählige Fotos, Videos, Telefongespräche, Textinhalte aus WhatsApp-, Facebook- und Twitter-Nachrichten oder E-Mails zeitnah auswerten zu müssen. Jedoch ist die manuelle Analyse sehr zeitaufwendig und nicht immer zielführend. Erschwerend kommt in einigen Fällen hinzu, dass auch fremdsprachige Daten eine Rolle spielen. Eine Aussage zum Inhalt von Text- oder Audiodateien und damit zur Ermittlungsrelevanz kann hier ohne Übersetzer nicht getroffen werden. Allein für das Auffinden ermittlungsrelevanter Information ist somit bereits ein enormer Zeitaufwand erforderlich, bevor die Informationen tatsächlich aus¬gewertet werden können. Dies stellt die Ermittlerinnen und Ermittler oft vor große Herausforderungen. Die Entwicklung und der Einsatz moderner polizeilicher Analyse- und Ermittlungsmethoden im Zeitalter von Big Data scheinen daher dringend geboten.

In dieser Hinsicht bieten Big Data-Analysen mittels KI Möglichkeiten, die polizeiliche Er-mittlungsführung zu unterstützen. Dies ist insbesondere auf drei Funktionalitäten zurückzuführen: Durch das schnelle Filtern großer Daten¬mengen wäre es möglich, die anfallenden Datenmenge automatisiert und zeitnah auf ermittlungsrelevante Inhalte zu reduzieren. Das Text- und Sprachverständnis intelligenter Systeme ermöglicht es, umfassende inhaltliche Zusammenhänge in Dokumenten oder Textpassagen zu finden. Weiterhin könnte die Sprachintelligenz kognitiver Systeme auch im Bereich der Telekommunikationsüberwachung (TKÜ) genutzt werden, um für die Fallbearbeitung relevante Gesprächsinhalte aus Telefongesprächen herauszufiltern und bei Bedarf zeitgleich aus einer fremden Sprache zu übersetzen. Durch die Bildverarbeitung können bei-spielsweise Gesichter identifiziert und in hoher Geschwindigkeit mit polizeilichen Datenbanken abgeglichen werden. Ein weiteres mögliches Anwendungsfeld ist die gezielte Bildersuche. Intelligente Systeme könnten die Suche in einer großen und ungeordneten Menge von Bildern erheblich beschleunigen, wie zum Beispiel die Suche nach kinderpornographischem Material auf diversen Servern und Datenträgern. Zusammengefasst könnte ein intelligentes System wie zum Beispiel Watson auf Bilder, Videosequenzen oder Textpassagen hinweisen, in welchen sich für die Ermittlungsarbeit relevante Inhalte finden lassen könnten. Zudem wäre es möglich, dass Ermittler/-innen im Dialog gezielt bei Watson „nachfragen“, um bei Bedarf eine detaillierte oder weiterführende Antwort auf ihre Fragen zu erhalten.

Aufgrund der oben dargestellten Multifunktionalität kognitiver Systeme ist auch ihr potenzielles Anwendungsspektrum in Ermittlungsverfahren breit. Grundsätzlich ist ihr Einsatz dort besonders zielführend, wo sich enorme Datenmassen der individuellen Betrachtung durch Ermittler/-innen entziehen oder unstrukturierte Daten diese vor große Herausforderungen stellen. Insbesondere bei Ermittlungen im Bereich der Cyber- und Organisierten Kriminalität sind personal- und zeitintensive Recherchearbeiten ein zentrales Problem. Diesem könnten durch die automatisierte Reduktion auszuwertender Massendaten auf ermittlungsrelevante Informationen im Rahmen einer „Big Data-Voranalyse“ entgegengewirkt werden.

Hinzu kommt die Tatsache, dass durch den technologischen Fortschritt immer neue Tatmittel und Angriffsflächen für Straftäter entstehen. So werden auch Kriminelle (wahrscheinlich) in Zukunft KI-Methoden als hochwertiges Tatmittel nutzen. Dies trifft zum Beispiel auf die Verkehrsunfallaufnahme zu. Fahrzeuge sind längst rollende Computer. Damit könnte theoretisch online auf die Fahrzeugbetriebssysteme zugegriffen werden, um einen Unfall zu provozieren. Gleiches gilt für medizinische Geräte, welche durch Sabotage funktionsunfähig gemacht werden könnten. Damit sind in Zukunft digitale verübte Tötungsdelikte und Anschläge denkbar. Ähnlich gilt dies für das Internet der Dinge, wodurch Wohnungen, Kühlschränke, Fernseher, aber eben auch Türschlösser digital steuerbar sein werden. Die Gefahr des Missbrauchs ist umso höher, je mehr Daten digital werden. Dies stellt neue Herausforderungen an die Ermittler-/innen, die derartige Modi Operandi zum einen erstmal erkennen und zum anderen die digitalen Spuren bzw. Daten anschließend sichern und auswerten müssten.

Strategische Ausrichtung der Polizei

Darüber hinaus könnte sich eine intelligente Datenauswertung und -nutzung im Kontext von Big Data auch positiv auf die strategische Ausrichtung der Polizei auswirken. So könnten beispielsweise personelle Ressourcen zur Lageanalyse geschont werden. Zudem könnten durch die Möglichkeit, inhaltliche Zusammenhänge in Datenmassen zu erkennen, wesentlich umfassendere Lagebilder für die Gefahrenabwehr bzw. valide Kriminalitätslagebilder erstellt werden. Auch wäre es denkbar, dass durch die Identifizierung gesellschaftlicher Trends der Entwicklung von (neuen) Kriminalitätsphänomenen frühzeitig im Hinblick auf die Personal- und Einsatzmittelplanung begegnet werden kann.

Risiken

Neben ihren unbestreitbaren Anwendungsmöglichkeiten ist der polizeiliche Einsatz intelligenter Systeme jedoch auch mit Risiken verbunden. So besteht bei der Verarbeitung von insbesondere personenbezogenen Daten die Gefahr der Diskriminierung bestimmter Personengruppen durch die sogenannte „algorithmische Voreingenommenheit“ (engl. Algorithmic Bias). Ursächlich für solche Bias können neben technischen Defiziten, was in falsch positiven und negativen Ergebnissen resultieren kann, auch fehlerhafte Algorithmen sein. Insbesondere bei dem Verfahren des Maschinellen Lernens müssen die Algorithmen zunächst anhand von Lerndaten trainiert werden. Dabei hängen die Gesetzmäßigkeiten, welche der Algorithmus während der Trainingsphase lernt, von der Zusammensetzung der Lerndaten ab. Dies bedeutet, dass Systeme unweigerlich die Bias reproduzieren werden, welche bereits durch die Lerndaten präsentiert waren. Haben sich also beispielsweise polizeiliche Maßnahmen unverhältnismäßig oft gegen bestimmte Minderheiten gerichtet, so wird auch der Algorithmus für diese Personen ein unverhältnismäßig hohes Risiko der Straftatenbegehung prognostizieren. In der Folge würde sich die Polizei wiederum verstärkt auf diese Minderheiten konzentrieren, sodass letztlich eine Feedbackschleife im Sinne einer selbsterfüllenden Prophezeiung des Systems entsteht. In den USA führte dies beispielsweise zur Rassendiskriminierung, indem ein Algorithmus systematisch dunkelhäutige Personen benachteiligte.

Weitere Kritikpunkte sind sicherlich eine mangelnde Transparenz der Systeme und eine schwierige Nachvollziehbarkeit der von ihnen getroffenen Entscheidungen und Bewertungen (Stichwort „Black Box“). Damit steigt auch das Risiko, dass die von den Systemen produzierten Ergebnisse nicht nicht die Denkweise der Polizei widerspiegeln.

Eine weitere Herausforderung ist die zentrale Verwaltung von Daten. Grundsätzlich gilt, dass diese Technologien ihr Potenzial nur entfalten können, wenn die zu analysierende Datenmenge einen großen Umfang hat. Damit ist unter anderem eine zentrale Daten-verwaltung mindestens auf bundesweiter Ebene essentiell. Dieser Anforderung wird das bisherige polizeiliche Informationsmanagement jedoch nicht gerecht, denn oft sind vorhandene Datenbanken nicht über Ländergrenzen hinweg verfügbar. Eine einheitliche vom Bundeskriminalamt zentral verwaltete Informationsarchitektur soll nun mit dem Programm „Polizei 2020“ geschaffen werden. Damit wird auch der Weg zur erfolgreichen Durchführung von Big Data-Analysen in der Polizeiarbeit geebnet.

Datenschutzrechtliche Zulässigkeit

Eine zentrale Problemstellung ergibt sich insbesondere im Hinblick auf die datenschutzrechtliche Zulässigkeit der Analysen. Durch die Möglichkeit, personenbezogene Daten in einem noch nie dagewesenen Umfang zu verarbeiten, bergen Big Data-Analysen hohe Risiken für die informationelle Selbst¬bestimmung (Art. 2 I i.V.m. 1 I GG). Sie widersprechen daher den Zielen des Datenschutzes.
Für die Verarbeitung personenbezogener Daten durch die Polizei ist die Datenschutzrichtlinie von hoher Relevanz. Diese ist neben der Datenschutz-Grundverordnung (EU-DSGVO) Teil des EU-Datenschutzpakets 2018 und wird in Teil 3 der Neufassung des Bundesdatenschutzgesetzes (vgl. Datenschutz-Anpassungs- und Umsetzungsgesetzes EU, DSAnpUG-EU ) sowie im Fachrecht umgesetzt.

Personenbezug der Daten?

Big Data-Analysen können grundsätzlich mit anonymen oder personenbezogenen Daten durchgeführt werden. Der grundlegende Ansatzpunkt für die Anwendung datenschutzrechtlicher Bestimmungen ist daher ein (möglicher) Personenbezug der Daten. Somit unterfallen polizeiliche Big Data-Analysen den datenschutz-rechtlichen Vorschriften nur, wenn personenbezogene Daten in die Systeme eingespeist werden. Werden ausschließlich anonyme Daten verarbeitet, so sind die datenschutzrechtlichen Bestimmungen nicht anzuwenden. Polizeiliche Big Data-Analysen mit ausschließlich nicht-personenbezogenen Daten sollten daher datenschutzrechtlich unbedenklich und weitgehend zulässig sein. Denkbare Einsatzbereiche ohne Personenbezug sind zum Beispiel strategische Auswertungen, die auf der Grundlage der vorhandenen (polizeilichen) Daten abstrakte Lagebilder zur Entwicklung von Kriminalitätsphänomenen erstellen. Auch dem ortsbezogenen Predictive Policing stehen datenschutzrechtliche Bedenken zunächst nicht entgegen. Werden im Rahmen von Weiterentwicklungen des Systems jedoch zunehmend mehr Daten in die Analyse miteinbezogen, beispielsweise durch die Nutzung von OSINT, lässt sich ein (möglicher) Personenbezug nicht gänzlich ausschließen.
Auch durch die „Anonymisierung“, d.h. durch das Entfernen personenbezogener Daten aus dem Datensatz, kann ein Personenbezug nicht gänzlich ausgeschlossen werden. So besteht stets die Gefahr einer „Re-Identifizierung“, also der Aufhebung oder Vereitelung von Anonymität. Durch die Möglichkeit, vorhandene Datensätze zu erweitern und mit neuen Daten zu verknüpfen, besteht stets das Risiko, dass sich ein Personenbezug – selbst wenn dieser zu Beginn aufgrund der Verwendung von ausschließlich anonymen bzw. anonymisierten Daten ausgeschlossen wurde – im Zuge der Big Data-Analyse herstellen lässt. Werden vorhandene Daten während der Speicherdauer mit neuen Daten verknüpft, könnten hierdurch ausreichend viele Merkmale zusammengeführt werden, um eine Person zu (re-) identifizieren. Da dies im Voraus nicht immer eindeutig abschätzbar ist, sollte im Zweifel ein möglicher Personenbezug angenommen und die datenschutzrechtlichen Vorschriften beachtet werden. In einigen Publikationen wird eine Anonymität im Rahmen von Big Data-Analysen daher gänzlich in Frage gestellt.

Datenschutzrechtlicher Grundsatz der Zweckbindung

Ein grundlegender Konfliktpunkt besteht darin, dass Big Data-Analysen den Fokus auf das Verarbeiten einer möglichst großen Datenmenge legen, während die Datenschutzrichtlinie die Datenverarbeitung auf ein Minimum reduzieren will. Die Datenschutzrichtlinie formuliert in Art. 4 allgemeine Grundsätze der Datenverarbeitung. Den Kern der allgemeinen Datenschutzgrundsätze bildet der Zweckbindungsgrundsatz. Er steht mit weiteren datenschutzrechtlichen Grundsätzen wie der Datenminimierung und der Speicherbegrenzung in einem engen Zusammenhang. Nach dem Zweckbindungsgrundsatz dürfen personenbezogene Daten nur für einen vorher festgelegten, eindeutigen und rechtmäßigen Zweck erhoben (Zweckfestlegung) und nicht in einer mit diesem Zweck nicht zu vereinbaren Weise verarbeitet werden (Zweckbindung). Das Ziel von Big Data-Analysen ist es jedoch, möglichst große Datenmengen zu verarbeiten, um zum einen gesuchte, zum anderen aber insbesondere neue und unbekannte Erkenntnisse zu gewinnen. Es geht also darum, möglichst viele Daten zu oft auch unbekannten Zwecken zu erheben, zu analysieren, zu speichern und mit Daten der Zukunft zu verknüpfen. Es handelt sich um explorative Vorgehensweisen ohne zuvor festgelegte Ziele bzw. Zwecke. Damit stehen die von der JI-RL vorgeschriebenen datenschutzrechtlichen Grundprinzipien zweckoffenen polizeilichen Big Data-Analysen unter Verwendung personenbezogener Daten grundsätzlich entgegen. Eine Datenerhebung auf „Vorrat“ für unbestimmte Zwecke, um diese im weiteren Verlauf immer wieder frei miteinander kombinieren zu können, ist mit dem Zweckbindungsgrundsatz der Datenschutzrichtlinie nicht zu vereinbaren. Die Angabe eines verallgemeinerten Endzwecks wird dieser datenschutzrechtlichen Forderung ebenso wenig gerecht wie ein Verarbeitungszweck, der sich erst aus dem Ergebnis der Datenanalyse ergibt. Das Endergebnis der Auswertung muss hingegen nicht konkretisiert werden, da sich dieses erst im Zuge der Analyse ergibt.

Aber auch wenn ein rechtmäßiger Zweck eindeutig festgelegt ist, so ist dieser bei im Nachhinein erfolgenden Verarbeitungen grundsätzlich einzuhalten. Folglich würde durch das Zusammenführen und Verknüpfen von für konkrete Zwecke erhobenen Daten die jeweilige Zweckfestlegung missachtet und der datenschutzrechtliche Grundsatz verletzt werden.

Der von der Richtlinie vorgeschriebene datenschutzrechtliche Zweckbindungsgrundsatz steht also zweckoffenen polizeilichen Big Data-Analysen unter Verwendung personenbezogener Daten grundsätzlich entgegen. Durch die Zweckbindung werden die vielfältigen Verknüpfungsmöglichkeiten der Daten im Rahmen der Analysen ausgeschlossen oder zumindest stark begrenzt.

Jedoch wird eine Zweckänderung zur Weiterverarbeitung im Nachhinein datenschutzrechtlich nicht gänzlich ausgeschlossen. So ist gemäß Art. 4 II d eine Zweckänderung legitimiert, wenn sie unter anderem durch spezifische Ermächtigungen im Fachrecht explizit geregelt werden. Auch können durch die Verarbeitung personenbezogener Daten mehrere Zwecke zugleich verfolgt werden. Somit ist es möglich, zu Beginn der Analyse nicht nur aktuelle Zwecke, sondern eben auch solche, die in naher Zukunft angestrebt werden, festzulegen. Als problematisch könnte es sich in diesem Fall jedoch erweisen, den Zweck i.S.d. Zweckbindungsgrundsatzes im Vorfeld ausreichend konkretisieren zu können. Fraglich ist in diesem Zusammenhang auch, ob die Verarbeitung von Daten „als Beweismittel“ (z.B. §§ 94, 98 StPO) im Rahmen kriminalpolizeilicher Big Data-Analysen dem Grundsatz der Zweckbindung genügen würde.
Um die datenschutzrechtliche Zulässigkeit von Big Data-Analysen in der Polizeiarbeit eingehender beurteilen zu können, ist in weiteren Untersuchungen eine umfassende Prüfung der konkreten Forderungen des Zweckbindungsgrundsatzes unerlässlich. In diesem Zusammenhang ergeben sich auch die Erfordernisse, (eingriffs-) rechtliche Rahmenbedingungen zu prüfen bzw. zu schaffen. Vor allem die polizeilichen Ermächtigungen im Strafprozessrecht und Polizeirecht der Länder sind mit Blick auf die Datenschutzrichtlinie zu überprüfen und gegebenenfalls an diese anzupassen.

Ebenfalls sind technische (z.B. Datenverfügbarkeit, zentrale Verwaltung von Daten) und finanzielle Aspekte (z.B. Anschaffungskosten, Lizenzgebühren) sowie personelle Fragen (z.B. Fortbildungen, Involvierung von Spezialisten, Outsourcing) zu klären, um den Wert von Big Data-Analysen für die Polizeiarbeit der Zukunft abschließend beurteilen zu können. Mit Blick auf die stetig wachsenden Mengen von anfallenden Daten bieten sie in jedem Fall der Polizei die Chance, ihre bisherige Vorgehensweise zu verbessern und sich insbesondere zukunftsorientiert auszurichten. Weitere Anwendungspotenziale lassen sich erahnen, denkt man an eine Verknüpfung des Predictive Policing mit der intelligenten Videoüberwachung des öffentlichen Raumes. Jedoch sollen Big Data-Analysen traditionelle Polizeiarbeit nicht ersetzen, sondern vielmehr als kreative und effektive Hilfsmittel dienen.

Die Arbeit inkl. Literaturhinweisen und aller Fußnoten finden Sie hier als PDF.