2.3. Datensicherheitstechnologien und -strategien – Teil 2

Hashing

Auf den ersten Blick erinnert sich Hashing an der Verschlüsselung, unterscheidet sich jedoch durch ein entscheidendes Merkmal: Hashing ist eine irreversible Einweg-Transformation. Das bedeutet, dass es nicht möglich ist, aus einem Hash-Wert wieder den ursprünglichen Klartext zu rekonstruieren.

Eine der Kerneigenschaften von Hashing ist die gleiche Ausgabelänge, die unabhängig von der Größe der Eingabe (gleiche Eingabe = gleicher Hashwert) immer konstant bleibt. Dabei können minimale Modifikationen zu völlig anderen Ergebnissen (Avalanche-Effekt) führen.

In der IT-Sicherheit werden Hash-Funktionen vor allem zur Integritäts-prüfung, für digitale Signaturen und zur sicheren Speicherung von Passwörtern eingesetzt. Ein Hash fungiert als digitaler Fingerabdruck. Anstelle von Klartextpasswörtern werden Hashwerte gespeichert, wodurch das Risiko bei Datenlecks reduziert wird.

Moderne Verfahren sind SHA-256 und SHA-3, während ältere Algorithmen wie MD5 oder SHA-1 als unsicher gelten.

Data Obfuscation

Datenverschleierung bezeichnet den gezielten Prozess, sensible Informationen so zu verändern, dass ihre ursprüngliche Bedeutung verborgen wird. Ihre Struktur bleibt dabei für bestimmte Zwecke erhalten.

Auf diese Weise können solche Daten weiterhin für Tests oder Analysen verwendet werden, ohne dass echte Informationen offengelegt werden.

Es gibt mehrere Arten der Datenverschleierung:

Datenmaskierung (Data Masking)

Dies eine der häufigsten Formen der Datenverschleierung. Dabei werden reale Werte durch fiktive, aber formal gültige Werte ersetzt oder teilweise unkenntlich gemacht. Eine Kreditkartennummer kann beispielsweise nur noch in Teilen sichtbar sein, während Format und Datentyp erhalten bleiben.

Beispiel: Kreditkarte 1234 5678 1111 1234 > 1234 **** **** 1234

Maskierung wird vor allem in Test- und Entwicklungsumgebungen eingesetzt.

Ersetzung (Substitution)

In diesem Fall werden die Werte durch andere gültige, aber falsche Werte ersetzt. Das Ziel ist dabei, das Format und den Datentyp zu behalten, aber die Offenlegung sensibler Informationen zu verhindern.

Beispiel: In einer Datenbank mit Telefonnummern werden echte Nummern durch zufällig generierte ersetzt, die formal wie echte Telefonnummern aussehen.

Durchmischung (Shuffling)

Beim Shuffling werden die Werte eines Datensatzes neu angeordnet, sodass die statistischen Eigenschaften erhalten bleiben, die Zuordnung zu einzelnen Personen jedoch verfälscht wird.

Beispiel: In einer Datenbank mit Kundennamen und Kaufhistorien werden die Kaufhistorien zwischen den einzelnen Kunden vertauscht. Das Gesamtdatenset bleibt statistisch korrekt. Eine Zuordnung zu realen Personen ist jedoch nicht mehr möglich.

Wertabweichung (Value Variance)

Die Value Variance verändert systematisch die numerischen Werte. Dabei werden die echten Datenwerte durch leicht veränderte, aber plausibel wirkende Werte ersetzt. Diese Veränderung kann nach oben oder unten, zufällig oder nach einem festen Schema erfolgen.

Beispiel: In einer Gehaltsdatenbank werden alle Gehälter um zufällige ±3,5 % angepasst. Das Dataset bleibt für Analysen brauchbar, ist dann aber nicht mehr personenbezogen.

Löschung oder Nullwertsetzung (Deletion / Nullification)

Für diese radikalere Methode gibt es viele Namen, zum Beispiel Anonymisierung oder De-Identifizierung. Dabei werden identifizierende Merkmale entweder vollständig entfernt oder so verändert, dass eine Rückverfolgung nicht mehr möglich ist. Dies ist zwar aus Datenschutzsicht optimal, allerdings verlieren die Daten ihren analytischen Nutzen.

Tokenization

Bei der Tokenisierung werden sensible Daten durch bedeutungslose Zeichenketten (Token) ersetzt, die keinen mathematischen Zusammenhang zum Originalwert aufweisen. Der wesentliche Unterschied zu anderen Verschleierungsmethoden besteht darin, dass:

die Originaldaten werden nicht verändert oder gelöscht.
sie werden in einem separaten, hochgesicherten System (Token Vault) gespeichert.

Eine Rückumwandlung ist ausschließlich über dieses kontrollierte Zuordnungssystem möglich.

Das System besteht aus zwei separaten Komponenten: Produktionsdatenbank und Token-Vault.

Die Produktionsdatenbank enthält ausschließlich Token. Dies sind bedeutungslose Zeichenketten wie z. B. „TKN-432A-B765”. Selbst wenn ein Angreifer Zugriff auf diese Datenbank erlangen würde, fände er dort keine verwertbaren Daten.

Die Token-Vault (Mapping-Datenbank) ist eine streng abgeschottete Datenbank mit eigenem Zugriffsmanagement und somit der eigentliche Aufbewahrungsort. Nur dort existiert die Zuordnungstabelle zwischen Token und Originalwert.

Wenn z.B. der Zahlungsdienstleister die echte Kartennummer für eine Transaktion benötigt, läuft der Prozess umgekehrt ab: Das System sendet den Token an den Vault, erhält den Originalwert zurück und verarbeitet diesen für die Transaktion, ohne ihn dauerhaft im Händlersystem zu speichern. Dieser Vorgang wird als De-Tokenisierung bezeichnet.

Data Loss Prevention (DLP)

Der Schutz vor Datenverlust ist keine rein Cloud-spezifische Thematik, sondern eine grundlegende Notwendigkeit, die weit über die Grenzen der IT hinausreicht. Aus Sicht der IT-Sicherheit geht es darum, den unbefugten Zugriff, die Offenlegung oder den Verlust vertraulicher Informationen wirksam zu verhindern.

Der DLP-Prozess basiert dabei auf drei aufeinander aufbauenden Phasen: Discovery, Monitoring und Enforcement.

Discovery (Entdeckung) – erkennen, wo sensible Daten gespeichert sind.
Monitoring (Überwachung) – beobachten, wie diese Daten genutzt werden.
Enforcement (Durchsetzung) – richtlinien anwenden, um Verstöße zu verhindern oder zu melden.

DLP Discovery

Bevor man irgendwas schützt, muss es zuerst finden. Im ersten Schritt wird das Netzwerk nach Daten durchsucht. Die gefundenen Daten werden auf bestimmte Muster analysiert, um sensible Informationen zu finden (z. B. Kreditkartennummern, personenbezogene Daten, Gesundheitsdaten). Danach erfolgt die Zuordnung (Klassifizierung) von Daten zu Kategorien wie z. B. öffentlich, vertraulich, geheim oder streng geheim.

Zu Punkt Discovery gehört auch eine Reihe von Fachbegriffen:

Data Lake – zentraler Speicherort für große Mengen roher, unstrukturierter Daten.
Data Warehouse – strukturierter, optimierter Speicher für Analyse und Berichterstattung.
Data Mart – ist ein Teilbereich eines Data Warehouses, der speziell für eine Abteilung oder Funktion bestimmt ist.
Data Mining – Analyse großer Datenmengen, um Muster und Trends zu erkennen. Dies dient als Grundlage für Business Intelligence und Risikoanalysen.
Normalization – Vereinheitlichung unterschiedlicher Datenformate, um sie vergleichbar und durchsuchbar zu machen.
OLAP (Online Analytical Processing) – ermöglicht multidimensionale Datenanalyse (z. B. nach Zeit, Region, Produktlinie) – wie das „Drehen“ eines Datenwürfels.
ML / AI Training Data – große Datensätze, die zur Schulung von Machine-Learning-Modellen dienen.

DLP Monitoring

Bei der DLP Monitoring geht es verständlicherweise um die Überwachung der sensiblen bzw. vertraulichen Daten. Diese erfolgt in den klassischen Datenzuständen:

Data at Rest
Data in Motion
Data in Use

Bei Data at Rest handelt es sich um ruhende Daten in Datenbanken, Storages oder Backups. Die notwendigen Maßnahmen sind: regelmäßige Scans, Policy-Checks und Zugriffskontrollen.

Data in Motion sind die Daten, die über Netzwerke übertragen werden. Hier ist wird geprüft, ob die Verbindung verschlüsselt ist.

Bei Data in Use spricht man über die aktiv genutzten Daten. Die technischen Maßnahmen hier sind: Überwachung von API-Aufrufen, Schreibzugriffen, Benutzeraktivitäten.

DLP Enforcement

In der letzten Phase geht es um die Durchsetzung der konfigurierten Richtlinien. Erkennt das DLP System einen Verstoß, kommt zur aktiven Anwendung der Regeln: warnen (Detection) oder blocken (Prevention).

Detection (Erkennung) – erkennt Verstöße und löst Warnungen aus.
Prevention (Verhinderung) – blockiert Verstöße sofort. Diese Option hat aber ein potenzielles Risiko. Die Fehlkonfigurationen können legitime Vorgänge blockieren (False Positives). Deswegen lohnt es sich, die beiden Optionen zu kombinieren: breites Monitoring zur Erkennung, gezielte Prävention bei eindeutig sensiblen Vorgängen.