2.4. Datenermittlung (Data Discovery)

Strukturierte Daten

Strukturierte Daten sind hochgradig organisierte Daten, die einem festen Schema folgen. Typische Merkmale sind klar definierte Spalten, Datentypen und Beziehungen zwischen Datensätzen. Solche Daten finden sich vor allem in relationalen Datenbanken und SQL-Tabellen.

Semi-strukturierte Daten

Bei semi-strukturierten Daten handelt es sich um eine Mischform aus strukturierten und unstrukturierten Daten. Sie besitzen eine gewisse Organisationsform, jedoch kein starres, vordefiniertes Schema. Zu den semi-strukturierten Daten zählen: NoSQL-Datenbanken (z. B. MongoDB), Formate wie XML, JSON, YAML.

Unstrukturierte Daten

Unstrukturierte Daten haben kein festes Schema und sind nicht einheitlich organisiert. Die Daten, die wir massenweise auf unseren PCs finden, sind unstrukturiert: Textdokumente, Bilder, Audiodateien, Videos, E-Mails usw.

Da sie keine klaren Attribute besitzen, sind unstrukturierte Daten schwerer automatisiert zu durchsuchen und zu analysieren.

Allgemeine Datenkonzepte (für alle Datentypen)

Metadaten beschreiben die Eigenschaften von Daten, ohne deren Inhalt zu verändern. Beispiele dafür sind: Dateiname, Größe, Erstellungsdatum oder Änderungsdatum.

Semantik beschreibt dagegen die Bedeutung von Daten innerhalb eines bestimmten Kontexts. So kann ein Feld mit der Bezeichnung „ID” je nach Anwendung unterschiedliche Bedeutungen haben, z.B. ComputerID, KundenID.

Der Begriff Normalisierung bezeichnet allgemein die Vereinheitlichung oder Strukturierung von Daten, damit diese konsistent verarbeitet werden können.

Data Location

Der Begriff Data Location beschreibt den physischen oder logischen Speicherort von Daten. Bei der Platzierung von Daten müssen mehrere Faktoren berücksichtigt werden, darunter regionale gesetzliche Vorschriften, Compliance-Anforderungen sowie Performance- und Latenzanforderungen.