Data Lakes: Stille Wasser sind tief

Letztes Jahr etablierte die Software AG einen Wissenschaftlichen Beirat. Das Gremium bietet der Software AG durch seine wissenschaftliche Perspektive wertvolle Impulse für (potenzielle) neue Technologietrends. In dieser Artikel-Serie beleuchten die Experten ihre Forschungsgebiete und geben einen kurzen Ausblick, wie sich diese künftig entwickeln werden. Prof Dr. Jens Dittrich befasst sich am Lehrstuhl Information Systems Group der Universität des Saarlandes mit den Themen Datenbanken, Data Management und Big Data.

Traditionell werden Geschäftsdaten in hochstrukturierten relationalen Datenbanken und speziellen Analysesystemen wie Data Warehouses gespeichert. Mit dem Aufkommen von Big Data wird es jedoch immer schwieriger, all diese Daten über Datenbanken oder No-SQL-Systeme zu verwalten und zu analysieren.

Prof. Dr. Jens Dittrich

„Data Lakes“ erfassen deshalb alle Daten eines Unternehmens in einem zentralen Speicher als Rohdaten, ohne sie vorher zu schematisieren oder anderen Datenbereinigungs- oder Datenimport-Operationen zu unterziehen. Solche Operationen werden erst in einem zweiten Schritt vorgenommen. So bleibt die Flexibilität für Datenabgleich und -analyse gewahrt.

In der Regel sind Data Lakes technisch als verteilte Dateisysteme (wie HDFS) implementiert und umfassen alle Daten eines Unternehmens. Für alle weiteren Analysen wie strukturierte Abfragen, Data-Mining, traditionelles Maschinenlernen oder Deep Learning findet eine Strukturierung nach Bedarf statt. Beispielsweise werden mithilfe entsprechender Workflows und Tools die Rohdaten im Data Lake schrittweise interaktiv gefiltert, bereinigt und angereichert, um klare und eindeutige Informationen zu erhalten. Im Gegensatz zu relationalen Datenbanksystemen – denen die Daten fest zugeordnet sind – werden die Daten in einem Data Lake nicht notwendigerweise einem bestimmten Tool oder System zugeordnet.

Der Grundgedanke des Data Lakes ist vergleichbar mit dem Konzept eines „Dataspaces”, in den im Lauf der Zeit Daten aus unterschiedlichen Quellen integriert werden. Data Lakes passen sehr gut zu den explorativen Workflows von Datenwissenschaftlern, die Daten eher selten in relationalen Datenbanksystemen verwalten.

Lesen Sie hier alle weiteren Beiträge des Wissenschaftlichen Beirats der Software AG:

Bärbel Strothmann-Schmitt

Bärbel Strothmann-Schmitt

Pressesprecherin bei Software AG
Bärbel Strothmann ist seit ihren Anfängen in der IT-Branche vor mehr als 20 Jahren schreibend unterwegs, zunächst in der Forschung und Entwicklung als technische Autorin, dann im Marketing als Creative Writer und seit 2008 auf journalistischen Wegen für den Bereich Corporate Communications der Software AG. Sie ist Mitbegründerin des Blogs, zuständig für die Social-Media-Aktivitäten des Unternehmens sowie für alle Themen rund um die Technik- und Produktkommunikation. Die Digitalisierung, ihre Auswirkungen und Chancen gehören zu ihren Lieblingsthemen.
Bärbel Strothmann-Schmitt

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.