Ein Data Lake ist eine Cloud-basierte Art der Datenspeicherung. In einem Data Lake kann eine große Menge unterschiedlicher Daten gespeichert werden, ohne sie vorher zu vereinheitlichen.
Ein Data Lake ist generell größer als ein Data Pool und hat meist eine höhere Anzahl an Nutzenden. Er braucht deshalb mehr Speicherkapazität. Im Gegenteil zu einem Data Pool sind Daten in einem Data Lake meist nicht einheitlich formatiert, sondern liegen im Rohzustand vor. Dadurch können sie für eine Vielzahl unterschiedlicher Anwendungen in unterschiedlichen Formaten bereitgestellt und genutzt werden - sie müssen dafür aber meist weiterverarbeitet werden (z.B. gereinigt, aufbereitet, transformiert etc.). Wird ein Data Lake nicht aktiv verwaltet - z.B. über entsprechende Data Governance oder Datenqualitäts-Mechanismen, verwandelt er sich langsam zu einem Datensumpf (data swamp) und verliert an Wert.
Ein Data Lake ist dort sinnvoll, wo viele Nutzende eine große Anzahl an Daten bereitstellen, deren Nutzung noch nicht vollständig definiert ist. Für einen Datenanbieter besteht der Vorteil der Interaktion über einen Data Lake gegenüber einem Data Pool darin, dass er vor dem Hochladen keine Standardisierung vornehmen und die Daten in eine bestimmte Form bringen muss, wobei mit hoher Wahrscheinlichkeit wichtige Informationen wegfallen würden.
Wenn Kommunen oder Unternehmen Daten aus einem Data Lake nutzen möchten, muss eine einheitliche Formatierung und Organisation wie in einem Data Pool geschaffen werden. Hierbei unterstützen offene urbane Datenplattformen, welche viele heterogene Daten in ein einheitliches Format zur Verarbeitung transformieren. Im Falle von DKSR wird die Strukturierung über sogenannte Konnektoren geleistet.