En data lake er et centralt repository der opbevarer rå data i sit oprindelige format, uanset om det er struktureret (tabeller), semi-struktureret (JSON, XML, logs) eller ustruktureret (billeder, video, tekst). I modsætning til et data warehouse, der kræver at data transformeres før indlæsning, accepterer en data lake alle data uden forudgående bearbejdning.
Cloud storage-tjenester som Amazon S3, Azure Data Lake Storage og Google Cloud Storage er de mest brugte fundamenter for data lakes. Disse tilbyder næsten ubegrænset kapacitet til lav pris, med tiered storage der automatisk flytter sjældent brugte data til billigere lagringsniveauer.
Delta Lake, Apache Iceberg og Apache Hudi er open source-tabelformater der tilføjer ACID-transaktioner, schema enforcement og time travel til data lakes. Disse "lakehouse" formater kombinerer data lakens fleksibilitet med data warehousets pålidelighed, hvilket har ført til konceptet "data lakehouse."
Apache Spark er den dominerende compute engine til data lake-behandling. Spark kan behandle terabytes af data parallelt med in-memory beregning og understøtter SQL, Python, Scala og R. Spark Structured Streaming muliggør realtidsbehandling af streaming data.
Data cataloging er kritisk for at undgå at en data lake bliver en "data swamp." Værktøjer som AWS Glue Catalog, Apache Atlas og Alation registrerer metadata, datakvalitet og lineage for alle datasets. Governance-politikker sikrer at følsomme data beskyttes og at adgang logges.
Maskinlæring er et primært use case for data lakes. ML-modeller kræver ofte store mængder rå, granulære data der ikke passer ind i et struktureret warehouse-schema. Feature stores som Feast og Tecton bygger bro mellem data lakes og ML-pipelines.
Databricks Lakehouse Platform og Microsoft Fabric er førende platforme der forener data lake og data warehouse i en samlet arkitektur. Disse platforme giver analytikere SQL-adgang til lakehouse-data, mens data engineers og data scientists arbejder med samme data i Spark og Python.
I Danmark bruger større virksomheder data lakes til IoT-data fra produktion, logfiler fra digitale platforme og som fundament for avancerede analytiske modeller.