Data lake | Uitleg en definitie - ICTinformatiecentrum.nl

Data lake

  • Wat is een data lake en hoe gebruikt u deze bij data management?
  • Wat is het verschil tussen een data lake en een datawarehouse?

Er is steeds meer data uit steeds meer verschillende bronnen beschikbaar. De hoeveelheid beschikbare data is zelfs zo groot dat u over meer data kunt beschikken, dan waar u op dit moment een toepassing voor heeft. Omdat de kosten voor dataopslag relatief laag zijn, kunt u alle data eenvoudig bewaren. Ook de data die u niet direct gebruikt. De verzamelplaats van die data wordt een data lake genoemd.

Wat is een data lake

De hoeveelheid data neemt toe. Iedere organisatie beschikt over een toenemende hoeveelheid data over klanten, leveranciers, interne bedrijfsprocessen, marktontwikkelingen, financiële transacties of websitebezoek. Vanuit productieprocessen zijn steeds meer gegevens beschikbaar. Social media en andere communicatievormen voegen daar nog veel data aan toe, evenals apparaten die met het internet verbonden zijn (internet of things). Daarnaast is ook vanuit externe bronnen een toenemende hoeveelheid data beschikbaar. Door de combinatie van hoeveelheid, de snelheid waarmee we er iets mee willen doen en grote verscheidenheid waarin deze data voorkomt, spreken we over big data. Zinvol gebruik van deze data is voor analyses die meer inzicht geven in allerlei zaken waar managementbeslissingen over genomen moeten worden.

Voorheen was de beschikbare data voornamelijk gestructureerd. Gestructureerde data kan in logische tabellen worden weergegeven en is afkomstig van operationele systemen, zoals ERP software of CRM software. Met een datawarehouse als centraal verzamelpunt van gestructureerde data uit meerdere systemen, is deze data bruikbaar voor business intelligence en andere data analytics toepassingen. Het grootste deel van alle data die u op dit moment kunt verzamelen is echter ongestructureerd. Hiervoor is een andere databasetechnologie nodig is. Een data lake biedt de oplossing om alle beschikbare data, gestructureerd en ongestructureerd, op te slaan. Zelfs zonder beoogde toepassing, wordt het data lake gevuld met data. Door de lage kosten van dataopslag hoeft de opslag niet direct verbonden te zijn aan een concreet doel. Uw data gebruikt u pas als deze nodig is voor een analyse. De achterliggende onderzoeksvraag daarvan hoeft u nu nog niet te kennen.

Data lake versus datawarehouse

Voor het opslaan van grote hoeveelheden data kunt u kiezen voor een data lake of een datawarehouse. Uw keuze wordt bepaald door het soort data en de manier waarop deze opgeslagen wordt. Bij een data lake gebeurt de opslag zonder speciale structuur. Een enorme hoeveelheid gegevens worden in ruwe en originele vorm centraal opgeslagen. Het idee daarbij is ‘baat het niet, dan schaadt het niet’. Zo staan afbeeldingen naast verkoopcijfers en e-mails naast loggegevens. Een datawarehouse werkt anders en is samengesteld uit data uit specifiek geselecteerde bronnen. Alle gegevens zijn gestructureerd, hebben een vast format en zijn zonder ‘vervuiling’ opgeslagen. Deze zijn hierdoor gemakkelijker te interpreteren en geven sneller antwoord op business intelligence vraagstukken. Bij een data lake is de data niet gestructureerd. Om er iets mee te doen is dan ook al snel de hulp van een specialist nodig. Het ongestructureerde karakter van een data lake biedt voordelen voor datamining en machine learning, al is het in de praktijk vaak lastig om over de enorme hoeveelheid gegevens overzicht te behouden en daarmee de datakwaliteit te waarborgen. Beide oplossingen vergen onderhoud en brengen kosten met zich mee.

Waarom toepassen?

Een data lake kan alle informatie bevatten waarover u beschikt en is een combinatie van geordende databases, op zichzelf weinigzeggende losse bestanden en alles daar tussenin. Het gebrek aan structuur biedt voordelen bij het zoeken naar verbanden tussen verschillende databronnen door middel van machine learning. De oplossing wordt niet beperkt door de vaste structuur, die datawarehouses wel hebben. Hierdoor is een data lake een experimentele plek, waar u bijna grenzeloos uw data kunt onderzoeken, om zo tot nieuwe inzichten te komen. Het is een extra opslaglocatie om naast bestaande databases te gebruiken. Databases worden er echter niet door vervangen.

Wat bepaalt de keuze?

Er valt niet de zeggen dat de één een betere oplossing is dan de andere. Wat het beste is, verschilt per organisatie en is afhankelijk van het doel. Er bestaan voldoende analyse oplossingen voor zowel datawarehouses als data lakes. Heeft u vooral behoefte aan overzichtelijke en eenduidige informatie om te gebruiken voor BI tools en datavisualisatie, dan is een datawarehouse een voor de hand liggende keuze. Als u wilt beschikken over veel ongeordende data voor geavanceerde analyses door middel van machine learning, dan is een data lake een betere oplossing. Beide opties hoeven elkaar niet uit te sluiten. U kunt ook kiezen voor oplossingen waarbij een datawarehouse en data lake naast elkaar bestaan en beide optimaal benut worden in hun eigen specialisme.