In november 2023 heeft Microsoft aangekondigd dat Microsoft Fabric klaar is voor productiegebruik. Een goed idee, vinden wij bij Beeminds, want Microsoft Fabric is hét dataplatform van Microsoft waar alle toekomstige data-ontwikkelingen op zullen plaatsvinden. Toch zijn er nog twee andere platformen die in de Microsoft cloud afgenomen kunnen worden en die op dit moment - hoe kan het ook anders - meer gebruikers hebben dan Fabric. Wij zetten de verschillen én overeenkomsten graag voor jullie op een rijtje.
Microsoft Fabric: wat is het?
Aangezien Microsoft Fabric 'the new kid on the block' is, begin ik met een korte introductie van dit nieuwe platform. Microsoft Fabric biedt een suite van datadiensten die goed geïntegreerd zijn met elkaar. Deze diensten bestrijken verschillende aspecten van de datareis: van data-ontsluiting tot verwerking en presentatie.
Mocht je geïnteresseerd zijn in wat deze diensten precies inhouden, dan raad ik je aan om de video over Microsoft Fabric van mijn collega Richard Verburg en mijzelf te kijken, waarin we deze diensten één voor één behandelen.
OneLake & Purview zijn belangrijk
Wanneer ik het over Microsoft Fabric heb, heb ik het eigenlijk ook altijd over 'OneLake' en 'Microsoft Purview'. Aangezien de totale kosten & dienst van een Microsoft Fabric implementatie ook mede bepaald worden door deze diensten, lijkt het mij goed om deze ook kort toe te lichten:
OneLake: één centrale data laag waarmee je je data efficiënt kunt opslaan of heen kunt ontsluiten, ongeacht de locatie waar deze data staat.
Microsoft Purview: de centrale tool waarmee je je data governance processen kunt ondersteunen (spoiler: en in de toekomst nog veel meer :-)).
Je ziet dus dat OneLake en Microsoft Purview in feite een essentieel onderdeel uitmaken van Microsoft Fabric en dat in de praktijk deze diensten naadloos met elkaar integreren. OneLake wordt dan ook niet voor niks de 'OneDrive voor je data' genoemd.
De rol van OneLake
In onderstaand overzicht zie je goed hoe OneLake een centrale rol pakt in het creëren van één centraal datalake met al je relevante bedrijfsdata. Microsoft heeft als visie dat ongeacht waar je organisatie, partners of datateams hun data opslaan, je deze kunt ontsluiten via OneLake.
Hierbij is het niet nodig om kopieën te maken van je data, waarbij je wel rekening moet houden dat zelfs OneLake niet vrijgesteld is van natuurwetten. In sommige gevallen zul je - vanwege performance vereisten - alsnog een kopie moeten maken van je data. Met een prijs van ongeveer 0,22 cent per gigabyte per maand zullen de meeste organisaties daar niet heel veel van merken, maar minder duplicatie betekend ook minder complexiteit & onderhoud.
Positionering: Databricks & Snowflake
Microsoft Fabric is dus een dataplatform, net zoals Databricks en Snowflake. Deze platformen concurreren met elkaar, maar de aanvliegroute - of beter gezegd aanvalsroute - van Microsoft is er eentje waarbij we 'het nieuwe Microsoft' van Satya Nadella in de puurste vorm terugzien: namelijk een platform organisatie die sterke partnerships onderhoudt.
Ondanks dat de platformen absoluut gewaagd zijn aan elkaar, kiest Microsoft voor een route waarbij ze primair aangeven dat het niet uitmaakt waar je data staat of welk platform je gebruikt om deze data te beheren. Microsoft Fabric en OneLake zorgen ervoor dat je in controle bent van je data en dat je voor sommige use cases Microsoft Fabric met data in de Azure cloud kunt gebruiken en voor sommige use cases Databricks met data uit AWS of zelfs data in Snowflake kunt onderbrengen welke je vervolgens via Microsoft Purview beheert.
Het partnership tussen Microsoft en Databricks is sterk en we voorzien veel integraties tussen Microsoft Fabric & Databricks. Beide platformen zijn gestandaardiseerd op het 'Parquet/Delta' formaat voor het opslaan van gegevens. Dit is iets wat de uitwisselbaarheid van data sterk ten goede komt: de integratie van Databricks met OneLake maakt het eenvoudig om data verwerkt in Databricks weg te schrijven naar OneLake, en andersom natuurlijk ook. Daarnaast maken beide platformen gebruik van een medallion (data)architectuur waarmee beide platformen hetzelfde gedachtengoed rondom het beheer van je bedrijfsdata omarmen.
Het partnership tussen Microsoft & Snowflake gaat meer over het kunnen gebruiken van het Snowflake platform in de Microsoft Azure cloud en het kunnen beheren van de data die is opgeslagen in het Snowflake platform middels Microsoft Purview. Snowflake is traditioneel gezien een gesloten dataplatform, wat inhoudt dat de mechanismes die ze gebruiken om data mee te verwerken en in op te slaan geen open standaarden zijn. Recent heeft Snowflake wel aangekondigd dat ze open-source 'Iceberg tables' gaan ondersteunen, welke vergelijkbaar zijn met de Delta/parquet ondersteuning van Microsoft Fabric & Databricks. Vooralsnog stapt Snowflake echter nog niet af van haar eigen ontwikkelde standaarden en is dit 'slechts' een toevoeging aan het bestaande platform.
Microsoft kiest dus voor een 'keep your friends close, but your enemies closer' aanpak. Een aanpak die wat mij betreft best nog wel eens goed zou kunnen uitpakken. Veel organisaties hebben in de afgelopen jaren al geïnvesteerd in een nieuw Databricks of Snowflake dataplatform en daar nu alweer afscheid van nemen is niet een eenvoudige beweging vanwege reeds gedane investeringen.
Databricks: Microsoft's favoriet
Het toekomstbeeld van Microsoft is duidelijk: het is prima om meerdere dataplatformen naast elkaar te gebruiken. De kanttekening hierbij is dat je in de meeste toekomstplaten van Microsoft vaker een duale rol voor Microsoft Fabric i.c.m. Databricks ziet, dan Microsoft Fabric i.c.m. Snowflake. Gezien het relatief oude & sterke partnership en de overeenkomsten in de (open) architecturen is dat niet heel erg verrassend.
Eén kiezen? Of meerdere?
Het hebben van meerdere dataplatformen kan wellicht wel op papier, maar toch is de realiteit anders wanneer ik spreek met de meeste CIO's, CDO's of architecten van middelgrote organisaties. Veel van deze organisaties worstelen met de complexiteit die deze platformen met zich meebrengen. Naast de complexiteit kost de overhead van het hebben & onderhouden van meerdere platformen simpelweg gewoon additioneel geld.
Mijn verwachting is dat er dus zeker wel experimenten gedaan zullen worden met meerdere platformen, maar dat een organisatie uiteindelijk een bewuste keuze maakt welk platform zij zal kiezen. Soms zal die keuze - net als bij multi-cloud - bewust voor meerdere platformen zijn, maar ik voorzie dat het merendeel van de organisaties zal willen standaardiseren op één dataplatform.
De verschillen & so what?
Ondanks dat er behoorlijk wat technische & functionele verschillen tussen de platformen aanwezig zijn, verschillen ze ook weer niet heel erg veel van elkaar: alle drie focussen ze zich op het opslaan en verwerken van data.
Er zijn veel blogs geschreven die ingaan op alle onderliggende details, maar mijn standpunt hierbij is dat het voor 95% van de organisaties niet zo heel veel uitmaakt. Alle drie de platformen zijn in staat om grote hoeveelheden gegevens op een veilige manier te verwerken. Daarnaast zijn alle drie de vendoren gerenommeerde namen in de data & analytics wereld en zijn de visies krachtig & onderscheidend te noemen.
De volgende uitleg van de verschillen is sterk gesimplificeerd, maar raakt meestal wel de essentie wanneer ik het heb met organisaties over de keuze:
Microsoft Fabric is een SaaS-dienst waar je geen onderhoud aan hebt en is sterk geïntegreerd met de Microsoft suite en kent veel voordelen - zowel functioneel als qua licentiekosten - wanneer je ook Power BI gebruikt. Het voldoet voor een groot gedeelte aan alle real-time & analytics data-vraagstukken en maakt uitwisselbaarheid van data eenvoudiger door het gebruik van het open-source Delta formaat. Microsoft investeert in veel low/no-code oplossingen om het verwerken van data toegankelijker te maken. Microsoft Fabric maakt gebruik van de open-source Spark engine, maar kan alleen gebruikt worden in de Microsoft cloud. Hierdoor is het een ideale oplossing voor organisaties die een 'Microsoft, tenzij' beleid hanteren.
Databricks is het favoriete dataplatform van menig data engineer en dat komt omdat ze meestal net één stapje voorlopen op de rest voor wat betreft het omarmen van nieuwe functionaliteiten. Het is een 'code-first' platform, waarbij veel zaken via scripts wordt geregeld, waarmee het automatiseren van je dataplatform eenvoudiger wordt. Databricks kan in meerdere clouds worden afgenomen en staat bekend om referentiecases waarbij gigantische hoeveelheden real-time & batch data verwerkt worden door hun platform. Databricks maakt ook gebruik van open-source formats, waaronder Delta en de Spark engine.
Snowflake is een krachtig dataplatform met een eigen engine, bedacht door twee co-founders van Oracle. Snowflake had heel lang een performance-voorsprong op de overige platformen vanwege haar unieke manier van dataopslag. Deze data wordt namelijk in een geoptimaliseerd formaat weggeschreven, waardoor het snel gebruikt kan worden in bijvoorbeeld rapportages. Deze voorsprong is inmiddels enigszins achterhaald door de snelle ontwikkelingen die de overige platformen hebben doorgemaakt, maar deze enorme performance in combinatie met een unieke marketplace die Snowflake aanbiedt voor het uitwisselen van data en het koppelen met publiek beschikbare gegevensbronnen, maakt het nog steeds een interessante oplossing voor organisaties die Databricks net een stapje te technisch vinden. Snowflake kan ook in de AWS en Google clouds gehost worden.
Welk platform voor jouw organisatie het beste is zul je zeker even moeten onderzoeken, zeker wanneer je speciale requirements hebt. In een vorige blog 'Een nieuw dataplatform. En dan?' leg ik uit welke twee vragen je aan jezelf kunt stellen om erachter te komen of je 'speciale' requirements hebt.
Toch adviseer ik je om bovenstaande 'samenvattingen' van de platformen te lezen en op basis hiervan te bepalen of er al een platform afvalt of juist een sterke voorkeur heeft. Hiermee zou je je wel eens veel tijd & energie kunnen besparen.
Ecosysteem & personeel ook relevant
Bij het kiezen van een dataplatform kies je niet alleen voor een technologie, maar voor een ecosysteem van oplossingen en het daarvoor benodigde personeel. Wil je dus gebruik maken van bijv. (managed) diensten rondom data integraties, data kwaliteit, data security of data governance, dan doe je er goed aan om deze ook mee te nemen in je verkenning. Daarnaast is het goed om te kijken naar je huidige personeel of leveranciers, aangezien de skills & ervaring die je nodig hebt vaak daar vandaan moeten komen.
Kosten: appels & peren
Kosten vergelijken tussen de verschillende dataplatformen is - helaas - niet heel eenvoudig. Er zijn verschillende afrekenmodellen en veel van deze modellen zijn gebaseerd op de benodigde rekencapaciteit, welke weer sterk afhankelijk is van jouw requirements, data, de afgenomen modules en... het gekozen platform. Hierdoor is het heel lastig om een goed realistisch vergelijk te maken. Snowflake werkt met credits, databricks met 'Databricks units' en Fabric werkt met capacity units.
De vendoren zelf geven uiteraard aan dat hun eigen platform tot wel 12x goedkoper is dan het alternatief. Helaas zien we ook - mede dankzij de onafhankelijke testen uitgevoerd door de community - dat dit in de praktijk lastig is aan te tonen omdat het afhankelijk is van veel aspecten. Daarnaast heb je als organisatie naast de platformkosten ook te maken met personeelskosten die lastig objectief zijn te plotten op de verschillende platformen.
In mijn ervaring is Microsoft Fabric een 'challenger' qua prijs en is de instap relatief laag (beginnend vanaf +- 250 euro per maand). Snowflake heeft het imago om duur te zijn - zeker wanneer verkeerd gebruikt -, maar daar krijg je wel veel functionaliteiten voor terug. Databricks is een geavanceerd platform en dat zie je ook terug in de (instap)kosten die bijv. minstens 2x zo hoog zijn dan bij Microsoft Fabric.
In een volgende blog zal ik dieper ingaan op wat een dataplatform gemiddeld kost.
Kortom: staar je niet blind op de kostenberekeningen die voor je gedaan worden, maar let er vooral op dat je je dataplatform goed inzet, aangezien een verkeerde data architectuur je significant veel geld kan kosten óf opleveren in deze nieuwe cloud wereld. Cost management is hierbij belangrijker dan ooit.
What about... Azure Synapse Analytics?
Een dataplatform waar je nu minder van hoort is Azure Synapse Analytics, de voorganger van Microsoft Fabric. Het is onofficieel bevestigd dat deze dienst voorlopig wel blijft bestaan en onderhouden wordt, maar het moge duidelijk zijn dat alle nieuwe ontwikkelingen gaan plaatsvinden in Microsoft Fabric.
Het goede nieuws is dat al je data en vrijwel al je pipelines relatief eenvoudig overgezet kunnen worden naar Microsoft Fabric. Recent heeft Microsoft enkele guidelines vrijgegeven over hoe je je organisatie het beste voor kunt bereiden op een (eventuele) migratie welke in onderstaand schema worden weergegeven:
Tip: laat je adviseren en helpen door je huidige dataplatform partner bij de migratie naar Microsoft Fabric of neem contact met Beeminds op voor een vrijblijvende offerte.
De verschillen worden groter
Nog een reden om niet alleen naar de stand van 'vandaag' te kijken wanneer je een dataplatform kiest zijn ontwikkelingen zoals bijv. Microsoft Fabric Copilot. Deze nieuwe functionaliteiten aangedreven door AI zullen een grote impact gaan hebben op hoe organisaties & teams gebruik maken van data.
Een dataplatform is slechts het begin
Uiteraard lost het hebben van een dataplatform niet alles automatisch voor je op. Veel organisaties willen bijvoorbeeld datagedreven worden, maar het hebben van een dataplatform is slechts één element dat daarvoor vaak wordt ingezet. De volgende stappen die je daarna moet zetten licht ik toe in deze blog.
De stappen die na de keuze voor een dataplatform komen worden nog belangrijker met het oog op eerdergenoemde ontwikkelingen zoals bijvoorbeeld Generatieve AI & Copilot. Onderwerpen als datakwaliteit, dataprivacy en data governance verdienen een structurele implementatie binnen organisaties willen ontwikkelingen zoals generatieve AI en Copilots goed tot hun recht komen. Ik schreef hier eerder ook al over in mijn blog 'Innoveren met Data, AI & ChatGPT zonder datamanagement? Dacht het niet!'.
De eindstand: (g)een voorspelling
Welk dataplatform gaat winnen is lastig te voorspellen. Ik denk dat er niet één platform gaat winnen, net zoals er in de public cloud race tussen AWS, Google en Microsoft ook niet echt één winnaar is. En misschien is dat maar goed ook.
Toch denk ik dat de 'new kid on the block' - Microsoft Fabric - een goede kanshebber is om snel heel populair te worden. De functionaliteiten zijn nu al indrukwekkend te noemen, de instap pricing is goed, er zit een win-win in qua kosten wanneer je al Power BI gebruikt of dat wil gaan gebruiken en Microsoft heeft natuurlijk een enorme afze markt met haar Microsoft 365 platform waar Microsoft Fabric tegenwoordig standaard op 'aan staat'.
Het selecteren van een dataplatform is slechts een eerste stap in je hele datareis en feitelijk zijn de meeste doelstellingen met data in de meeste gevallen met elk van de genoemde drie platformen in te vullen.
Zorg er dus voor dat je rekening houdt met de stappen ná de dataplatform keuze en dat je niet té lang stil staat bij het kiezen van een platform. Gedurende die 'stilstand' kun je namelijk slechts beperkt impact maken met data en dat is tenslotte waar het om draait voor een organisatie die meer datagedreven wil worden.
Welk dataplatform heeft jouw voorkeur?
Microsoft Fabric
Databricks
Snowflake
Comments