In deze reeks van (tech)blogs neem ik jullie op een simpele & praktische wijze mee in de wereld van datagovernance aan de hand van real-life use cases die ik tegenkom bij organisaties tijdens mijn dagelijks werk.
Simpel omdat ik zie dat producten rondom dit onderwerp de materie vaker complexer maken dan deze daadwerkelijk is.
Praktisch omdat ik concrete voorbeelden ga geven hoe je het kunt inzetten binnen je organisatie. Ik ga daarvoor de populaire data governance dienst — Microsoft Purview — gebruiken.
Waarom juist deze blog?
Er zijn al veel goede technologie blogs over Microsoft Purview geschreven. Door Microsoft zelf, maar ook door collega’s uit de community. Ik zal daar dan ook regelmatig naar verwijzen.
Ik ga mij met deze reeks met name richten op de uitwerking van concrete voorbeelden en laten zien hoe je de technologie inzet, in plaats van de daadwerkelijke inrichting. Ik hoop hiermee een aanvulling te zijn op de reeds aanwezige artikels rondom ons mooie vakgebied en anderen te inspireren.
Mocht je feedback of interesse in een bepaald onderwerp hebben, laat me dat gerust weten! Feedback is een cadeautje :-)
Overzicht van alle real-life use cases (TLDR)
In het volgende hoofdstuk volgt meer context & uitleg, maar hier hou ik een lijst bij met een link naar de verschillende scenario’s. Ik zal deze lijst ook bijwerken.
Veilig data delen met (keten)partners
More coming soon…! Staat een onderwerp dat je nieuwsgierig maakt er nog niet bij? Laat het me weten; die uitdaging ga ik graag aan!
First things first… Microsoft Purview…?
Microsoft Purview is een verzamelnaam van diensten van Microsoft die te maken hebben met data security & compliancy. Om dit goed te kunnen inrichten heb je data governance nodig. In deze blog ga ik mij richten op dit laatste onderwerp.
De reden waarom ik Microsoft Purview gekozen heb en niet een andere data (governance) oplossing zoals Collibra, Unity Catalog of Snowflake is simpel, maar vereist wel enige uitleg aangezien Microsoft Purview zeker niet de enige dan wel beste oplossing is.
Microsoft binnen Nederland
Microsoft is een sterke speler in de Data Analytics wereld (ookwel BI genoemd) en heeft een enorme footprint met haar Azure en SQL Server platform binnen veel Nederlandse organisaties. Ondanks dat we al jaren praten over datagedreven werken, zie ik dat de daadwerkelijke impact binnen het merendeel van de bedrijven nog relatief beperkt is. Ik heb het dan niet over de top-100 bedrijven in Nederland met enorme (innovatie) budgetten, maar over de bedrijven die net een maatje kleiner zijn.
Met de recente ontwikkelingen op het gebied van AI (denk aan OpenAI & ChatGPT) en de adoptie van cloud platformen denk ik dat we aan de vooravond staan van echte doorbraken bij het inzetten van data binnen “de rest” van de Nederlandse organisaties. Tel daarbij op dat data veiligheid & data privacy mede door de toenemende cybercriminaliteit & wet- en regelgeving ook steeds een belangrijker topic is geworden binnen elke organisatie, en je hebt de verklaring waarom o.a. Gartner zegt dat bedrijven in de komende jaren veel (moeten) gaan investeren in data management & datagovernance.
Hierbij is mijn verwachting dat veel organisaties niet voor een punt-oplossing gaan kiezen, maar kiezen voor een holistische oplossing die goed integreert met hun bestaande (cloud) omgeving en afgenomen kan worden als een pay-as-you-go dienst die continue doorontwikkeld wordt. Laat dat nu precies de visie van Microsoft zijn waar Microsoft Purview een invulling aan geeft.
Data Governance randvoorwaardelijk bij succesvol inzetten van data
Er zijn veel verschillende manieren om data governance te beschrijven & in te richten: van één centraal data governance orgaan tot een moderne decentrale data-driven data mesh benadering. Daar ga ik het in deze blog niet over hebben.
Wel wil ik de essentie waarom data governance belangrijk is belichten. Ongeacht hoe je data governance implementeert binnen je organisatie of met welke tooling je deze inrichting ondersteund, is het een essentieel onderdeel bij het succesvol inzetten van data binnen je organisatie. Ik gebruik graag de volgende definitie:
“Data governance zorgt ervoor dat je organisatie weet welke data je allemaal hebt & waar je die kunt vinden, waar je deze data allemaal voor kunt & mag gebruiken en dat dit op een voor jouw organisatie relevante & gecontroleerde wijze gebeurt”.
In bovenstaande uitleg zitten onderwerpen als data security, data privacy en data kwaliteit ook verweven. Ik schreef eerder al eens een blog over (het verschil tussen) data management & datagovernance, aangezien ik zie dat daar veel misverstand tussen bestaat.
Use case 1 — Gegevens delen met externen & (keten)partners
De tijd dat (gevoelige) data je organisatie niet mag verlaten is voorbij. We leven in een wereld waarin het uitwisselen van data steeds vaker nodig of zelfs noodzakelijk is. Tegelijkertijd nemen de veiligheidsrisico’s en ook de (data) regulering toe, waardoor er toch vaak terughoudendheid en zelfs onwetendheid bestaat wanneer het gaat over het uitwisselen van data buiten de grenzen van je eigen organisatie.
E-mail & FTP
In de situaties dat het noodzakelijk is om data aan te leveren wordt dat vaak via FTP, steeds vaker via API’s maar ook nog steeds via e-mail gedaan, rechtstreeks vanuit de operationele systemen. Er zijn tal van argumenten te bedenken waarom dit niet wenselijk of zelfs onveilig is, maar twee belangrijke argumenten worden vaak vergeten:
Je hebt geen (centraal) overzicht van alle aanleveringen en je weet dus ook niet of ze (verkeerd) uitgevoerd worden
Je maakt geen gebruik van de voordelen van de data uit je data analytics omgeving (denk bijv. aan de verhoogde data kwaliteit)
Het is onbetwistbaar dat de data in een data analytics omgeving vaak van hogere kwaliteit is en een completer beeld bevat van de waarheid. Denk aan klantgegevens die verrijkt, geconsolideerd & gevalideerd zijn.
API’s & Data Analytics omgevingen
Natuurlijk, API’s zijn dé manier om gegevens uit te wisselen, zowel binnen als buiten je organisatie. Toch zie ik dat er in de praktijk scenario’s voorkomen waarbij een API niet altijd de beste of meest voordehandliggende oplossing is. Dit zijn scenario’s waarbij:
Grote hoeveelheden data aangeleverd moeten worden;
Periodieke aanleveringen (bijv. 1x per maand);
Processen waarbij de realisatie van een API als “overkill” gezien wordt;
Er nog een handmatige controle dient plaats te vinden voordat de gegevensset definitief wordt aangeleverd.
Voor zulke scenario’s zou ik elke organisatie willen aanmoedigen om te overwegen om deze aanleveringen vanuit je data analytics omgeving te laten plaatsvinden. Reverse ETL noemen we dat.
Vaak zitten de gegevens die je moet aanleveren al in een leesbaar formaat, gecontroleerd & gevalideerd in je data analytics omgeving en is de stap om deze periodiek, in een specifiek formaat en met een controlestap aan te leveren, een relatief eenvoudige. Daarnaast heb je vaak al een ETL proces & tool operationeel waarmee het relatief eenvoudig is om een bepaalde dataset klaar te zetten en aan te leveren.
Purview Data Sharing voor gecontroleerd data delen
Een oplossing waarbij je én gebruik maakt van je reeds gedane investering in je data analytics omgeving én je data governance & data management borgt, is Purview Data Sharing.
Middels deze oplossing kun je op een gecontroleerde wijze een kopie of zelfs ‘in-place’ data delen met andere organisaties of gebruikers. Dit kunnen andere bedrijfsonderdelen, aandeelhouders, joint-ventures, fusie-organisaties, (keten)partners of zelfs volledige losstaande organisaties zijn waarmee je samenwerkt. Wanneer je kiest voor de in-place mogelijkheid, kun je zelfs data delen zonder dat deze je organisatie ooit verlaat.
Het grootste voordeel hiervan is dat je inzichtelijk hebt welke data je met wie gedeeld hebt en dat je de toegang tot deze data ook weer kunt intrekken.
Hoe werkt het?
Je zet de dataset die je wil delen klaar in een Data Lake.
Je voegt deze dataset toe aan Microsoft Purview. Wanneer je Purview goed hebt ingesteld wordt deze dataset automatisch herkend en opgenomen in je ‘data catalog’.
Je maakt een nieuwe ‘share’ aan waarin je duidelijk aangeeft wat het doel is van deze gegevensuitwisseling.
Vervolgens voeg je de data (‘assets’) toe aan deze ‘share’.
Je voegt de gebruikers toe die toegang moeten krijgen tot deze ‘share’ en eventueel een vervaldatum waarop de permissies weer ingetrokken moeten worden (je kunt er ook voor kiezen om de data niet met één gebruiker te delen, maar op een vooraf afgesproken plek in de tenant van een organisatie middels een tenant-id).
De ‘share’ wordt gevalideerd middels een (geldig) e-mailadres en een code.
Klaar! De ontvangende partij krijgt een e-mail met een bevestiging en kan de ‘share’ terug zien in zijn of haar eigen Purview omgeving:
Wil je meer weten over je Purview Data Sharing inricht? Bekijk dan de blog van Erwin de Kreuk die je stap-voor-stap uitlegt hoe je de inrichting doet. Of bekijk de duidelijke documentatie van Microsoft zelf.
Data Lineage volledig inzichtelijk
Sinds maart 2023 is het mogelijk om de gedeelde data end-to-end inzichtelijk te maken via de Data Lineage weergave die Microsoft Purview biedt. Hiermee is het mogelijk om vanuit meerdere invalshoeken naar gedeelde data te kijken. Denk aan:
Welke data wissel ik allemaal uit met een bepaalde partner?
Op welke plekken deel ik bijv. patiëntgegevens met partners?
Een mooie bonus wanneer de ontvangende partij ook gebruik maakt van Microsoft Purview is dat deze gegevens automatisch worden opgenomen in de Data Catalogus van die organisatie en geclassificeerd worden als gegevens die afkomstig zijn uit een ‘share’, zoals ook te zien is in onderstaande afbeelding.
Geen additionele kosten
Deze Microsoft Purview Data Share functionaliteit kent geen additionele kosten als je organisatie al Microsoft Purview gebruikt. Wil je de functionaliteit uitproberen en de kosten van Purview zo laag mogelijk houden? Check dan vooral eens de blog van Wolfgang Strasser: One Way to Try Microsoft Purview (Data Governance) for ‘Free’
De toekomst van data delen?
Is de Data Share functionaliteit perfect? Nee, maar welke functionaliteit is dat wel in het begin? Data Share is nog in preview en zal in de komende maanden nog verder uitgebreid worden.
Mijn favoriete gewenste uitbreiding? Zorg ervoor dat Data Sharing context-aware wordt! In Microsoft Purview kun je namelijk gegevens classificeren. Hoe mooi zou het zijn als we daar iets mee kunnen doen bij het wel of niet delen van data.
Samengevat: eenvoudige & gecontroleerde gegevensuitwisseling
Samengevat is het middels Microsoft Purview Data Share mogelijk om op een gecontroleerde wijze gegevens uit te wisselen met andere partijen. Hierdoor centraliseer je je gegevensuitwisselingen in je data platform en kun je dit beter inzichtelijk & controleerbaar maken. Laaghangend fruit dus!
Feedback? Vragen? Meer informatie?
Ondanks dat dit geen commerciële blog is, ben ik als een van de oprichters van Beeminds wel dagelijks bezig om data uitdagingen voor organisaties eenvoudiger te maken en data implementaties te versnellen. Wil je ook gebruik maken van deze versnelling? Neem dan een kijkje op onze website of neem rechtstreeks contact met me op.
Deze blog is als eerste gepubliceerd op https://medium.com/@sdaelemans/real-life-data-governance-met-microsoft-purview-veilig-data-delen-met-keten-partners-17ed55e8199a
Commentaires