5 vragen over Fabric aan Sebastiaan van den Brink
Microsoft Fabric, een alles-in-één oplossing voor datagerelateerde activiteiten, is nu live en staat klaar om de wereld van data en AI voor Microsoft-gebruikers te transformeren.
Na maanden van intensieve betrokkenheid en een succesvol project bij FC Groningen, delen we graag onze inzichten over Fabric. Sebastiaan van den Brink, onze Fabric expert, beantwoordt de 5 meest prangende vragen voor organisaties, met of zonder bestaand Microsoft (Azure) platform.
Elke organisatie die Power BI gebruikt, komt sowieso in aanraking met Fabric
Wat maakt Fabric zo bijzonder?
Microsoft Fabric is grotendeels een verzameling van dataproducten die al bestonden als services binnen Microsoft Azure. Het is de alles-in-één oplossing voor alle datagerelateerde activiteiten binnen een dataplatform. Daardoor kun je nu in één omgeving data laden en verwerken, data visualiseren, data live streamen en voorspelmodellen toepassen en trainen.
Voor het opslaan en raadplagen van data maakt Fabric gebruik van het nieuwe Microsoft OneLake (vergelijkbaar met OneDrive). Als organisatie heb je hierin één centraal lake voor al je data in het uniforme bestandsformaat Parquet. Daardoor kunnen alle verschillende dataverwerkingstechnieken met deze data werken. Denk bijvoorbeeld aan je dataverwerking met SQL of visuele dataflows, data science modellen die Python code gebruiken of Power BI rapportages die gegevens uit je datawarehouse inladen en verwerken. Al deze toepassingen kunnen nu putten uit hetzelfde bestand in dezelfde omgeving, zonder extra kopieerslagen van de gegevens te maken of nieuwe services op te tuigen.
Wanneer en waarom zou een organisatie Fabric gebruiken?
Fabric is vooral interessant voor organisaties die verschillende datatoepassingen naast elkaar willen gebruiken. Bijvoorbeeld als je naast management rapportages in Power BI ook werkt met voorspellende AI-modellen en streaming analytics. Doordat je met Fabric je data en je resources nog maar op één plek hoeft vast te leggen, scheelt dit BI consultants en data engineers enorm veel werk. Bovendien waarborg je hiermee dat je als organisatie dezelfde data voor al je dataproducten gebruikt.
Dankzij het alles-in-één karakter kan Fabric organisaties helpen bij het snel opzetten van een complete data-architectuur, waardoor data toegankelijker wordt voor de hele organisatie. Kwestie van een licentie afnemen, eventueel starten met een trial, en de resources kunnen direct worden aangemaakt. Ook kleinere organisaties hebben zo met een enkele, relatief goedkope licentie alle dataverwerkingstechnieken van Microsoft al tot hun beschikking. Net als vele andere Azure-services is Fabric schaalbaar en kan het meegroeien met de vraag.
Zorg ervoor dat je oplossing eenvoudig te migreren is
Moet ik nu meteen overstappen naar Fabric?
We verwachten dat de uitrol van Fabric vergelijkbaar zal zijn met eerdere ontwikkelingen van Microsoft, zoals de verandering van on-premise technieken naar de Azure cloud omgeving. Dat wil zeggen dat je zeker nog een heel aantal jaar voort kan met bestaande oplossingen op Microsoft-services. Maar de focus van Microsoft zal wel komen te liggen op updates en doorontwikkeling van Fabric, waardoor ‘oudere’ producten uiteindelijk achterblijven. Support wordt op den duur eindig en de kennis in de markt beperkter.
Dit zien we nu ook terug bij verouderde on-premise producten. De jongere generatie data engineers wordt hier niet meer in opgeleid en heeft meer interesse in werken met cloud oplossingen. Het is goed mogelijk dat bij de bestaande Azure cloud services een vergelijkbare ontwikkeling zal plaatsvinden. Waarbij nieuwe mogelijkheden voor data- en analysedoeleinden enkel voor Fabric beschikbaar komen en support voor Azure services wordt afgebouwd.
Hiermee zal Microsoft langzaamaan iedereen richting Fabric laten bewegen. Elke organisatie die nu Power BI gebruikt als rapportageomgeving, komt sowieso in aanraking met Fabric. De werkruimten van Power BI staan bijvoorbeeld al in Fabric. Voorlopig verandert dit de bestaande licenties voor Power BI nog niet, maar ook dat zal op termijn gaan veranderen.
Hoe bereid ik me voor op een eventuele migratie naar Fabric?
Bestaand platform
We gaan ervan uit dat je de komende jaren nog gewoon gebruik kunt blijven maken van het platform zoals dat nu is ingericht. Microsoft zelf zal waarschijnlijk met steeds meer migratie-oplossingen komen om een bestaande Azure oplossing naar Fabric over te zetten. Voor de bestaande BI-oplossingen die we als New Nexus bij organisaties hebben neergezet, gaan we onderzoeken hoe we hier een migratiedienst voor kunnen aanbieden.
Wat we in elk geval kunnen garanderen is dat wat in het huidige dataplatform staat, waardevol blijft. Een BI-oplossing bestaat ten minste uit twee onderdelen: een technische component en een manier van modelleren. Het datamodel dat de uiteindelijke business vragen beantwoordt, is techniekonafhankelijk. De techniek waarmee data geladen en getransformeerd wordt, verandert wel.
Om een migratieproces in het algemeen te vergemakkelijken, is het belangrijk dat transformatie van gegevens in code wordt vastgelegd, zoals in SQL queries. Veel klanten van ons gebruiken nu een oplossing met Azure Data Factory, een Azure SQL Database en Power BI. Alle transformatie logica zetten we hier in SQL queries. Hierdoor zal een migratie naar Fabric relatief eenvoudig moeten kunnen verlopen. Waneer je veel gebruik maakt van producten met visuele transformatiestappen, zoals SQL Server Integration Services, Mapping Dataflows of Alteryx, dan zal het meer werk zijn om deze logica om te bouwen in een Fabric omgeving.
Nog te realiseren dataplatform
Sta je op het punt om een nieuw dataplatform op te zetten? Dan is Fabric wellicht nog net te vroeg. Er zijn nog een aantal updates nodig om een volwassen architectuur op te zetten met een ontwikkel-, test- en productie-omgeving die onder versiebeheer staat. Deze zullen in het komende jaar verschijnen. Dus je kunt wachten tot deze updates er zijn of je zorgt ervoor dat de oplossing die neergezet wordt, eenvoudig te migreren is naar Fabric. En dat betekent zoals gezegd transformatiestappen in SQL of Python code en het liefst met een zogenaamde medaillearchitectuur.
Een medaillestructuur bestaat uit drie datalagen: brons, zilver en goud. Je begint met al je data in de bronslaag waar de ruwe gegevens uit verschillende bronsystemen komen. In de zilverlaag wordt alle data naar tabellen in het generieke parquet formaat geschreven en historisch opgeslagen. Deze laag is de basis om transformatielogica op te bouwen, die naar de uiteindelijke goudlaag wordt geladen. In de goudlaag bevindt zich de gestructureerde data die geschikt is voor analysedoeleinden, waarmee antwoord wordt gegeven op de business vragen.
De manier waarop data met Fabric wordt opgeslagen, is compleet anders dan we gewend zijn
Hoe ervaar je het werken met Fabric als dataspecialist?
De afgelopen maanden hebben we ons met een aantal collega’s flink verdiept in Fabric. We gaan graag mee met innovaties dus willen we dit ook goed begrijpen. Voor FC Groningen hebben we onlangs een complete BI-omgeving in Fabric neergezet, van data ontsluiting tot rapportage. Daardoor hebben we Fabric ook echt in de praktijk kunnen ervaren.
Community
Met name de eerste maanden merkten we nog wat kinderziektes in de vorm van traagheid en onverklaarbare bugs en foutmeldingen, maar dit is in het nieuwe jaar al vele malen beter geworden. Zoals met alle producten van Microsoft zie je dat er een enorme community achter zit, waar ook naar wordt geluisterd. Nu de eerste ervaringen bekend zijn, worden die ook meegenomen in de doorontwikkeling van het product; elke maand komen er weer een boel nieuwe updates en mogelijkheden uit.
Vertrouwd
Voor iemand die al gewerkt heeft met de Power BI Service voelt Fabric al meteen heel vertrouwd en herkenbaar. Het gemak van alles op dezelfde plek is erg fijn. Het laden van gegevens met Data Factory, het transformeren in een warehouse met SQL en het schrijven van Python notebooks of Power BI rapporten kan allemaal naast elkaar. Resources heb je heel snel aangemaakt, de compute kracht onder water wordt allemaal voor je geregeld en daarmee ben je meteen klaar om met de data aan de slag te gaan. Daarbij kan alles heel gemakkelijk gedeeld worden met je medegebruikers. Dit geeft vele voordelen in gemak, maar maakt het des te belangrijker om over een goede architectuur na te denken waarmee je wildgroei in je organisatie kunt voorkomen.
Wennen
Een aantal zaken was ook zeker wennen. De manier waarop de data met Fabric wordt opgeslagen, is compleet anders dan we gewend zijn. Bij de slimme delta parquet bestanden wordt de manier van efficiënt opslaan van gegevens en vasthouden van historie en verandering bijvoorbeeld automatisch bepaald. Je bent echter ook beperkter vergeleken met de traditionele databases. Bij traditionele databases kan je nette unieke sleutels genereren en vereisten afdwingen bij tabellen, bijvoorbeeld om te voorkomen dat er duplicaten in je gegevens zitten. Door dit soort verschillen tussen een traditionele database tabel en een Fabric delta tabel in parquet formaat hebben wij onze generieke methode van dataverwerking om moeten bouwen.
Python
Verder valt ons op dat de taal Python een steeds groter onderdeel lijkt te worden van het Business Intelligence vakgebied. Zo zijn de brons- en zilverlaag, die in de zogenaamde lakehouses worden opgeslagen, met name geschikt om – naast de visuele transformatie tools – met Python code uit te lezen en naartoe te schrijven. De BI’er van de toekomst zal dus naast SQL-kennis ook zeker over Python-kennis moeten beschikken.
OTAP
Tot slot mist er zoals genoemd nog de mogelijkheid om de oplossingen die je binnen Fabric ontwikkelt, compleet uit te rollen naar test- en productie-omgevingen en onder versiebeheer te zetten. Dit zijn nog heel belangrijke aspecten voordat je Fabric als centraal dataplatform binnen een grote organisatie wilt gebruiken. We verwachten deze updates in het komende half jaar.
To be continued
Al met al zijn we onder de indruk van Fabric. We zullen alle nieuwe ontwikkelingen nauwlettend blijven volgen én toepassen!