Vad är ett datalager?

Många organisationer samlar idag stora mängder data från sina affärssystem, CRM-plattformar, ekonomisystem och HR-verktyg. Men att samla in data i sig skapar inte värde utan värdeskapandet sker när data görs tillgänglig, begriplig och pålitlig för olika beslutsfattare inom organisationen.

Vad är egentligen ett datalager?

Ett datalager (data warehouse) är en central lagringsplats som är utformad för att lagra, organisera och analysera stora mängder data från olika affärssystem. Data kan komma ifrån transaktionssystem, relationsdatabaser eller andra externa datakällor. I datalagret bearbetas och transformeras informationen till ett enhetligt format som är redo för analys.

Till skillnad från operativa databaser, som är optimerade för att registrera transaktioner i realtid, är datalagret byggt och organiserat för att kunna ge insikter. Det gör det möjligt att hämta, lagra och söka information på ett sätt som stödjer allt från interaktiva dashboards och BI-verktyg till analyser i Excel eller Power BI. Datalagret kan användas för att besvara frågor som "Hur har försäljningen utvecklats per kund de senaste tolv månaderna?"

Genom att samla information från hela organisationen på ett ställe får verksamheten en helhetsbild som annars är svår att uppnå när data ligger utspridd i separata system. När data är samlad och organiserad från flera olika system ges vi möjlighet till bättre analyser och beslutsunderlag.

Men för att ett datalager faktiskt ska bli användbart krävs en genomtänkt modell för hur data struktureras. För det finns det olika metoder och det är här Kimball-metoden kommer in.

Kimball-metoden: dimensionell modellering i praktiken

Det finns flera sätt att organisera och strukturera data i ett datalager. De två mest kända metoderna som står mot varandra inom datalagring är Ralph Kimballs dimensionella ansats och Bill Inmons företagsövergripande, normaliserade modell.

Kimballs metod bygger på att skapa mindre, fokuserade datalager för varje affärsområde eller process. Detta för att göra det lätt för beslutsfattare att analysera data. Inmons metod fokuserar snarare på att först skapa ett fullständigt och normaliserat företagsdatalager som sedan kan användas för olika analysändamål.

I praktiken väljer många organisationer Kimball för att få en snabbare leverans, mer lättillgängliga analyser och affärsnära rapporter. Inmons metod kan vara mer lämplig när man behöver maximera datakvalitet och enhetlighet eftersom det blir en företagsövergripande lösning. Valet beror på organisationens behov, resurser och ambitionsnivå för datalagring.

Stjärnschemat – hjärtat i Kimball

Kärnan i Kimballs metodik är det så kallade stjärnschemat (star schema) som ger en god överblick över modellen. I mitten finns en central faktatabell som omges av ett antal dimensionstabeller likt en stjärna, därav namnet star schema. Kortfattat beskriver Kimball Group en fyrstegsprocess för att designa en dimensionell modell.

Bimballs fyrstegsprocess

Från process till modell

Resultatet av fyrstegsprocessen är det så kallade stjärnschemat som är den datamodell som ligger till grund för hur data organiseras i ett Kimball-baserat datalager. Modellen gör det möjligt för beslutsfattare att skapa rapporter och analyser direkt i affärstermer som till exempel "visa total försäljning per produktkategori och månad" utan att behöva tänka på databasens underliggande struktur.

Stjärnschemat har fått sitt namn från sin visuella form. I mitten ligger faktatabellen som innehåller de mätbara värden vi definierade i steg fyra, exempelvis omsättning, antal order och kostnader. Runt faktatabellen ligger dimensionstabellerna som vi kartlade i steg tre. Det är dessa dimensioner som ger siffrorna sitt sammanhang och svarar på frågorna vem, vad, var, när och hur.

I bilden nedan ser vi hur ett stjärnschema kan se ut i praktiken för en försäljningsprocess med dimensionerna tid, kund, produkt, organisation, geografi och säljkanal.

Stjärnschema-1

Varför Kimball fungerar så bra

Kimballs metodik har flera tydliga fördelar.

Snabbare leverans
Metoden bygger på en iterativ strategi där man fokuserar på en affärsprocess i taget istället för att försöka skapa ett övergripande datalager för alla processer på en gång. Det gör att den första lösningen kan vara i drift betydligt snabbare.

Affärsnära modellering
Dimensionella modeller är utformade så att de speglar hur beslutsfattare inom företaget faktiskt resonerar. En säljchef pratar om kunder, produkter och perioder och behöver inte hantera tekniska databastermer. Det gör att rapporter och analyser blir lättare att förstå och snabbare accepteras av användarna.

Snabbare analyser
Strukturen gör det enklare att ställa frågor och generera rapporter eftersom databasen är optimerad för analys. Det innebär att svarstiderna blir kortare och dashboards fungerar smidigare.

Gemensam bild av verksamheten
Genom att använda samma definitioner av exempelvis kunder eller produkter över hela datalagret får alla i organisationen en konsekvent bild av verksamheten. Det minskar risken för missförstånd och ger ett pålitligt underlag för beslut.

Lätt att utveckla
Modellen är byggd så att fler mätvärden och nya perspektiv kan läggas till utan att påverka de rapporter och analyser som redan används. Det betyder att datalagret kan växa i takt med verksamhetens behov, till exempel när nya produkter, marknader eller nyckeltal ska analyseras.

Att förstå metodiken är ett steg, men att omsätta den i en fungerande lösning kräver både erfarenhet och en god förståelse för verksamhetens behov.

Vår erfarenhet

På BI Partner har vi hjälpt många organisationer att skapa datalager enligt Kimballs metodik. Vår erfarenhet visar att ett välstrukturerat datalager inte bara lagrar data utan gör den tillgänglig och meningsfull för hela organisationen, från controllers till ledningsgrupper.

När en kund har ett tydligt behov kartlägger vi den bakomliggande affärsprocessen och hur den bäst kan modelleras för att skapa en användbar lösning. I vår arbetsprocess fokuserar vi på att snabbt identifiera vilka affärsprocesser som är viktiga, vilka perspektiv och dimensioner som behövs och vilken typ av rapporter som ska tas fram.

Samtidigt balanserar vi behovet av flexibilitet för framtida analyser med målet att leverera en fungerande modell och de första rapporterna så snabbt som möjligt. Resultatet blir ett första datalager som samlar information från exempelvis ekonomi- och HR-system på ett strukturerat och pålitligt sätt. Därefter utökar vi successivt med fler datakällor och analysområden allteftersom verksamhetens behov växer.

I nästa inlägg går vi djupare in på hur vi praktiskt bygger datalager som håller, från ETL-processer och datakvalitet, till varför allt fler väljer ett externt datalager.

Vad är ett datalager?