13 min

    Søppel inn, søppel ut: Hvorfor datakvalitet avgjør alt for AI

    Datavasking, dataforberedelse og norsk datastyring — Gartner spår at 60 % av AI-prosjekter uten AI-klar data avbrytes innen 2026. Slik bygger norske bedrifter et solid datakvalitetsfundament.

    AI-strategiDatakvalitet
    Søppel inn, søppel ut: Hvorfor datakvalitet avgjør alt for AI

    Søppel inn, søppel ut: Hvorfor datakvalitet avgjør alt for AI

    Datavasking, dataforberedelse og norsk datastyring for pålitelig AI.

    Nøkkelpunkter

    • • 60 % av AI-prosjekter uten AI-klar data vil bli avbrutt innen 2026, og 63 % av organisasjoner mangler riktige datahåndteringspraksiser (Gartner – AI-Ready Data, feb. 2025).
    • • Rundt halvparten av norske statlige virksomheter oppgir dårlig datakvalitet som en konkret utfordring i AI-arbeidet (Riksrevisjonen – KI i statlig sektor).
    • • Norge har unike fordeler: Brønnøysundregistrene, Kartverkets matrikkel og SSBs statistikkbank gir gratis, maskinlesbare referansedata som gjør datakvalitetsarbeid enklere enn i de fleste andre land.

    Nøkkeltall

    60 % ~50 % 63 %
    av AI-prosjekter uten AI-klar data avbrutt innen 2026 norske statlige virksomheter hadde datakvalitet som utfordring av org. mangler riktige datahåndteringspraksiser for AI

    Kilde: Gartner, februar 2025 / Riksrevisjonen – KI i statlig sektor

    Hva er datakvalitet, og hvorfor er det AIs akilleshæl?

    «Garbage in, garbage out» — søppel inn, søppel ut — er kanskje det eldste prinsippet i datavitenskapen, men det har aldri vært mer relevant enn i AI-alderen. Mens tradisjonelle systemer kan tolerere noe støy i dataene, forsterker maskinlæringsmodeller feil systematisk. Samfunnsøkonomisk Analyse (NHO-rapporten) formulerer det presist: «Er det feil i datasettet, blir det feil utfall.»

    Et klassisk eksempel er Amazons rekrutteringsverktøy fra 2018, som systematisk diskriminerte kvinner — ikke fordi algoritmen var defekt, men fordi treningsdataene reflekterte historiske ansettelsesmønstre.

    For Gartner er AI-klar data ikke det samme som «god» data i tradisjonell forstand. AI-klar data må være: tilpasset det spesifikke brukstilfellet, representativ (inkludert kanttilfeller), dynamisk og mulig å oppdatere kontinuerlig, og håndtere nye personvern- og compliance-krav.

    De 6 dimensjonene av datakvalitet

    Dimensjon Definisjon Norsk eksempel AI-konsekvens ved svikt
    NøyaktighetData stemmer med virkelighetenFeil bedriftsadresse i BrregFeilaktige prediksjoner
    FullstendighetIngen manglende verdier i kritiske feltKundeprofiler uten postnummerSkjevhet i modellen
    KonsistensSamme format på tvers av systemerDato: 01.01.24 vs 2024-01-01Krasj i datapipeline
    AktualitetData er oppdatert og relevantUtdaterte kontaktopplysningerUtdaterte anbefalinger
    EntydighetIngen duplikater eller tvetydighetSamme kunde registrert to gangerOvervurdering av segmenter
    SporbarhetKlar opphavsinformasjon (lineage)Ukjent kilde for treningsdataIkke-etterprøvbar AI-beslutning

    Norske gullkilder: Brønnøysundregistrene og folkeregisterdata

    Norske bedrifter har tilgang til to eksepsjonelle referansedatakilder som er langt mer komplette og pålitelige enn det de fleste land kan by på. Å bruke disse aktivt i datakvalitetsarbeidet er et unikt norsk konkurransefortrinn.

    Brønnøysundregistrene (Brreg)

    Brreg har utviklet en AI-policy og bruker selv AI internt — et signal om at registeret er gjort maskinlesbart og API-tilgjengelig. Brreg tilbyr åpent tilgjengelige datasett og API-er med alle norske registrerte foretak.

    Bruk i datakvalitetsarbeid:

    • Validering av organisasjonsnumre i kunderegisteret
    • Standardisering av bedriftsnavn mot offisiell kilde
    • Adressevask og normalisering mot registrert forretningsadresse
    • Berikelse (enrichment) av B2B-data med næringsklassifisering (NACE-kode)
    • Identifikasjon av duplikater via orgnr-matching

    API-endpoint: data.brreg.no/enhetsregisteret/api — gratis, åpent, ingen API-nøkkel påkrevd.

    Folkeregisteret og persondata — med GDPR-forsiktighet

    Folkeregisteret er en av verdens mest nøyaktige personregistre, med pålitelig adresse-, fødselsdato- og familiedata. Men tilgang er strengt regulert under personopplysningsloven og GDPR.

    Hva du faktisk kan gjøre:

    • Validering av norske fødselsnumre (format og kontrollsum)
    • Adressenormalisering mot folkeregisterets struktur
    • Verifisering av aktiv/inaktiv personprofil

    NB: Direkte oppslag i Folkeregisteret krever særskilt hjemmel fra Skatteetaten. De fleste bedrifter bruker heller postleverandørers adressevasktjenester som er godkjent mot registeret.

    Riksrevisjonens funn: Slik sliter norske virksomheter med datakvalitet og KI

    En av de mest relevante norske primærkildene er Riksrevisjonens undersøkelse av KI i statlig sektor. Selv om den undersøker offentlig sektor, er funnene direkte overførbare til norsk næringsliv. Riksrevisjonen konkluderer med at «mangelfull tilgang på data av god kvalitet kan være til hinder for å utvikle og bruke kunstig intelligens.»

    Riksrevisjonens funn vs. privat sektor

    Riksrevisjonens funn Privat sektor-parallell Tiltak
    Mange virksomheter mangler gode, interne dataSalgsdata i regneark i stedet for CRMSentraliser data i ett tilgjengelig system
    Data er ikke digitale eller tilgjengeligePapirarkiver, PDF-fakturaer, ustrukturert e-postDigitalisering og strukturering
    Offentlig sektor deler ikke data mellom virksomheterSilo-data mellom salgsteam, service og finansDatadeling og felles datamodell
    Mangelfull infrastruktur for databehandlingUtdaterte ERP-systemer uten APIModernisering av datainfrastruktur
    Juridiske uklarheter hemmer datadelingUsikkerhet om GDPR ved kundedata til AIJuridisk avklaring + DPIA-gjennomgang

    Kilde: Riksrevisjonen – Undersøkelse av bruk av kunstig intelligens i staten

    Datavasking i praksis: En steg-for-steg-prosess

    Datavasking (data cleaning) er prosessen med å identifisere og rette feil, ufullstendigheter og inkonsistenser i datasett. De fleste datavitere bruker 60–80 % av sin tid på dette — men det er investeringen som gir størst avkastning i AI-prosjekter.

    1. Profilering — forstå dataene dine

    • Kjør statistisk analyse av hvert datafelt: null-verdier (%), unike verdier, distribusjon, min/max
    • Identifiser åpenbare anomalier: datoer i fremtiden, negative priser, ugyldige postnummer
    • Verktøy: Python pandas profiling, Great Expectations, Talend Data Quality

    2. Deduplisering — fjern dobbelregistreringer

    • Match på kombinasjon av felt: navn + adresse + e-post + fødselsdato
    • For norske bedrifter: bruk organisasjonsnummer (9 siffer) som nøkkel — ikke bedriftsnavn
    • Fuzzy matching for navn med stavefeil: «EQUINOR ASA» vs «Equinor asa»

    3. Standardisering — ensrett formater

    • Datoer → ISO 8601: 2025-01-31 (ikke 31.01.25 eller 31/1/2025)
    • Norske telefonnumre → +47XXXXXXXX
    • Adresser → valider og normaliser mot Kartverkets matrikkel eller Posten/Bring adressevalidering

    4. Validering — sjekk mot norske referanseregistre

    • Organisasjonsnumre → valider mot Brreg API (gratis, sanntid)
    • Postnummer → valider mot Postens postnummerregister (gratis nedlasting)
    • Fødselsnumre (hvis relevant og hjemlet) → kontrollsum-validering

    5. Berikelse — legg til manglende kontekst

    • Berik B2B-data med NACE-kode, antall ansatte, omsetning fra Brreg/Proff.no
    • Koble kundeprofiler med geografiske data fra Kartverket (kommune, fylke, region)
    • Legg til SSB-statistikk som kontekstuell data (bransjesnitt, prisindekser, demografikk)

    6. Dokumentasjon og lineage — sporbarhet for AI

    • Logg alle transformasjoner med tidsstempel og ansvarlig person/system
    • Dokumenter datakildens opphav (lineage) for KI-loven og AI Act-etterlevelse
    • Krav til sporbarhet øker under EUs AI Act for høyrisiko-applikasjoner

    Norsk praksis for datastyring (data governance)

    Datastyring er rammeverket av roller, prosesser og standarder som sikrer at data behandles konsistent, pålitelig og i tråd med regelverk. For norske bedrifter er dette uløselig knyttet til personopplysningsloven og GDPR på den ene siden, og EUs kommende Dataforvaltningsforordning (DGA) på den andre.

    Datastyringselementer

    Element Hva det innebærer Norsk forankring
    DataeierskapDefinert ansvar for hvert datasettKrav i GDPR: behandlingsansvarlig og databehandler-roller
    DatakatalogOversikt over alle datasett: hva, hvor, hvem eierAnbefalt av Riksrevisjonen; nasjonalt: data.norge.no
    Datakvalitetsmål (KPIer)Målbare krav: maks 2 % null-verdier i kritiske feltISO 8000 datakvalitetsstandard i norsk industri
    DatalineageSporing av data fra kilde til brukKrav under AI Act for høyrisiko-applikasjoner
    DPIA for AIVurdering av personvernkonsekvenserPlikt etter GDPR Art. 35; Datatilsynets mal

    FAQ: Ofte stilte spørsmål om datakvalitet og AI

    Hva menes med at 60 % av AI-prosjekter vil feile pga. datakvalitet?

    Gartner (februar 2025) predikerer at 60 % av AI-prosjekter som mangler «AI-klar data» vil bli avbrutt innen 2026. AI-klar data er et strengere begrep enn tradisjonelt «god datakvalitet» — det inkluderer sporbarhet, representativitet, aktualitet og compliance-egnethet. Merk: det eldre «85 %-tallet» som sirkulerer er basert på en feilsitert Gartner-prediksjon fra 2018.

    Hva er forskjellen på datavasking og dataforberedelse?

    Datavasking er en del av dataforberedelse. Datavasking (data cleaning) handler om å rette feil i eksisterende data: fjerne duplikater, fylle inn manglende verdier, rette formater. Dataforberedelse (data preparation) er den bredere prosessen som også inkluderer transformasjon, normalisering, feature engineering og splitting i trenings-/testdatasett.

    Trenger vi et personvernombud for å bruke kundedata i AI?

    Ikke nødvendigvis, men det anbefales sterkt. Datatilsynet krever DPIA (vurdering av personvernkonsekvenser) når AI-behandling «sannsynligvis vil medføre høy risiko». Virksomheter med systematisk bruk av personopplysninger til AI bør ha personvernombud.

    Hvordan validerer vi norske adresser programmatisk?

    Tre alternativer: (1) Posten/Brings adressevaliderings-API — kommersiell tjeneste. (2) Kartverkets matrikkel-API — åpent API for offisielle adresser. (3) Brønnøysundregistrenes API for validering av registrert forretningsadresse (gratis).

    Hva er datalineage og hvorfor er det viktig for AI-etterlevelse?

    Datalineage er dokumentasjon av dataenes reise fra opprinnelig kilde, gjennom alle transformasjoner, til endelig bruk i en AI-modell. Under EUs AI Act er datalineage et krav for høyrisiko-systemer — man må kunne bevise hva modellen ble trent på og hvorfor. Verktøy som Apache Atlas, OpenLineage og dbt støtter datalineage.

    Hvor mye tid bør vi sette av til datakvalitet i et AI-prosjekt?

    Industristandarden er 60–80 % av prosjekttiden. En tommelfingerregel: sett av like mye tid til datakvalitet som til alt annet i prosjektet til sammen. Bedrifter som undervurderer dette opplever typisk at piloten fungerer, men at produksjonssetting mislykkes.

    Sjekkliste: Er dere klar for AI-klar data?

    Datakartlegging Datakvalitet Norske referansedata Compliance og GDPR
    Vi vet hvilke datasett vi har og hvor de er lagretVi har profiler av datakvaliteten i kritiske datasettOrgnr validert mot BrregVi har behandlingsgrunnlag for persondata brukt i AI
    Vi har datakatalog eller oversikt over dataeierskapVi vet andelen null-verdier i nøkkelfeltAdresser vasket og normalisertDPIA gjennomført for høyrisiko AI
    Vi kjenner datakildenes opphav og oppdateringsfrekvensDuplikater er identifisert og håndtertPostnummer validert mot Postens registerDatalineage dokumentert for treningsdata

    Konklusjon: Data er selve fundamentet — bygg det riktig

    60 % av AI-prosjekter uten AI-klar data vil bli avbrutt. Det er ikke en spådom — det er Gartners prediksjon basert på faktisk atferd i mer enn tusen organisasjoner. Og Riksrevisjonen bekrefter at norske virksomheter ikke er unntatt.

    Men Norge har unike fordeler: Brønnøysundregistrene med åpne, maskinlesbare API-er, Kartverkets matrikkelsystem, SSBs statistikkbank — alt tilgjengelig gratis. Disse referansedataene gjør det enklere å bygge pålitelige, verifiserte datagrunnlag enn i de fleste andre land.

    Start ikke AI-prosjektet med modellen. Start med dataene. Én måned med systematisk datavasking og -profilering gir mer AI-verdi enn tre måneder med modelloptimalisering.

    Vil du utforske hvordan et solid datakvalitetsfundament kan gjøre din bedrift klar for AI?

    Vi hjelper norske bedrifter med å bygge AI-klar data — fra datavasking til datastyring.

    Book en gratis kartleggingssamtale
    A

    Alura

    Praktisk kunnskap om AI-automatisering og effektivisering for norske bedrifter.