Søppel inn, søppel ut: Hvorfor datakvalitet avgjør alt for AI

Datavasking, dataforberedelse og norsk datastyring for pålitelig AI.

Nøkkelpunkter

• 60 % av AI-prosjekter uten AI-klar data vil bli avbrutt innen 2026, og 63 % av organisasjoner mangler riktige datahåndteringspraksiser (Gartner – AI-Ready Data, feb. 2025).
• Rundt halvparten av norske statlige virksomheter oppgir dårlig datakvalitet som en konkret utfordring i AI-arbeidet (Riksrevisjonen – KI i statlig sektor).
• Norge har unike fordeler: Brønnøysundregistrene, Kartverkets matrikkel og SSBs statistikkbank gir gratis, maskinlesbare referansedata som gjør datakvalitetsarbeid enklere enn i de fleste andre land.

Nøkkeltall

60 %	~50 %	63 %
av AI-prosjekter uten AI-klar data avbrutt innen 2026	norske statlige virksomheter hadde datakvalitet som utfordring	av org. mangler riktige datahåndteringspraksiser for AI

Kilde: Gartner, februar 2025 / Riksrevisjonen – KI i statlig sektor

Hva er datakvalitet, og hvorfor er det AIs akilleshæl?

«Garbage in, garbage out» — søppel inn, søppel ut — er kanskje det eldste prinsippet i datavitenskapen, men det har aldri vært mer relevant enn i AI-alderen. Mens tradisjonelle systemer kan tolerere noe støy i dataene, forsterker maskinlæringsmodeller feil systematisk. Samfunnsøkonomisk Analyse (NHO-rapporten) formulerer det presist: «Er det feil i datasettet, blir det feil utfall.»

Et klassisk eksempel er Amazons rekrutteringsverktøy fra 2018, som systematisk diskriminerte kvinner — ikke fordi algoritmen var defekt, men fordi treningsdataene reflekterte historiske ansettelsesmønstre.

For Gartner er AI-klar data ikke det samme som «god» data i tradisjonell forstand. AI-klar data må være: tilpasset det spesifikke brukstilfellet, representativ (inkludert kanttilfeller), dynamisk og mulig å oppdatere kontinuerlig, og håndtere nye personvern- og compliance-krav.

De 6 dimensjonene av datakvalitet

Dimensjon	Definisjon	Norsk eksempel	AI-konsekvens ved svikt
Nøyaktighet	Data stemmer med virkeligheten	Feil bedriftsadresse i Brreg	Feilaktige prediksjoner
Fullstendighet	Ingen manglende verdier i kritiske felt	Kundeprofiler uten postnummer	Skjevhet i modellen
Konsistens	Samme format på tvers av systemer	Dato: 01.01.24 vs 2024-01-01	Krasj i datapipeline
Aktualitet	Data er oppdatert og relevant	Utdaterte kontaktopplysninger	Utdaterte anbefalinger
Entydighet	Ingen duplikater eller tvetydighet	Samme kunde registrert to ganger	Overvurdering av segmenter
Sporbarhet	Klar opphavsinformasjon (lineage)	Ukjent kilde for treningsdata	Ikke-etterprøvbar AI-beslutning

Norske gullkilder: Brønnøysundregistrene og folkeregisterdata

Norske bedrifter har tilgang til to eksepsjonelle referansedatakilder som er langt mer komplette og pålitelige enn det de fleste land kan by på. Å bruke disse aktivt i datakvalitetsarbeidet er et unikt norsk konkurransefortrinn.

Brønnøysundregistrene (Brreg)

Brreg har utviklet en AI-policy og bruker selv AI internt — et signal om at registeret er gjort maskinlesbart og API-tilgjengelig. Brreg tilbyr åpent tilgjengelige datasett og API-er med alle norske registrerte foretak.

Bruk i datakvalitetsarbeid:

Validering av organisasjonsnumre i kunderegisteret
Standardisering av bedriftsnavn mot offisiell kilde
Adressevask og normalisering mot registrert forretningsadresse
Berikelse (enrichment) av B2B-data med næringsklassifisering (NACE-kode)
Identifikasjon av duplikater via orgnr-matching

API-endpoint: data.brreg.no/enhetsregisteret/api — gratis, åpent, ingen API-nøkkel påkrevd.

Folkeregisteret og persondata — med GDPR-forsiktighet

Folkeregisteret er en av verdens mest nøyaktige personregistre, med pålitelig adresse-, fødselsdato- og familiedata. Men tilgang er strengt regulert under personopplysningsloven og GDPR.

Hva du faktisk kan gjøre:

Validering av norske fødselsnumre (format og kontrollsum)
Adressenormalisering mot folkeregisterets struktur
Verifisering av aktiv/inaktiv personprofil

NB: Direkte oppslag i Folkeregisteret krever særskilt hjemmel fra Skatteetaten. De fleste bedrifter bruker heller postleverandørers adressevasktjenester som er godkjent mot registeret.

Riksrevisjonens funn: Slik sliter norske virksomheter med datakvalitet og KI

En av de mest relevante norske primærkildene er Riksrevisjonens undersøkelse av KI i statlig sektor. Selv om den undersøker offentlig sektor, er funnene direkte overførbare til norsk næringsliv. Riksrevisjonen konkluderer med at «mangelfull tilgang på data av god kvalitet kan være til hinder for å utvikle og bruke kunstig intelligens.»

Riksrevisjonens funn vs. privat sektor

Riksrevisjonens funn	Privat sektor-parallell	Tiltak
Mange virksomheter mangler gode, interne data	Salgsdata i regneark i stedet for CRM	Sentraliser data i ett tilgjengelig system
Data er ikke digitale eller tilgjengelige	Papirarkiver, PDF-fakturaer, ustrukturert e-post	Digitalisering og strukturering
Offentlig sektor deler ikke data mellom virksomheter	Silo-data mellom salgsteam, service og finans	Datadeling og felles datamodell
Mangelfull infrastruktur for databehandling	Utdaterte ERP-systemer uten API	Modernisering av datainfrastruktur
Juridiske uklarheter hemmer datadeling	Usikkerhet om GDPR ved kundedata til AI	Juridisk avklaring + DPIA-gjennomgang

Kilde: Riksrevisjonen – Undersøkelse av bruk av kunstig intelligens i staten

Datavasking i praksis: En steg-for-steg-prosess

Datavasking (data cleaning) er prosessen med å identifisere og rette feil, ufullstendigheter og inkonsistenser i datasett. De fleste datavitere bruker 60–80 % av sin tid på dette — men det er investeringen som gir størst avkastning i AI-prosjekter.

1. Profilering — forstå dataene dine

Kjør statistisk analyse av hvert datafelt: null-verdier (%), unike verdier, distribusjon, min/max
Identifiser åpenbare anomalier: datoer i fremtiden, negative priser, ugyldige postnummer
Verktøy: Python pandas profiling, Great Expectations, Talend Data Quality

2. Deduplisering — fjern dobbelregistreringer

Match på kombinasjon av felt: navn + adresse + e-post + fødselsdato
For norske bedrifter: bruk organisasjonsnummer (9 siffer) som nøkkel — ikke bedriftsnavn
Fuzzy matching for navn med stavefeil: «EQUINOR ASA» vs «Equinor asa»

3. Standardisering — ensrett formater

Datoer → ISO 8601: 2025-01-31 (ikke 31.01.25 eller 31/1/2025)
Norske telefonnumre → +47XXXXXXXX
Adresser → valider og normaliser mot Kartverkets matrikkel eller Posten/Bring adressevalidering

4. Validering — sjekk mot norske referanseregistre

Organisasjonsnumre → valider mot Brreg API (gratis, sanntid)
Postnummer → valider mot Postens postnummerregister (gratis nedlasting)
Fødselsnumre (hvis relevant og hjemlet) → kontrollsum-validering

5. Berikelse — legg til manglende kontekst

Berik B2B-data med NACE-kode, antall ansatte, omsetning fra Brreg/Proff.no
Koble kundeprofiler med geografiske data fra Kartverket (kommune, fylke, region)
Legg til SSB-statistikk som kontekstuell data (bransjesnitt, prisindekser, demografikk)

6. Dokumentasjon og lineage — sporbarhet for AI

Logg alle transformasjoner med tidsstempel og ansvarlig person/system
Dokumenter datakildens opphav (lineage) for KI-loven og AI Act-etterlevelse
Krav til sporbarhet øker under EUs AI Act for høyrisiko-applikasjoner

Norsk praksis for datastyring (data governance)

Datastyring er rammeverket av roller, prosesser og standarder som sikrer at data behandles konsistent, pålitelig og i tråd med regelverk. For norske bedrifter er dette uløselig knyttet til personopplysningsloven og GDPR på den ene siden, og EUs kommende Dataforvaltningsforordning (DGA) på den andre.

Datastyringselementer

Element	Hva det innebærer	Norsk forankring
Dataeierskap	Definert ansvar for hvert datasett	Krav i GDPR: behandlingsansvarlig og databehandler-roller
Datakatalog	Oversikt over alle datasett: hva, hvor, hvem eier	Anbefalt av Riksrevisjonen; nasjonalt: data.norge.no
Datakvalitetsmål (KPIer)	Målbare krav: maks 2 % null-verdier i kritiske felt	ISO 8000 datakvalitetsstandard i norsk industri
Datalineage	Sporing av data fra kilde til bruk	Krav under AI Act for høyrisiko-applikasjoner
DPIA for AI	Vurdering av personvernkonsekvenser	Plikt etter GDPR Art. 35; Datatilsynets mal

FAQ: Ofte stilte spørsmål om datakvalitet og AI

Hva menes med at 60 % av AI-prosjekter vil feile pga. datakvalitet?

Gartner (februar 2025) predikerer at 60 % av AI-prosjekter som mangler «AI-klar data» vil bli avbrutt innen 2026. AI-klar data er et strengere begrep enn tradisjonelt «god datakvalitet» — det inkluderer sporbarhet, representativitet, aktualitet og compliance-egnethet. Merk: det eldre «85 %-tallet» som sirkulerer er basert på en feilsitert Gartner-prediksjon fra 2018.

Hva er forskjellen på datavasking og dataforberedelse?

Datavasking er en del av dataforberedelse. Datavasking (data cleaning) handler om å rette feil i eksisterende data: fjerne duplikater, fylle inn manglende verdier, rette formater. Dataforberedelse (data preparation) er den bredere prosessen som også inkluderer transformasjon, normalisering, feature engineering og splitting i trenings-/testdatasett.

Trenger vi et personvernombud for å bruke kundedata i AI?

Ikke nødvendigvis, men det anbefales sterkt. Datatilsynet krever DPIA (vurdering av personvernkonsekvenser) når AI-behandling «sannsynligvis vil medføre høy risiko». Virksomheter med systematisk bruk av personopplysninger til AI bør ha personvernombud.

Hvordan validerer vi norske adresser programmatisk?

Tre alternativer: (1) Posten/Brings adressevaliderings-API — kommersiell tjeneste. (2) Kartverkets matrikkel-API — åpent API for offisielle adresser. (3) Brønnøysundregistrenes API for validering av registrert forretningsadresse (gratis).

Hva er datalineage og hvorfor er det viktig for AI-etterlevelse?

Datalineage er dokumentasjon av dataenes reise fra opprinnelig kilde, gjennom alle transformasjoner, til endelig bruk i en AI-modell. Under EUs AI Act er datalineage et krav for høyrisiko-systemer — man må kunne bevise hva modellen ble trent på og hvorfor. Verktøy som Apache Atlas, OpenLineage og dbt støtter datalineage.

Hvor mye tid bør vi sette av til datakvalitet i et AI-prosjekt?

Industristandarden er 60–80 % av prosjekttiden. En tommelfingerregel: sett av like mye tid til datakvalitet som til alt annet i prosjektet til sammen. Bedrifter som undervurderer dette opplever typisk at piloten fungerer, men at produksjonssetting mislykkes.

Sjekkliste: Er dere klar for AI-klar data?

Datakartlegging	Datakvalitet	Norske referansedata	Compliance og GDPR
Vi vet hvilke datasett vi har og hvor de er lagret	Vi har profiler av datakvaliteten i kritiske datasett	Orgnr validert mot Brreg	Vi har behandlingsgrunnlag for persondata brukt i AI
Vi har datakatalog eller oversikt over dataeierskap	Vi vet andelen null-verdier i nøkkelfelt	Adresser vasket og normalisert	DPIA gjennomført for høyrisiko AI
Vi kjenner datakildenes opphav og oppdateringsfrekvens	Duplikater er identifisert og håndtert	Postnummer validert mot Postens register	Datalineage dokumentert for treningsdata

Konklusjon: Data er selve fundamentet — bygg det riktig

60 % av AI-prosjekter uten AI-klar data vil bli avbrutt. Det er ikke en spådom — det er Gartners prediksjon basert på faktisk atferd i mer enn tusen organisasjoner. Og Riksrevisjonen bekrefter at norske virksomheter ikke er unntatt.

Men Norge har unike fordeler: Brønnøysundregistrene med åpne, maskinlesbare API-er, Kartverkets matrikkelsystem, SSBs statistikkbank — alt tilgjengelig gratis. Disse referansedataene gjør det enklere å bygge pålitelige, verifiserte datagrunnlag enn i de fleste andre land.

Start ikke AI-prosjektet med modellen. Start med dataene. Én måned med systematisk datavasking og -profilering gir mer AI-verdi enn tre måneder med modelloptimalisering.

Vil du utforske hvordan et solid datakvalitetsfundament kan gjøre din bedrift klar for AI?

Vi hjelper norske bedrifter med å bygge AI-klar data — fra datavasking til datastyring.

Book en gratis kartleggingssamtale

Kilder

Søppel inn, søppel ut: Hvorfor datakvalitet avgjør alt for AI

Søppel inn, søppel ut: Hvorfor datakvalitet avgjør alt for AI

Hva er datakvalitet, og hvorfor er det AIs akilleshæl?

De 6 dimensjonene av datakvalitet

Norske gullkilder: Brønnøysundregistrene og folkeregisterdata

Brønnøysundregistrene (Brreg)

Folkeregisteret og persondata — med GDPR-forsiktighet

Riksrevisjonens funn: Slik sliter norske virksomheter med datakvalitet og KI

Datavasking i praksis: En steg-for-steg-prosess

1. Profilering — forstå dataene dine

2. Deduplisering — fjern dobbelregistreringer

3. Standardisering — ensrett formater

4. Validering — sjekk mot norske referanseregistre

5. Berikelse — legg til manglende kontekst

6. Dokumentasjon og lineage — sporbarhet for AI

Norsk praksis for datastyring (data governance)

FAQ: Ofte stilte spørsmål om datakvalitet og AI

Hva menes med at 60 % av AI-prosjekter vil feile pga. datakvalitet?

Hva er forskjellen på datavasking og dataforberedelse?

Trenger vi et personvernombud for å bruke kundedata i AI?

Hvordan validerer vi norske adresser programmatisk?

Hva er datalineage og hvorfor er det viktig for AI-etterlevelse?

Hvor mye tid bør vi sette av til datakvalitet i et AI-prosjekt?

Sjekkliste: Er dere klar for AI-klar data?

Konklusjon: Data er selve fundamentet — bygg det riktig

Les neste

AI-modenhet i norske bedrifter: Hvor står din bedrift på skalaen?

ChatGPT på norsk: komplett guide for norske bedrifter og brukere 2026

Få din digitale synlighetsrapport