Søppel inn, søppel ut: Hvorfor datakvalitet avgjør alt for AI
Datavasking, dataforberedelse og norsk datastyring — Gartner spår at 60 % av AI-prosjekter uten AI-klar data avbrytes innen 2026. Slik bygger norske bedrifter et solid datakvalitetsfundament.

Søppel inn, søppel ut: Hvorfor datakvalitet avgjør alt for AI
Datavasking, dataforberedelse og norsk datastyring for pålitelig AI.
Nøkkelpunkter
- • 60 % av AI-prosjekter uten AI-klar data vil bli avbrutt innen 2026, og 63 % av organisasjoner mangler riktige datahåndteringspraksiser (Gartner – AI-Ready Data, feb. 2025).
- • Rundt halvparten av norske statlige virksomheter oppgir dårlig datakvalitet som en konkret utfordring i AI-arbeidet (Riksrevisjonen – KI i statlig sektor).
- • Norge har unike fordeler: Brønnøysundregistrene, Kartverkets matrikkel og SSBs statistikkbank gir gratis, maskinlesbare referansedata som gjør datakvalitetsarbeid enklere enn i de fleste andre land.
Nøkkeltall
| 60 % | ~50 % | 63 % |
|---|---|---|
| av AI-prosjekter uten AI-klar data avbrutt innen 2026 | norske statlige virksomheter hadde datakvalitet som utfordring | av org. mangler riktige datahåndteringspraksiser for AI |
Kilde: Gartner, februar 2025 / Riksrevisjonen – KI i statlig sektor
Hva er datakvalitet, og hvorfor er det AIs akilleshæl?
«Garbage in, garbage out» — søppel inn, søppel ut — er kanskje det eldste prinsippet i datavitenskapen, men det har aldri vært mer relevant enn i AI-alderen. Mens tradisjonelle systemer kan tolerere noe støy i dataene, forsterker maskinlæringsmodeller feil systematisk. Samfunnsøkonomisk Analyse (NHO-rapporten) formulerer det presist: «Er det feil i datasettet, blir det feil utfall.»
Et klassisk eksempel er Amazons rekrutteringsverktøy fra 2018, som systematisk diskriminerte kvinner — ikke fordi algoritmen var defekt, men fordi treningsdataene reflekterte historiske ansettelsesmønstre.
For Gartner er AI-klar data ikke det samme som «god» data i tradisjonell forstand. AI-klar data må være: tilpasset det spesifikke brukstilfellet, representativ (inkludert kanttilfeller), dynamisk og mulig å oppdatere kontinuerlig, og håndtere nye personvern- og compliance-krav.
De 6 dimensjonene av datakvalitet
| Dimensjon | Definisjon | Norsk eksempel | AI-konsekvens ved svikt |
|---|---|---|---|
| Nøyaktighet | Data stemmer med virkeligheten | Feil bedriftsadresse i Brreg | Feilaktige prediksjoner |
| Fullstendighet | Ingen manglende verdier i kritiske felt | Kundeprofiler uten postnummer | Skjevhet i modellen |
| Konsistens | Samme format på tvers av systemer | Dato: 01.01.24 vs 2024-01-01 | Krasj i datapipeline |
| Aktualitet | Data er oppdatert og relevant | Utdaterte kontaktopplysninger | Utdaterte anbefalinger |
| Entydighet | Ingen duplikater eller tvetydighet | Samme kunde registrert to ganger | Overvurdering av segmenter |
| Sporbarhet | Klar opphavsinformasjon (lineage) | Ukjent kilde for treningsdata | Ikke-etterprøvbar AI-beslutning |
Norske gullkilder: Brønnøysundregistrene og folkeregisterdata
Norske bedrifter har tilgang til to eksepsjonelle referansedatakilder som er langt mer komplette og pålitelige enn det de fleste land kan by på. Å bruke disse aktivt i datakvalitetsarbeidet er et unikt norsk konkurransefortrinn.
Brønnøysundregistrene (Brreg)
Brreg har utviklet en AI-policy og bruker selv AI internt — et signal om at registeret er gjort maskinlesbart og API-tilgjengelig. Brreg tilbyr åpent tilgjengelige datasett og API-er med alle norske registrerte foretak.
Bruk i datakvalitetsarbeid:
- Validering av organisasjonsnumre i kunderegisteret
- Standardisering av bedriftsnavn mot offisiell kilde
- Adressevask og normalisering mot registrert forretningsadresse
- Berikelse (enrichment) av B2B-data med næringsklassifisering (NACE-kode)
- Identifikasjon av duplikater via orgnr-matching
API-endpoint: data.brreg.no/enhetsregisteret/api — gratis, åpent, ingen API-nøkkel påkrevd.
Folkeregisteret og persondata — med GDPR-forsiktighet
Folkeregisteret er en av verdens mest nøyaktige personregistre, med pålitelig adresse-, fødselsdato- og familiedata. Men tilgang er strengt regulert under personopplysningsloven og GDPR.
Hva du faktisk kan gjøre:
- Validering av norske fødselsnumre (format og kontrollsum)
- Adressenormalisering mot folkeregisterets struktur
- Verifisering av aktiv/inaktiv personprofil
NB: Direkte oppslag i Folkeregisteret krever særskilt hjemmel fra Skatteetaten. De fleste bedrifter bruker heller postleverandørers adressevasktjenester som er godkjent mot registeret.
Riksrevisjonens funn: Slik sliter norske virksomheter med datakvalitet og KI
En av de mest relevante norske primærkildene er Riksrevisjonens undersøkelse av KI i statlig sektor. Selv om den undersøker offentlig sektor, er funnene direkte overførbare til norsk næringsliv. Riksrevisjonen konkluderer med at «mangelfull tilgang på data av god kvalitet kan være til hinder for å utvikle og bruke kunstig intelligens.»
Riksrevisjonens funn vs. privat sektor
| Riksrevisjonens funn | Privat sektor-parallell | Tiltak |
|---|---|---|
| Mange virksomheter mangler gode, interne data | Salgsdata i regneark i stedet for CRM | Sentraliser data i ett tilgjengelig system |
| Data er ikke digitale eller tilgjengelige | Papirarkiver, PDF-fakturaer, ustrukturert e-post | Digitalisering og strukturering |
| Offentlig sektor deler ikke data mellom virksomheter | Silo-data mellom salgsteam, service og finans | Datadeling og felles datamodell |
| Mangelfull infrastruktur for databehandling | Utdaterte ERP-systemer uten API | Modernisering av datainfrastruktur |
| Juridiske uklarheter hemmer datadeling | Usikkerhet om GDPR ved kundedata til AI | Juridisk avklaring + DPIA-gjennomgang |
Kilde: Riksrevisjonen – Undersøkelse av bruk av kunstig intelligens i staten
Datavasking i praksis: En steg-for-steg-prosess
Datavasking (data cleaning) er prosessen med å identifisere og rette feil, ufullstendigheter og inkonsistenser i datasett. De fleste datavitere bruker 60–80 % av sin tid på dette — men det er investeringen som gir størst avkastning i AI-prosjekter.
1. Profilering — forstå dataene dine
- Kjør statistisk analyse av hvert datafelt: null-verdier (%), unike verdier, distribusjon, min/max
- Identifiser åpenbare anomalier: datoer i fremtiden, negative priser, ugyldige postnummer
- Verktøy: Python pandas profiling, Great Expectations, Talend Data Quality
2. Deduplisering — fjern dobbelregistreringer
- Match på kombinasjon av felt: navn + adresse + e-post + fødselsdato
- For norske bedrifter: bruk organisasjonsnummer (9 siffer) som nøkkel — ikke bedriftsnavn
- Fuzzy matching for navn med stavefeil: «EQUINOR ASA» vs «Equinor asa»
3. Standardisering — ensrett formater
- Datoer → ISO 8601: 2025-01-31 (ikke 31.01.25 eller 31/1/2025)
- Norske telefonnumre → +47XXXXXXXX
- Adresser → valider og normaliser mot Kartverkets matrikkel eller Posten/Bring adressevalidering
4. Validering — sjekk mot norske referanseregistre
- Organisasjonsnumre → valider mot Brreg API (gratis, sanntid)
- Postnummer → valider mot Postens postnummerregister (gratis nedlasting)
- Fødselsnumre (hvis relevant og hjemlet) → kontrollsum-validering
5. Berikelse — legg til manglende kontekst
- Berik B2B-data med NACE-kode, antall ansatte, omsetning fra Brreg/Proff.no
- Koble kundeprofiler med geografiske data fra Kartverket (kommune, fylke, region)
- Legg til SSB-statistikk som kontekstuell data (bransjesnitt, prisindekser, demografikk)
6. Dokumentasjon og lineage — sporbarhet for AI
- Logg alle transformasjoner med tidsstempel og ansvarlig person/system
- Dokumenter datakildens opphav (lineage) for KI-loven og AI Act-etterlevelse
- Krav til sporbarhet øker under EUs AI Act for høyrisiko-applikasjoner
Norsk praksis for datastyring (data governance)
Datastyring er rammeverket av roller, prosesser og standarder som sikrer at data behandles konsistent, pålitelig og i tråd med regelverk. For norske bedrifter er dette uløselig knyttet til personopplysningsloven og GDPR på den ene siden, og EUs kommende Dataforvaltningsforordning (DGA) på den andre.
Datastyringselementer
| Element | Hva det innebærer | Norsk forankring |
|---|---|---|
| Dataeierskap | Definert ansvar for hvert datasett | Krav i GDPR: behandlingsansvarlig og databehandler-roller |
| Datakatalog | Oversikt over alle datasett: hva, hvor, hvem eier | Anbefalt av Riksrevisjonen; nasjonalt: data.norge.no |
| Datakvalitetsmål (KPIer) | Målbare krav: maks 2 % null-verdier i kritiske felt | ISO 8000 datakvalitetsstandard i norsk industri |
| Datalineage | Sporing av data fra kilde til bruk | Krav under AI Act for høyrisiko-applikasjoner |
| DPIA for AI | Vurdering av personvernkonsekvenser | Plikt etter GDPR Art. 35; Datatilsynets mal |
FAQ: Ofte stilte spørsmål om datakvalitet og AI
Hva menes med at 60 % av AI-prosjekter vil feile pga. datakvalitet?
Gartner (februar 2025) predikerer at 60 % av AI-prosjekter som mangler «AI-klar data» vil bli avbrutt innen 2026. AI-klar data er et strengere begrep enn tradisjonelt «god datakvalitet» — det inkluderer sporbarhet, representativitet, aktualitet og compliance-egnethet. Merk: det eldre «85 %-tallet» som sirkulerer er basert på en feilsitert Gartner-prediksjon fra 2018.
Hva er forskjellen på datavasking og dataforberedelse?
Datavasking er en del av dataforberedelse. Datavasking (data cleaning) handler om å rette feil i eksisterende data: fjerne duplikater, fylle inn manglende verdier, rette formater. Dataforberedelse (data preparation) er den bredere prosessen som også inkluderer transformasjon, normalisering, feature engineering og splitting i trenings-/testdatasett.
Trenger vi et personvernombud for å bruke kundedata i AI?
Ikke nødvendigvis, men det anbefales sterkt. Datatilsynet krever DPIA (vurdering av personvernkonsekvenser) når AI-behandling «sannsynligvis vil medføre høy risiko». Virksomheter med systematisk bruk av personopplysninger til AI bør ha personvernombud.
Hvordan validerer vi norske adresser programmatisk?
Tre alternativer: (1) Posten/Brings adressevaliderings-API — kommersiell tjeneste. (2) Kartverkets matrikkel-API — åpent API for offisielle adresser. (3) Brønnøysundregistrenes API for validering av registrert forretningsadresse (gratis).
Hva er datalineage og hvorfor er det viktig for AI-etterlevelse?
Datalineage er dokumentasjon av dataenes reise fra opprinnelig kilde, gjennom alle transformasjoner, til endelig bruk i en AI-modell. Under EUs AI Act er datalineage et krav for høyrisiko-systemer — man må kunne bevise hva modellen ble trent på og hvorfor. Verktøy som Apache Atlas, OpenLineage og dbt støtter datalineage.
Hvor mye tid bør vi sette av til datakvalitet i et AI-prosjekt?
Industristandarden er 60–80 % av prosjekttiden. En tommelfingerregel: sett av like mye tid til datakvalitet som til alt annet i prosjektet til sammen. Bedrifter som undervurderer dette opplever typisk at piloten fungerer, men at produksjonssetting mislykkes.
Sjekkliste: Er dere klar for AI-klar data?
| Datakartlegging | Datakvalitet | Norske referansedata | Compliance og GDPR |
|---|---|---|---|
| Vi vet hvilke datasett vi har og hvor de er lagret | Vi har profiler av datakvaliteten i kritiske datasett | Orgnr validert mot Brreg | Vi har behandlingsgrunnlag for persondata brukt i AI |
| Vi har datakatalog eller oversikt over dataeierskap | Vi vet andelen null-verdier i nøkkelfelt | Adresser vasket og normalisert | DPIA gjennomført for høyrisiko AI |
| Vi kjenner datakildenes opphav og oppdateringsfrekvens | Duplikater er identifisert og håndtert | Postnummer validert mot Postens register | Datalineage dokumentert for treningsdata |
Konklusjon: Data er selve fundamentet — bygg det riktig
60 % av AI-prosjekter uten AI-klar data vil bli avbrutt. Det er ikke en spådom — det er Gartners prediksjon basert på faktisk atferd i mer enn tusen organisasjoner. Og Riksrevisjonen bekrefter at norske virksomheter ikke er unntatt.
Men Norge har unike fordeler: Brønnøysundregistrene med åpne, maskinlesbare API-er, Kartverkets matrikkelsystem, SSBs statistikkbank — alt tilgjengelig gratis. Disse referansedataene gjør det enklere å bygge pålitelige, verifiserte datagrunnlag enn i de fleste andre land.
Start ikke AI-prosjektet med modellen. Start med dataene. Én måned med systematisk datavasking og -profilering gir mer AI-verdi enn tre måneder med modelloptimalisering.
Vil du utforske hvordan et solid datakvalitetsfundament kan gjøre din bedrift klar for AI?
Vi hjelper norske bedrifter med å bygge AI-klar data — fra datavasking til datastyring.
Book en gratis kartleggingssamtaleKilder
- Gartner – Lack of AI-Ready Data Puts AI Projects at Risk (februar 2025)
- Gartner – 30% of GenAI Projects Abandoned After PoC (juli 2024)
- Riksrevisjonen / Stortinget – Undersøkelse av bruk av kunstig intelligens i staten (2024–2025)
- SSB – Bruk av IKT i næringslivet (2023–2025)
- Datatilsynet – Vurdering av personvernkonsekvenser (DPIA)
- Brønnøysundregistrene – Datasett og API (2025)
- Regjeringen.no – Dataforvaltningsforordningen (DGA)
- NHO / Samfunnsøkonomisk Analyse – Kunstig intelligens i Norge (2023)
Alura
Praktisk kunnskap om AI-automatisering og effektivisering for norske bedrifter.
Les neste
AI-modenhet i norske bedrifter: Hvor står din bedrift på skalaen?
Hvor moden er din bedrift på AI? Slik vurderer du nivået på skalaen — fra første eksperimenter til strategisk forankret bruk — og hva neste steg bør være.
ChatGPT på norsk: komplett guide for norske bedrifter og brukere 2026
Komplett guide til ChatGPT på norsk for bedrifter og brukere i 2026: bruksområder, abonnement, sikkerhet, GDPR og hvordan du kommer trygt i gang.