Datastandardisering
Kildeløs: Denne artikkelen mangler kildehenvisninger, og opplysningene i den kan dermed være vanskelige å verifisere. Kildeløst materiale kan bli fjernet. Helt uten kilder. (10. okt. 2015) |
Datastandardisering er en disiplin innen området datakvalitet, hvis formål er å bringe representasjonsformen av dataene over på et standardisert format. Dette slik at dataene lettere kan sammenstilles med andre data av samme type.
Motivasjon
[rediger | rediger kilde]Datastandardisering har i stor oppstått som en følge av vanskelighetene med å sammenstille informasjon fra ulike distribuerte IT systemer. Disse systemene lagrer ofte de samme dataene på forskjellig format.
Anvendelse
[rediger | rediger kilde]Datastandardisering har stor nytteverdi innen dataintegrasjon generelt, hvor mange såkalte heterogene kilder blir sammenstilt.
Ved deduplisering av lister med data, kan det være hensiktsmessig å preprosessere input data, slik at de enkelte forekomstene lagres på en standardisert form, og dermed lar seg sammenligne.
Verktøy
[rediger | rediger kilde]I de senere årene har det blitt utviklet egne verktøy for datastandardisering og integrert funksjonalitet i verktøy for dataintegrasjon (ETL). Disse benytter ofte en blanding av "fuzzy logic" og regelbaserte transformasjoner. Noen verktøy bruker regulære uttrykk, mens andre bruker egne språk.
Eksempler på standardisering
[rediger | rediger kilde]Enkel felt-standardisering
[rediger | rediger kilde]Kilde | Standardisert |
---|---|
5/7-2009 | 2009-07-05 |
5 juli 09 | 2009-07-05 |
5. juli 2009 | 2009-07-05 |
Input | Standardisert |
---|---|
CD pl | CD ROM PLATE |
CD ROM | CD ROM PLATE |
Splitte dataelementer
[rediger | rediger kilde]Ofte er mange forskjellige data lagret i samme feltet. Da kan datastandardisering brukes til å splitte ut de enkelte elementene, slik at disse lagres i separate felter. For eksempel teksten:
Input | Artikkel | Merke | Modell |
---|---|---|---|
SonyEricsson C905 mobiltelefon | Mobiltelefon | SonyEricsson | C905 |
I forbindelse med normalisering kan slik splitting sees på som å bringe dataene på første normalform.