Standardizacija podataka: definiraj, testiraj i transformiraj

Standardizacija podataka

Dok se organizacije usmjeravaju prema uspostavljanju podatkovne kulture u cijelom poduzeću, mnoge se još uvijek bore da svoje podatke isprave. Izvlačenje podataka iz različitih izvora i dobivanje različitih formata i prikaza onoga što bi trebalo biti iste informacije – uzrokuje ozbiljne prepreke u vašem putovanju podacima.

Timovi se suočavaju s kašnjenjima i pogreškama tijekom obavljanja svojih rutinskih operacija ili izvlačenja uvida iz skupova podataka. Takvi problemi prisiljavaju tvrtke da uvedu mehanizam standardizacije podataka – koji osigurava da su podaci prisutni u dosljednom i jedinstvenom prikazu u cijeloj organizaciji. 

Pogledajmo dublje proces standardizacije podataka: što to znači, korake koje uključuje i kako možete postići standardni prikaz podataka u svom poduzeću.

Što je standardizacija podataka?

Jednostavno rečeno, standardizacija podataka je proces transformacije vrijednosti podataka iz netočnog formata u ispravan. Kako bi se omogućio standardizirani, jednoobrazni i dosljedni prikaz podataka u cijeloj organizaciji, vrijednosti podataka moraju biti u skladu s potrebnim standardom – u kontekstu podatkovnih polja kojima pripadaju.

Primjer pogrešaka standardizacije podataka

Na primjer, evidencija istog klijenta koji živi na dvije različite lokacije ne bi smjela sadržavati odstupanja u imenu i prezimenu, adresi e-pošte, broju telefona i adresi stanovanja:

Ime i Prezime Email adresa Telefonski broj Datum rođenja rod Adrese stanovanja
John Oneel john.neal@gmail.com 5164659494 14 / 2 / 1987 M 11400 W Olimpic BL # 200
Izvor 1

Ime Prezime Email adresa Telefonski broj Datum rođenja rod Adrese stanovanja
Jovan O'neal john.neal_gmail.com + 1 516-465-9494 2 / 14 / 1987 Muški 11400 W Olimpic 200
Izvor 2

U gornjem primjeru možete vidjeti sljedeće vrste nedosljednosti:

  1. Strukturni: Prvi izvor pokriva Ime kupca kao jedno polje, dok ga drugi pohranjuje kao dva polja – Ime i Prezime.
  2. Uzorak: Prvi izvor ima a važeći uzorak e-pošte nametnuto na polje za adresu e-pošte, dok drugom vidljivo nedostaje @ simbol. 
  3. Vrsta podataka: Prvi izvor dopušta samo znamenke u polju Phone Number, dok drugi ima polje vrste niza koje također sadrži simbole i razmake.
  4. Format: Prvi izvor ima datum rođenja u formatu MM/DD/GGGG, dok ga drugi ima u formatu DD/MM/GGGG. 
  5. Vrijednost domene: Prvi izvor omogućuje pohranu vrijednosti spola kao M ili Ž, dok drugi izvor pohranjuje potpuni oblik – Muški ili Ženski.

Takve nedosljednosti podataka dovode vas do ozbiljnih pogrešaka zbog kojih vaša tvrtka može izgubiti puno vremena, troškova i truda. Iz tog razloga, implementacija end-to-end mehanizma za standardizacija podataka ključno je za održavanje higijene podataka.

Kako standardizirati podatke?

Standardizacija podataka je jednostavan proces u četiri koraka. Ali ovisno o prirodi nedosljednosti prisutnih u vašim podacima i onome što pokušavate postići, metode i tehnike koje se koriste za standardizaciju mogu varirati. Ovdje predstavljamo opće pravilo koje svaka organizacija može koristiti za prevladavanje svojih standardizacijskih pogrešaka. 

  1. Definirajte što je standard

Da biste postigli bilo koje stanje, prvo morate definirati što to stanje zapravo jest. U prvom koraku svakog procesa standardizacije podataka je identificirati što je potrebno postići. Najbolji način da znate što vam je potrebno je da razumijete poslovne zahtjeve. Morate skenirati svoje poslovne procese kako biste vidjeli koji su podaci potrebni i u kojem formatu. To će vam pomoći da postavite osnovu za svoje zahtjeve za podacima.

Standardna definicija podataka pomaže identificirati:

  • Podatkovna sredstva ključna za vaš poslovni proces, 
  • Potrebna podatkovna polja te imovine,
  • Tip podataka, format i uzorak s kojim njihove vrijednosti moraju biti u skladu,
  • Raspon prihvatljivih vrijednosti za ta polja i tako dalje.

  1. Testirajte skupove podataka prema definiranom standardu

Nakon što dobijete standardnu ​​definiciju, sljedeći je korak testiranje izvedbe vaših skupova podataka u odnosu na njih. Jedan od načina da se to procijeni jest korištenje profiliranje podataka alati koji generiraju sveobuhvatna izvješća i pronalaze informacije poput postotka vrijednosti koje su u skladu sa zahtjevima polja podataka, kao što su:

  • Slijede li vrijednosti potrebnu vrstu i format podataka?
  • Leže li vrijednosti izvan prihvatljivog raspona?
  • Koriste li vrijednosti skraćene oblike, kao što su kratice i nadimci?
  • Jesu adrese standardizirane prema potrebi – kao npr USPS standardizacija za američke adrese?

  1. Transformirajte nesukladne vrijednosti

Sada je konačno došlo vrijeme za transformaciju vrijednosti koje nisu u skladu s definiranim standardom. Pogledajmo uobičajene tehnike transformacije podataka koje se koriste.

  • Raščlanjivanje podataka – Neka podatkovna polja moraju se najprije analizirati da bi se dobile potrebne komponente podataka. Na primjer, analiziranje polja imena za odvajanje imena, srednjeg imena i prezimena, kao i svih prefiksa ili sufiksa prisutnih u vrijednosti.
  • Pretvorba tipa i formata podataka – Možda ćete morati ukloniti nesukladne znakove tijekom pretvorbe, na primjer, uklanjanjem simbola i slova iz telefonskog broja koji se sastoji samo od znamenki.
  • Usklađivanje i provjera uzorka – Pretvorba uzorka vrši se konfiguriranjem regularnog izraza za uzorak. Za vrijednosti adrese e-pošte koje su u skladu s regularnim izrazom, moraju se analizirati i transformirati u definirani uzorak. adresa e-pošte može se potvrditi korištenjem regularnog izraza:

^[a-zA-Z0-9+_.-]+@[a-zA-Z0-9.-]+$

  • Proširenje kratice – Nazivi tvrtki, adrese i imena osoba često sadrže skraćene oblike koji mogu dovesti do toga da vaš skup podataka sadrži različite prikaze istih informacija. Na primjer, možda ćete morati proširiti države, kao što je pretvaranje NY u New York.
  • Uklanjanje buke i ispravljanje pravopisa – Određene riječi zapravo ne dodaju nikakvo značenje vrijednosti, već umjesto toga unose mnogo buke u skup podataka. Takve se vrijednosti mogu identificirati u skupu podataka usporedbom s rječnikom koji sadrži te riječi, označavanjem i odlučivanjem koje će se trajno ukloniti. Isti postupak može se izvršiti za pronalaženje pravopisnih pogrešaka i pogrešaka u tipkanju.

  1. Ponovno testirajte skup podataka prema definiranom standardu

U posljednjem koraku, transformirani skup podataka ponovno se testira prema definiranom standardu kako bi se saznao postotak pogrešaka standardizacije podataka koje su ispravljene. Za pogreške koje i dalje ostaju u vašem skupu podataka, možete podesiti ili ponovno konfigurirati svoje metode i ponovno pokrenuti podatke kroz proces. 

Zamotati

Količina podataka koja se danas generira – i raznolikost alata i tehnologija koje se koriste za prikupljanje tih podataka – dovodi tvrtke do suočavanja s užasnom podatkovnom zbrkom. Imaju sve što im je potrebno, ali nisu sasvim sigurni zašto podaci nisu prisutni u prihvatljivom i upotrebljivom obliku i obliku. Usvajanje alata za standardizaciju podataka može pomoći u ispravljanju takvih nedosljednosti i omogućiti prijeko potrebnu podatkovnu kulturu u vašoj organizaciji.

Što vi mislite?

Ova web stranica koristi Akismet za smanjenje neželjene pošte. Saznajte kako se podaci vašeg komentara obrađuju.