Стандартызацыя дадзеных: вызначэнне, тэставанне і трансфармацыя

Стандартызацыя дадзеных

Нягледзячы на ​​тое, што арганізацыі пераходзяць да ўсталявання культуры даных ва ўсім прадпрыемстве, многія ўсё яшчэ змагаюцца за правільнае афармленне сваіх даных. Выцягванне даных з розных крыніц і атрыманне розных фарматаў і прадстаўленняў таго, што павінна быць адной і той жа інфармацыяй, стварае сур'ёзныя перашкоды на шляху даных.

Каманды сутыкаюцца з затрымкамі і памылкамі пры выкананні сваіх звычайных аперацый або здабыванні разумення з набораў даных. Такія праблемы прымушаюць прадпрыемствы ўкараняць механізм стандартызацыі даных, які гарантуе, што даныя прысутнічаюць у паслядоўным і аднастайным выглядзе ва ўсёй арганізацыі. 

Давайце больш падрабязна разгледзім працэс стандартызацыі даных: што гэта значыць, этапы, якія прадугледжвае, і як вы можаце атрымаць стандартны выгляд даных на вашым прадпрыемстве.

Што такое стандартызацыя дадзеных?

Прасцей кажучы, стандартызацыя даных - гэта працэс пераўтварэння значэнняў даных з няправільнага фармату ў правільны. Для забеспячэння стандартызаванага, аднастайнага і паслядоўнага прагляду даных па ўсёй арганізацыі, значэнні даных павінны адпавядаць неабходным стандартам - у кантэксце палёў даных, да якіх яны належаць.

Прыклад памылак стандартызацыі даных

Напрыклад, у запісе аднаго кліента, які пражывае ў двух розных месцах, не павінна быць разыходжанняў у імёнах і прозвішчах, адрасе электроннай пошты, нумары тэлефона і адрасе пражывання:

Імя Адрас электроннай пошты Нумар тэлефона Дата нараджэння Пол Адрас пражывання
Джон Онел john.neal@gmail.com 5164659494 14 / 2 / 1987 M 11400 Вт Olimpic BL # 200
Крыніца 1

Імя Прозвішча Адрас электроннай пошты Нумар тэлефона Дата нараджэння Пол Адрас пражывання
Джон О'Ніл john.neal_gmail.com + 1 516-465-9494 2 / 14 / 1987 мужчына 11400 Вт Olimpic 200
Крыніца 2

У прыкладзе вышэй вы можаце ўбачыць наступныя тыпы неадпаведнасцей:

  1. Структурныя: Першая крыніца ахоплівае імя кліента ў выглядзе аднаго поля, а другая захоўвае яго ў выглядзе двух палёў - імя і прозвішча.
  2. шаблон: Першая крыніца мае а сапраўдны шаблон электроннай пошты выконваецца ў полі адраса электроннай пошты, а ў другім відавочна адсутнічае @ сімвал. 
  3. Тып дадзеных: Першая крыніца дазваляе толькі лічбы ў полі Нумар тэлефона, у той час як другая мае радковае поле, якое таксама змяшчае сімвалы і прабелы.
  4. Фармат: Першая крыніца мае дату нараджэння ў фармаце ММ/ДД/ГГГГ, а другая — у фармаце ДД/ММ/ГГГГ. 
  5. Значэнне дамена: Першая крыніца дазваляе захоўваць значэнне полу як M або F, а другая крыніца захоўвае поўную форму - мужчынскі або жаночы.

Такія неадпаведнасці дадзеных прыводзяць да сур'ёзных памылак, якія могуць прывесці да таго, што ваш бізнес страціць шмат часу, выдаткаў і намаганняў. Па гэтай прычыне ўкараненне скразнога механізму для стандартызацыя дадзеных мае вырашальнае значэнне для падтрымання гігіены дадзеных.

Як стандартызаваць дадзеныя?

Стандартызацыя дадзеных - гэта просты чатырохэтапны працэс. Але ў залежнасці ад характару неадпаведнасцяў, якія прысутнічаюць у вашых дадзеных, і таго, што вы спрабуеце дасягнуць, метады і прыёмы, якія выкарыстоўваюцца для стандартызацыі, могуць адрознівацца. Тут мы прадстаўляем агульнае эмпірычнае правіла, якое любая арганізацыя можа выкарыстоўваць для пераадолення памылак стандартызацыі. 

  1. Вызначце, што такое стандарт

Каб дасягнуць якога-небудзь стану, вы павінны спачатку вызначыць, што такое стан насамрэч. На першым этапе любога працэсу стандартызацыі даных з'яўляецца вызначэнне таго, што неабходна дасягнуць. Лепшы спосаб даведацца, што вам трэба, - гэта зразумець патрабаванні бізнесу. Вам трэба прасканаваць свае бізнес-працэсы, каб убачыць, якія дадзеныя патрабуюцца і ў якім фармаце. Гэта дапаможа вам усталяваць базавы ўзровень для вашых патрабаванняў да дадзеных.

Стандартнае вызначэнне даных дапамагае вызначыць:

  • Актывы дадзеных, важныя для вашага бізнес-працэсу, 
  • Неабходныя палі дадзеных гэтых актываў,
  • Тып даных, фармат і шаблон іх значэнняў павінны адпавядаць,
  • Дыяпазон дапушчальных значэнняў для гэтых палёў і гэтак далей.

  1. Праверце наборы дадзеных у адпаведнасці з вызначаным стандартам

Калі вы атрымаеце стандартнае вызначэнне, наступным крокам будзе праверка эфектыўнасці вашых набораў даных у параўнанні з імі. Адзін са спосабаў ацаніць гэта - выкарыстоўваць прафіляванне дадзеных інструменты, якія ствараюць поўныя справаздачы і знаходзяць такую ​​інфармацыю, як працэнт значэнняў, якія адпавядаюць патрабаванням поля даных, напрыклад:

  • Ці адпавядаюць значэнні неабходнаму тыпу і фармату даных?
  • Значэнні знаходзяцца па-за дапушчальным дыяпазонам?
  • Ці выкарыстоўваюцца ў значэннях скарочаныя формы, такія як абрэвіятуры і мянушкі?
  • знаходзяцца адрасы стандартыз па меры неабходнасці – напрыклад Стандартызацыя USPS для амерыканскіх адрасоў?

  1. Трансфармуйце неадпаведныя значэнні

Цяпер, нарэшце, прыйшоў час трансфармаваць каштоўнасці, якія не адпавядаюць вызначаным стандартам. Давайце паглядзім на распаўсюджаныя метады пераўтварэння даных, якія выкарыстоўваюцца.

  • Аналіз дадзеных – Некаторыя палі дадзеных трэба спачатку прааналізаваць, каб атрымаць неабходныя кампаненты дадзеных. Напрыклад, разбор поля імя для падзелу імя, імя па бацьку і прозвішча, а таксама любых прэфіксаў і суфіксаў, якія прысутнічаюць у значэнні.
  • Пераўтварэнне тыпаў і фарматаў даных – Вам можа спатрэбіцца выдаліць неадпаведныя сімвалы падчас пераўтварэння, напрыклад, выдаліць сімвалы і літары з нумара тэлефона, які складаецца толькі з лічбаў.
  • Супастаўленне шаблону і праверка – Пераўтварэнне шаблону ажыццяўляецца шляхам налады рэгулярнага выразу для шаблону. Значэнні адрасоў электроннай пошты, якія адпавядаюць рэгулярнаму выразу, павінны быць прааналізаваны і ператвораны ў вызначаны шаблон. адрас электроннай пошты можа быць правераны з дапамогай рэгулярнага выразу:

^[a-zA-Z0-9+_.-]+@[a-zA-Z0-9.-]+$

  • Пашырэнне абрэвіятуры – Назвы кампаній, адрасы і імёны людзей часта ўтрымліваюць скарочаныя формы, якія могуць прывесці да таго, што ваш набор даных будзе ўтрымліваць розныя прадстаўленні адной і той жа інфармацыі. Напрыклад, вам можа спатрэбіцца пашырыць штаты, напрыклад, пераўтварыць Нью-Ёрк у Нью-Ёрк.
  • Выдаленне шумоў і выпраўленне правапісу – Некаторыя словы на самай справе не дадаюць значэння значэнню, а замест гэтага ствараюць шмат шуму ў наборы даных. Такія значэнні можна ідэнтыфікаваць у наборы даных, правёўшы яго са слоўнікам, які змяшчае гэтыя словы, пазначыўшы іх сцяжкамі і вырашыўшы, якія з іх назаўсёды выдаліць. Той жа працэс можа быць выкананы, каб знайсці арфаграфічныя памылкі і памылкі ўводу.

  1. Праверце набор даных на адпаведнасць вызначанаму стандарту

На апошнім этапе трансфармаваны набор даных паўторна правяраецца на адпаведнасць вызначанаму стандарту, каб даведацца працэнт памылак стандартызацыі даных, якія былі выпраўлены. Для памылак, якія ўсё яшчэ застаюцца ў вашым наборы даных, вы можаце наладзіць або пераканфігураваць свае метады і зноў запусціць даныя праз працэс. 

Хутацца

Колькасць даных, якія ствараюцца сёння, а таксама разнастайнасць інструментаў і тэхналогій, якія выкарыстоўваюцца для збору гэтых даных, прымушаюць кампаніі сутыкацца з жахлівым беспарадкам з дадзенымі. У іх ёсць усё неабходнае, але яны не зусім упэўнены, чаму даныя не прысутнічаюць у прымальнай і зручнай форме і форме. Прыняцце інструментаў стандартызацыі даных можа дапамагчы выправіць такія неадпаведнасці і стварыць так неабходную культуру даных у вашай арганізацыі.

Што вы думаеце?

Гэты сайт выкарыстоўвае Akismet для барацьбы са спамам. Даведайцеся, як дадзеныя апрацоўваюцца каментар.