Czym więc jest jakość danych? Kiedy dane mają dobrą jakość, a kiedy złą?

Dane stały się tematem kluczowym i ze względu na wartość tego zasobu do kreowania biznesu i przewag konkurencyjnych, i ze względu na pierwszorzędną rolę w zachowaniu bezbiecznych relacji z cyfrowym analitycznym fiskusem. Zajmujemy się więc zarządzaniem danymi w obu programach Klubu Dyrektorów Finansowych „Dialog” – Digital Finance Excellence i Cyfrowy Fiskus http://www.cyfrowyfiskus.pl

Teoria zarządzania podpowiada nam, że aby zarządzać jakimś zjawiskiem trzeba umieć je mierzyć, kontrolować, monitorować. Zatem, jak zmierzyć jakość danych? Istnieje wiele definicji na określenie jakości, od najprostszych do bardzo złożonych.

Jakość to…

„…pewien stopień doskonałości.” (Platon)

„…stopień jednorodności i niezawodności wyrobu przy możliwie niskich kosztach i maksymalnym dopasowaniu do wymagań rynku.” (W.E. Deming)

„…zgodność z wymaganiami.” (P.B. Crossy)

„?ogół cech i właściwości wyrobu lub usługi, które decydują o zdolności wyrobu lub usługi do zaspokajania stwierdzonych i przewidywanych potrzeb.” (ISO 8402)

„?stopień, w jakim zbiór inherentnych cech spełnia wymagania.” (ISO 9001:2000)

Zgoła odmienną, w kontekście gromadzenia przechowywania i wykorzystania danych, definicję jakości prezentuje Masaaki Imai, ?guru? metedologii KAIZEN:

?Jakość, to… wszystko co można poprawić.”

Jakości danych możemy przypisać kilka istotnych cech, wymiarów, których analiza pozwoli mniej lub bardziej subiektywnie ocenić jakość danych:

– relatywność – informacja odpowiada na potrzeby i ma istotne znaczenie dla odbiorcy,

– dokładność – informacja jest adekwatna do poziomu wiedzy jaki reprezentuje odbiorca, precyzyjne i dokładnie oddaje oraz określa temat,

– aktualność – informacja nie jest nieaktualna, cykl jej aktualizacji jest zgodny z zawartością treści, tempo zmian, wchodzenie kolejnych wersji naturalne, jest stosowana do czasu,

– kompletność – informacja zawiera optymalną liczbę danych, która wystarcza by móc przetworzyć informację w konkretną wiedzę, poziom szczegółowości jest zależy od potrzeb odbiorcy,

– spójność – poszczególne elementy, dane współgrają ze sobą, forma odpowiada treści, aktualizacja danych jest zgodna z celami,

– adekwatność – odpowiednia prezentacja informacji oraz opis do prezentacji umożliwiający poprawna interpretację,

– dostępność – informacja jest dostępna, kiedy jest potrzebna właściwym odbiorcom, najlepiej 24h,

– wiarygodność – informacja potwierdza prawdziwość danych, zawiera elementy upewniające co do rzetelności przekazu,

– przystawalność – informacja jest zgodna z inną informacją, interpretowana we właściwym kontekście, funkcjonująca w znajomym systemie komunikacji.

Wszystkie te cechy, atrybuty jakości, uzbrojone w odpowiednio dobrane miary stają się precyzyjnym narzędziem zarządczym pomocnym w realizacji podstawowego celu strategii zarządzania tą dziedziną: osiągnięcia i utrzymania najwyższej jakości danych.

Kiedy dane mają dobrą jakość, a kiedy złą?

Wiarygodność

Jakość danych to jakość naszych relacji z klientami, fiskusem i innymi podmiotami zewnętrznymi. Nasza wiarygodność wobec nich w dużej mierze zależy od aktualności i poprawności danych. A zatem budując relacje z nimi należy zadbać o zgromadzenie właściwych danych, we właściwym miejscu i we właściwy sposób.

Informacja jest jak fotografia klienta dla nas albo nas dla fiskusa . Przy czym nie może być podkolorowana, nie może być też nieostra, nie może zawierać szumu i niepotrzebnych elementów.

Subiektywizm

Powyższa próba zdefiniowania jakości danych, podobnie jak wiele innych, z którymi się spotykamy niesie ze sobą spory ładunek subiektywizmu. Trudno bowiem, nie znając kontekstu, relacji, potrzeby oraz wartości biznesowej informacji jednoznacznie stwierdzić, iż zgromadzone dane rzeczywiście są dobrej jakości. Ten subiektywizm w dużej mierze oddaje paradoks przydatności Tayi i Ballou: te same dane mogą być jednocześnie dobrej i złej jakości z różnych punktów widzenia.

Subiektywizm oceny jakości danych pogłębia tzw. efekt halo: napotkany błąd w danych stwarza wrażenie i utwierdza użytkownika w przekonaniu, że wszystkie pozostałe dane również są obarczone tym błędem. A zatem wszystkie dane są złej jakości. W tym kontekście panuje niczym nie uzasadnione przeświadczenie, że błędy danych są zaraźliwe, tzn. napotkanie choćby jednego błędu konkretnego typu sugeruje, że błędów tego typu jest więcej.

Konflikt interesów

Sprzeczność interesów projektantów i developerów aplikacji oraz użytkowników końcowych:

Ci pierwsi są przekonani, że zgromadzone dane są takiej jakości, iż uzasadniają zastosowanie konkretnych technik przetwarzania tych danych.
Ci drudzy oczekują, że rozwiązanie developerskie będzie na tyle inteligentne, że stanie się odporne nawet na najdrobniejsze błędy.

Zwykle nie da się pogodzić tych sprzecznych przekonań i interesów ponieważ prowadziłoby to do skrajnego komplikowania aplikacji, a i tak odbiorca informacji byłby nieusatysfakcjonowany.

Przekonania i przeświadczenia

Kolejnym błędnym przekonaniem jest pogląd, że im bardziej skomplikowany system, tym więcej potrzebuje danych, a im więcej danych, tym przypuszczalnie więcej problemów z ich jakością. A zatem już na początku wielu projektantów i kierowników projektów podejmuje skomplikowane inicjatywy mające na celu poprawę jakości danych, bez rozeznania z jakimi problemami jakości danych możemy mieć do czynienia. W rezultacie angażowane są znaczne zasoby ludzkie w analizę zjawiska, którego rozmiaru nie znamy i nie jesteśmy w stanie oszacować.

Innym błędnym przekonaniem, które okazuje się bardziej szkodliwe, jest przeświadczenie o tym, że skoro gromadzimy dane, to z pewnością wszystkie są doskonałej jakości. Jeśli nie są, to warunkiem powodzenia projektu, uruchomienia aplikacji jest doprowadzenie danych do takiego właśnie stanu. To błędne przekonanie przenosi zatem całe odium odpowiedzialności za powodzenie projektu, na kondycję danych i staje się swoistym alibi, wymówką w przypadku niepowodzenia.

Użyteczność

Czas życia informacji to nie jest czas przechowywania jej w systemach i bazach danych. To użyteczny czas, w którym posługiwanie się informacją obarczone jest minimalnym ryzykiem podjęcia błędnej decyzji biznesowej. Jak więc traktować błędne dane, złej jakości, zgromadzone dawno temu, zanim jeszcze ustabilizowane zostały wszystkie procesy biznesowe i aplikacje je wspierające?

W tym kontekście największa użyteczność dotyczy danych najświeższych, najbardziej aktualnych, a wszelkie próby zamknięcia danych w pewnych przedziałach czasowych jest jedynie próbą odizolowania, odsiania przysłowiowego ?ziarna od plew?. A zatem umiejętne odizolowanie danych aktualnych, użytecznych, przydatnych biznesowo bez wątpienia wpływa na ich odbieraną jakość.

Funkcjonalność

Często spotykam się ze stwierdzeniem, które w żadnej mierze nie przystaje do zagadnienia jakości danych. Mianowicie, brak funkcjonalności systemów i aplikacji często utożsamiany jest z niską jakością danych. W pełni rozumiem taką ocenę użytkowników, którzy niejako poprzez brak właściwej kontroli wprowadzanych danych lub przeciwnie – jej zbytnią restrykcyjność, oceniają jakość gromadzonych danych przez pryzmat łatwości ich wprowadzania. W takich przypadkach zachowania użytkowników są skrajnie odmienne, od całkowitej ?nonszalancji? (cokolwiek wprowadzę ? system to przyjmie), aż po świadome omijanie restrykcji i dopasowywanie danych do wymagań systemu. Takie postępowanie jedynie utwierdza w przekonaniu o niskiej jakości danych, która w istocie odzwierciedla ich użyteczność, nie zaś rzeczywistą poprawność.

Strategia zarządzania jakością danych

Aby precyzyjnie zidentyfikować źródła powstawania błędów, a tym samym eliminować ryzyka ich powstawania należy dobrze zrozumieć naturalne kierunki przepływu danych w systemach i aplikacjach. Ta wiedza pozwala skupić we właściwym miejscu wysiłki związane z eliminacją błędów i przyczyn ich powstawania, ale przede wszystkim uniknąć działań nieefektywnych, nie przynoszących należytych rezultatów, a przy tym kosztownych i uciążliwych.

Zwykle operator otrzymujący w użytkowanie aplikację nie ma pełnej wiedzy, dlaczego musi wprowadzać tak wiele skomplikowanych danych, nie zna kontekstu biznesowego wykorzystywanych danych, a nawet jeśli zna ten kontekst, to często nie rozumie dlaczego musi wypełniać atrybuty konkretnymi wartościami. Psychologia działania operatorów wprowadzających dane w tym przypadku stoi w kompletnej sprzeczności z powszechną pokusą ?uszczelnianie? systemu poprzez wprowadzanie kolejnych triggerów, algorytmów kontrolnych, blokad i pułapek. Ich skuteczność okazuje się odwrotnie proporcjonalna do stopnia frustracji użytkowników aplikacji, którzy wprowadzają dane do systemów informatycznych.

Zasada: Brak danych jest lepszy niż błędne dane!

Brak danych eliminuje ryzyko podejmowania błędnych decyzji, ponieważ skłania do bardziej konserwatywnego, ostrożnego postępowania. Błędne dane usypiają czujność ponieważ odbiorca informacji skupia się na samym fakcie jej występowania i odbiera ten fakt zdecydowanie pozytywnie.

Aby stworzyć i wdrożyć skuteczną strategię zarządzania jakością danych należy w organizacji zbudować świadomość najwyższej wartości informacji oraz tego co obniża tę wartość ? świadomość jakości danych.

Andrzej Burzyński, BI Insight