Skąd i jakie dane do rozwiazań AI? Zarządzanie danymi – cz. 2

Posłuchaj:
Udostępnij:

W cyklu komentarzy „Przygotowanie firmy do wdrożenia AI – jakie i skąd dane?” (część 1 TUTAJ ) polecamy artykuł firmy konsultingowej BCG pod tytułem „Rozwiązanie problemu GenAI z danymi? Więcej GenAI.” Oto krótkie streszczenie

AI zamienia dane w wartość. Jednak stawia to również na celowniku istniejące modele zarządzania danymi i zarządzania nimi. GenAI sprawia, że ​​proces, który już był wyzwaniem, staje się jeszcze większym wyzwaniem.

Zarządzanie danymi  buduje zaufanie do danych. Zarządzanie danymi wdraża zasady dotyczące przechwytywania, przechowywania i wykorzystywania danych, a także sprawdzania ich jakości i integralności, zapewniając, że organizacje wiedzą, gdzie znajdują się dane i skąd pochodzą, zapewniają dostęp właściwym osobom do właściwych celów i są świadome wszelkich kwestii, np. ochrony kwestie prywatności czy zgodności z regulacjami.

Nieustrukturyzowane dane – paliwo GenAI – zazwyczaj nie są przechowywane, starannie oznakowane i sklasyfikowane w bazie danych. To wszystko, od wiadomości e-mail i dokumentów Word po filmy z YouTube i dialogi z gier komputerowych. Procesy etykietowania, klasyfikowania i zapewniania jakości danych są w dużej mierze wykonywane ręcznie.

Sześć głównych przypadków użycia GenAI do zarządzania danymi:

Tworzenie etykiet metadanych. Etykiety te określają szczegóły, takie jak źródło danych, obowiązujące prawa do użytkowania i sposób, w jaki zawartość odnosi się do innych danych.

Adnotowanie informacji o pochodzeniu z różnych systemów. GenAI może przyspieszyć ten proces poprzez analizy kodu i generowanie wstępnych wersji danych rodowodowych. Zamiast ręcznie tworzyć informacje o pochodzeniu, zespoły zarządzające danymi weryfikują wyniki GenAI.

Zwiększanie jakości danych. Modele GenAI mogą przyspieszyć, a nawet zautomatyzować usuwanie zduplikowanych rekordów, standaryzacja formatów, typów i wartości danych.

Lepsze czyszczenie danych. GenAI można zastosować do syntezy brakujących danych szkoleniowych i usuwania „szumów” — danych, które są bez znaczenia, uszkodzone lub w inny sposób bezużyteczne. GenAI może stworzyć kod naprawiający anomalie danych.

Zarządzanie zgodnością. GenAI może służyć do kontroli zgodności i zaleceń działań w tam obszarze.

Anonimizacja danych. GenAI może przekształcać dane zawierające informacje wrażliwe lub umożliwiające identyfikację. Pozwala to firmom zapewnić poufność i prywatność  przy jednoczesnym zachowaniu użyteczności i integralności danych.

Pełny artykuł jest TUTAJ

Opr. IDB

PS. Jeszcze jedno zastosowanie GenAI do danych, nie ujęte w powyższym artykule. Gen AI może służyć do generowania syntetycznych danych do szkolenia innych modeli uczenia maszynowego. Może to być pomocne przy powiększaniu zbiorów danych dotyczących rzadkich zdarzeń lub niedostatecznie reprezentowanych grup.