O ile anonimizacja jest pojęciem znanym dla większości, o tyle słowo pseudonimizacja to coś nowego, co pojawiło się w przestrzeni publicznej wraz z przyjęciem nowej dyrektywy RODO dotyczącej postępowania z tzw. danymi wrażliwymi. Czym się różni anonimizacja od pseudonimizacji i skąd wzięło się takie rozróżnienie w RODO?
Wraz z przyjęciem RODO w ubiegłym roku nastąpił ogromny wzrost zainteresowania bezpieczeństwem danych; danych zdobywanych, przechowywanych i przetwarzanych. Cel operacyjnego wykorzystywania baz danych osobowych może być różny, począwszy od badań naukowych, poprzez leczenie pacjentów, działalność kancelarii prawnych, na testowaniu nowych aplikacji skończywszy.
Tworzenie oprogramowania lub dodawanie nowych funkcji do istniejącego środowiska wymaga uruchomienia całego procesu w warunkach testowych, po to, aby zweryfikować, jak radzi sobie system pod konkretnym ciężarem obszernej bazy danych.
Dobrze, aby cały proces odbywał się w warunkach maksymalnie zbliżonych do takich, jakie będą miały miejsce podczas działania systemu w środowisku produkcyjnym. Dlatego najlepiej, aby aplikacje użytkowe i ich rozszerzenia oraz inne modyfikacje były tworzone w oparciu o bazy danych wiernie oddające stan faktyczny.
Większość firm przykłada dużo uwagi do zabezpieczenia środowisk produkcyjnych przed wyciekiem danych, ale już środowiska testowe traktuje mniej restrykcyjnie. Wobec czego, zakładając, że najczęściej zawierają kopię lub fragmenty zasobów informacyjnych środowisk produkcyjnych, to te środowiska stają się naturalnym celem, aby w sposób nielegalny pozyskać dane osobowe. Zabezpieczeniem dla środowiska TST DEV jest anonimizacja.
Pojęcie anonimizacji w RODO nie istnieje
W przepisach związanych z przetwarzaniem o szczególnym znaczeniu, tzw. danych wrażliwych, nie ma mowy o anonimizacji danych. Zamiast tego pojawia się pojęcie pseudonimizacji danych. To logiczne, ponieważ anonimizacja danych wrażliwych oznacza, że w rzeczywistości mamy do czynienia ze zbiorem cech, bez możliwości identyfikacji konkretnych właścicieli tych informacji.
Brak możliwości zidentyfikowania osoby fizycznej na podstawie takiego zbioru informacji powoduje, że przygotowana w taki sposób baza danych nie podlega zasadom ochrony danych osobowych, a przepisy RODO nie mają tutaj zastosowania.
Wyjaśnijmy zatem podstawową różnicę między każdym z tych pojęć, ale najpierw odpowiedzmy sobie na pytanie, kiedy informacje stają się danymi osobowymi?
Otóż z danymi osobowymi mamy do czynienia wtedy, gdy dysponujemy informacjami, które są wystarczające do tego, aby zidentyfikować konkretną osobę fizyczną.
Anonimizacja danych osobowych, co to jest?
Ustawa o świadczeniu usług drogą elektroniczną definiuje anonimizację danych osobowych jako nieodwracalne działanie uniemożliwiające zidentyfikowanie konkretnej osoby, której te dane dotyczą.
Działanie to polega na usunięciu z bazy danych informacji o charakterystycznych cechach osobowych lub pomieszaniu cech osobowych, w taki sposób, aby na ich podstawie nie było skutecznej możliwości zidentyfikowania konkretnej osoby fizycznej.
Proces anonimizacji danych osobowych może odbywać się na różnych etapach ich pozyskiwania. Przeprowadzanie go na samym początku, w momencie zbierania informacji w systemie, polega na tym, że w ogóle nie wprowadza się danych identyfikacyjnych do systemu.
Wsparciem procesu anonimizacji jest separacja danych w bazach, w taki sposób, aby relacje pomiędzy poszczególnymi rekordami nie znajdowały się w jednym zbiorze.
Trzeci mechanizm procesu anonimizacji może polegać na zastosowaniu metod anonimizacji tylko w stosunku do danych pobieranych z systemu (udostępnianych). Wtedy dane wrażliwe usuwane są z pełnej bazy na etapie pobierania ich przez uprawnione do tego osoby. Takie filtrowanie danych wymaga bezpiecznego systemu, który zapewniałby należytą ochronę.
Kiedy potrzebna jest anonimizacja?
Anonimizacja niezbędna jest wtedy, gdy mamy do czynienia z danymi osobowymi, a nie zbiorem informacji z identyfikatorami, których wykorzystanie nie pozwoli nam na zidentyfikowanie osoby fizycznej. Rozróżniamy identyfikatory unikalne, czyli takie, które nie zostały utworzone wewnątrz systemu i jednoznacznie identyfikują użytkownika ponad pojedynczym systemem wdrożonym w danej organizacji (w założeniu taki charakter miały mieć numery PESEL, NIP) oraz niemające jednoznacznego charakteru.
Na przykład zbiór informacji zawierających płeć, kolor oczu, wiek czy kraj pochodzenia teoretycznie nie pozwala na identyfikację konkretnej osoby fizycznej. Jeśli jednak dodamy do tego informacje na temat imienia i nazwiska, wzrostu, zawodu, to możliwość identyfikacji radykalnie wzrasta.
Można jednak wyobrazić sobie sytuację, że podstawowe informacje niejednoznaczne, będą na tyle charakterystyczne, że umożliwią nam zidentyfikowanie osoby fizycznej. Wszystko zależy od kontekstu przestrzeni, w której eksplorujemy konkretną bazę informacji.
Przykład: niebieskooki mężczyzna, urodzony w Polsce, lat 47, będzie bardzo łatwy do zidentyfikowania w… Kongo.
Co to oznacza? Świadczy to o tym, że granica między informacją a danymi osobowymi nie zawsze jest wyraźna i oczywista. Dlatego w procesie anonimizacji niezwykle ważna jest analiza określająca zakres danych wymagających anonimizacji, profil akceptowanego ryzyka oraz wejściowych parametrów.
Powód i sposób dokonania anonimizacji należy jasno określić, ponieważ anonimizacja powinna odbywać się w konkretnym celu. Proces anonimizacji w pewnym stopniu może ograniczać zakres wartościowych i spójnych informacji dostępnych w zbiorze danych, ponieważ wraz ze wzrostem stopnia anonimizacji maleje użyteczność zestawu danych.
W związku z tym organizacja musi zdecydować o stopniu kompromisu między akceptowalną (lub oczekiwaną) użytecznością a próbą zmniejszenia ryzyka. Nieumiejętnie wykonana anonimizacja może zniszczyć spójność danych w rozumieniu biznesowym, w szczególności w przypadku testowania rozwiązań przeznaczonych do segmentacji/ profilowania klientów, kampanii marketingowych itp.
Jeśli chcesz porozmawiać na temat tego, jak dokonać analizy danych do anonimizacji, przejdź tutaj.
Co to jest pseudonimizacja?
Pseudonimizacja jest jedną z metod anonimizacji z tą różnicą, że stanowi dużo słabsze zabezpieczenie przez skorelowaniem informacji wrażliwych w taki sposób, aby stanowiły chronione dane osobowe.
Z tego też względu w przepisach RODO porusza się zagadnienia związane z pseudonimizacją, a nie pełną anonimizacją, ponieważ po jej wdrożeniu nie możemy mówić o przetwarzaniu danych osobowych.
Pojęcie pseudonimizacji zostało wprowadzone oficjalnie w przepisach Rozporządzenia Parlamentu Europejskiego i Rady (UE) 2016/679 z dnia 27 kwietnia 2016 r. w sprawie ochrony osób fizycznych w związku z przetwarzaniem danych osobowych i w sprawie swobodnego przepływu takich danych.
Na czym polega pseudonimizacja?
Jest to czynność, która polega na zastępowaniu danych identyfikacyjnych kryptonimami (pseudonimy), które mogą być w przypadku takich danych, jak imię i nazwisko samymi inicjałami lub np. liczbami.
W zasadzie to pojęcie mogłoby w języku polskim brzmieć „kryptonimizacja”, ale w praktyce funkcjonuje jako pseudonimizacja (ze względu na takie określenie tego zagadnienia w RODO, o czym powyżej w tekście).
W efekcie pseudonimizacji otrzymujemy ciąg informacji (nadal o charakterze danych osobowych), na podstawie których nie jest możliwe odszyfrowanie konkretnej osoby fizycznej bez posiadania klucza, na którym oparto proces pseudonimizacji.
Co oznacza pseudonimizacja?
Z tego wynika, że możemy znaleźć właściciela danych, ponieważ nie są one zmieniane i zaciemniane tak, jak w przypadku anonimizacji, a jedynie zaszyfrowane. Taki sposób zabezpieczenia danych związany jest również z wymaganiami RODO w celu ochrony danych przed cyberatakami.
Jak stwierdzić czy dana osoba fizyczna jest możliwa do zidentyfikowania mimo pseudonimizacji danych?
W tym przypadku niestety zapisy są mniej precyzyjne, bo odwołują się do wszelkich prawdopodobnych (oraz rozsądnych) sposobów i uzasadnionego prawdopodobieństwa, że zostaną wykorzystane w celu identyfikacji. Kryterium weryfikacji mogą stanowić koszty, czas oraz technologia, jakie byłyby potrzebne do osiągnięcia tego celu.
Pseudonimizacja w praktyce
Zaletą pseudonimizacji jest fakt, że jest łatwa do osiągnięcia niezależnie od warunków. Istnieje wiele sposobów na pseudonimizację danych, które zależą od tego, jaki chcemy uzyskać poziom wpływu na ich prywatność.
Pseudonimizacja pozwala zachować korelację różnych danych przypisanych do konkretnej osoby jako całość, a zarazem zapewnia tej osobie anonimowość.
Ponadto wykorzystanie pseudonimizacji przynosi jeszcze inne korzyści: przepisy dotyczące pseudonimizowanych danych są znacznie mniej restrykcyjne niż w stosunku do czystych danych wrażliwych (niepoddanych pseudonimizacji). Mniejsze wymogi, to większe bezpieczeństwo prawne i mniejszy koszt.
Wykorzystaj możliwość anonimizacji i pseudonimizacji danych za pomocą rozwiązania Soflab GALL.
Pseudonimizacja – sposoby i przykłady:
Pseudonimizacji możemy dokonać za pomocą:
- zaciemniania lub maskowania liter,
- szyfrowania z zastrzeżeniem, że klucz (algorytm) dekodujący przechowywany jest w innej bazie,
- tokenizacji, poprzez wykorzystanie wejściowego strumienia znakowego do tworzenia tokenów,
- zastępowania części danych ciągiem znaków (znamy to choćby ze sposobu podawania numeru kart płatniczych),
- modyfikacji danych w taki sposób, aby pokazywały przybliżone wartości.
Podstawowym atrybutem, który odróżnia pseudonimizację i anonimizację jest jej odwracalność. Anonimizacja jest procesem nieodwracalnym, pseudonimizacja zaś jest odwracalna.
Jak działa anonimizator danych?
W aspekcie związanym z tworzeniem lub rozwojem oprogramowania poprawna anonimizacja danych i ich eksport są kluczowe dla bezpieczeństwa danych i dla wydajności tworzonych rozwiązań.
W tej sytuacji warto skorzystać z rozwiązań dostępnych na rynku oraz doświadczenia ekspertów, którzy je projektują. Dzięki temu umożliwiamy programistom, deweloperom i testerom użycie wiarygodnych danych, jednocześnie nie narażając poufnych danych produkcyjnych.
Rozwiązania IT służące anonimizacji i pseudonimizacji baz danych mają wiele zalet. Algorytmy narzędzia Soflab GALL do anonimizacji i pseudonimizacji baz danych osobowych wspierają proces identyfikacji danych wrażliwych i ich losowej zmiany, tworząc mieszaninę informacji niepozwalającą na identyfikację.
Zwiększanie liczebności danych
Co ciekawe, narzędzie do anonimizacji danych Soflab GALL umożliwia generowanie nowych przypadków testowych. Narzędzie pozwala na pobranie spójnej próbki danych, która może podlegać dalszej obróbce oraz powielaniu, tworząc nowe pozycje w bazie z losowymi atrybutami (inne nazwisko, wiek, zawód itp.) Dzięki temu możemy powiększać liczbę danych i testować oprogramowanie pod dużym obciążeniem.
Operację tę można przeprowadzać szybko oraz wielokrotnie i mimo powtarzalności działania, za każdym razem otrzymamy inny efekt, ciągle zachowując spójność danych.
Polski program do anonimizacji danych
Środowisko testowe lub deweloperskie jest jednym z tych obszarów w firmie, gdzie najłatwiej dochodzi do wycieku danych. Anonimizator Soflab GALL jest tak zaprogramowany, że procesu raz zanonimizowanych danych nie da się odwrócić z wykorzystaniem tych samych reguł. Pozwala to na zwiększenie bezpieczeństwa danych w środowisku nieprodukcyjnym i w 100% zapobiega identyfikacji.
Anonimizacja i pseudonimizacja danych wrażliwych z wykorzystaniem Soflab GALL pozwala na stworzenie w pełni funkcjonalnych baz danych, zawierających wiarygodne informacje i gotowych do użycia w środowiskach nieprodukcyjnych.
Otwarta architektura anonimizatora Soflab GALL łatwo dostosowuje się do środowiska organizacji i istniejących rozwiązań. Proces anonimizacji możemy realizować z plików csv zawierających zrzut zawartości tabel z systemu lub poprzez bezpośrednie połączenie do baz danych, opartych na motorach ze sterownikami JDBC lub connector Python.
Podsumowanie
Skuteczne rozwiązania związane z metodologią ochrony i poufności danych osobowych wymagają dobrych narzędzi oraz doświadczenia. Zapewnienie zgodności tych rozwiązań z regulacjami prawnymi powinno być priorytetem. Warto przechowywane bazy danych poddać pseudonimizacji lub anonimizacji nawet wówczas, gdy nie są udostępniane podmiotom zewnętrznym (np. w ramach pracy nad rozwojem systemu informatycznego). Dzięki temu cały proces jest zgodny z RODO.
Prawo do zapomnienia wynikające z przepisów ustawy lub indywidualnego życzenia klienta realizowane jest poprzez usunięcie wszystkich danych wrażliwych. Skorzystanie z anonimizacji pozwala realizować przepisy dotyczące prawa do zapomnienia, a zarazem daje możliwość zachowania niewrażliwych danych jako zestawu anonimowych informacji o zachowaniach klientów. Pozwala to na lepsze dostosowywanie procesów w organizacjach poprzez wykorzystanie tych danych do doskonalenia procedur i oferty.
Jeśli interesuje Cię zwiększenie bezpieczeństwa danych w środowisku nieprodukcyjnym (testowym lub deweloperskim) skontaktuj się z nami, a wyjaśnimy, jak za pomocą polskich algorytmów zwiększyć bezpieczeństwo bazy danych i zachować przy tym jej właściwości statystyczne, zwiększać wolumen danych i realizować prawo do zapomnienia bez utraty cennych informacji oraz zgodnie z wymaganiami RODO.
Więcej na temat rozwiązania Soflab GALL do anonimizacji danych.