O ile anonimizacja jest pojęciem znanym dla większości, o tyle słowo pseudonimizacja to coś nowego, co pojawiło się w przestrzeni publicznej wraz z przyjęciem nowej dyrektywy RODO dotyczącej postępowania z tzw. danymi wrażliwymi.
Anonimizacja a pseudonimizacja – czym się różnią i skąd wzieło się takie rozróżnienie w RODO?
Wraz z przyjęciem RODO w ubiegłym roku nastąpił ogromny wzrost zainteresowania bezpieczeństwem danych oraz metodami takimi jak anonimizacja danych osobowych i pseudonimizacja. W praktyce oznacza to konieczność odpowiedzialnego zarządzania danymi osobowymi na każdym etapie ich przetwarzania. Cel operacyjnego wykorzystywania baz danych osobowych może być różny, począwszy od badań naukowych, poprzez leczenie pacjentów, działalność kancelarii prawnych, na testowaniu nowych aplikacji skończywszy. W każdym przypadku organizacja powinna brać pod uwagę prawa osób, których dane dotyczą, oraz sposób ich przetwarzania.
Tworzenie oprogramowania lub dodawanie nowych funkcji do istniejącego środowiska wymaga uruchomienia całego procesu w warunkach testowych, po to, aby zweryfikować, jak radzi sobie system pod konkretnym ciężarem obszernej bazy danych.
Dobrze, aby cały proces odbywał się w warunkach maksymalnie zbliżonych do takich, jakie będą miały miejsce podczas działania systemu w środowisku produkcyjnym. Dlatego najlepiej, aby aplikacje użytkowe i ich rozszerzenia były tworzone w oparciu o dane produkcyjne, przy czym konieczna jest wcześniejsza anonimizacja danych osobowych wykorzystywanych w testach.
Większość firm przykłada dużo uwagi do zabezpieczenia środowisk produkcyjnych przed wyciekiem danych, ale już środowiska testowe traktuje mniej restrykcyjnie, mimo że często pracuje się w nich z rzeczywistymi danymi osobowymi. Wobec czego, zakładając, że najczęściej zawierają kopię lub fragmenty zasobów informacyjnych środowisk produkcyjnych, to te środowiska stają się naturalnym celem, aby w sposób nielegalny pozyskać dane osobowe. Jednym z podstawowych sposobów zabezpieczenia środowiska TST DEV jest anonimizacja danych osobowych wykorzystywanych podczas testów, które powinny być dodatkowo objęte środkami technicznymi ograniczającymi ryzyko wycieku.
Pojęcie anonimizacji w RODO nie istnieje
W przepisach związanych z przetwarzaniem o szczególnym znaczeniu, tzw. danych wrażliwych, nie ma mowy o anonimizacji danych. Zamiast tego pojawia się pojęcie pseudonimizacji danych. To logiczne, ponieważ anonimizacja danych wrażliwych oznacza, że w rzeczywistości mamy do czynienia ze zbiorem cech, bez możliwości identyfikacji konkretnych właścicieli tych informacji.
Brak możliwości zidentyfikowania osoby fizycznej na podstawie takiego zbioru informacji powoduje, że baza danych osobowych zanonimizowanych nie podlega zasadom ochrony danych osobowych. Przepisy RODO nie mają tutaj zastosowania.
Wyjaśnijmy zatem podstawową różnicę między każdym z tych pojęć, ale najpierw odpowiedzmy sobie na pytanie, kiedy informacje stają się danymi osobowymi?
Otóż z danymi osobowymi mamy do czynienia wtedy, gdy dysponujemy informacjami, które są wystarczające do tego, aby zidentyfikować konkretną osobę fizyczną.
Co to jest anonimizacja?
Ustawa o świadczeniu usług drogą elektroniczną definiuje anonimizację danych osobowych jako nieodwracalne działanie uniemożliwiające zidentyfikowanie konkretnej osoby, której te dane dotyczą.
Działanie to polega na usunięciu z bazy danych informacji o charakterystycznych cechach osobowych lub ich przekształceniu w taki sposób, aby powstał zbiór danych osobowych zanonimizowanych, który nie pozwala na identyfikację osoby, której dane dotyczą. Dzięki temu możliwe jest dalsze korzystanie z danych bez ryzyka powiązania ich z konkretnymi danymi osobowymi.
W praktyce anonimizacja danych osobowych jest stosowana zarówno podczas zbierania informacji, jak i w trakcie ich dalszego przetwarzania. Przeprowadzanie go na samym początku, w momencie zbierania informacji w systemie, polega na tym, że w ogóle nie wprowadza się danych identyfikacyjnych do systemu.
Wsparciem procesu anonimizacji jest separacja danych w bazach, w taki sposób, aby relacje pomiędzy poszczególnymi rekordami nie znajdowały się w jednym zbiorze.
Trzeci mechanizm procesu anonimizacji może polegać na zastosowaniu metod anonimizacji tylko w stosunku do danych pobieranych z systemu (udostępnianych). Wtedy dane wrażliwe usuwane są z pełnej bazy na etapie pobierania ich przez uprawnione do tego osoby. Takie filtrowanie danych wymaga bezpiecznego systemu, który zapewniałby należytą zgodność z zasadami ochrony danych osobowych.
Kiedy potrzebna jest pseudonimizacja?
Anonimizacja niezbędna jest wtedy, gdy mamy do czynienia z danymi osobowymi, a nie zbiorem informacji z identyfikatorami, których wykorzystanie nie pozwoli nam na zidentyfikowanie osoby fizycznej. Rozróżniamy identyfikatory unikalne, czyli takie, które nie zostały utworzone wewnątrz systemu i jednoznacznie identyfikują użytkownika ponad pojedynczym systemem wdrożonym w danej organizacji (w założeniu taki charakter miały mieć numery PESEL, NIP) oraz niemające jednoznacznego charakteru. W praktyce informacje umożliwiające powiązanie takich identyfikatorów z konkretną osobą powinny być przechowywane osobno i odpowiednio zabezpieczone. W niektórych przypadkach powiązanie takich identyfikatorów z konkretną osobą jest możliwe jedynie na podstawie informacji przechowywanych osobno.
Na przykład zbiór informacji zawierających płeć, kolor oczu, wiek czy kraj pochodzenia teoretycznie nie pozwala przypisać tych danych konkretnej osobie fizycznej. Jeśli jednak dodamy do tego informacje na temat imienia i nazwiska, wzrostu, zawodu, to możliwość identyfikacji radykalnie wzrasta.
Można jednak wyobrazić sobie sytuację, w której zestaw podstawowych informacji niejednoznacznych będzie na tyle charakterystyczny, że może doprowadzić do pośredniego zidentyfikowania osoby fizycznej. Wszystko zależy od kontekstu przestrzeni, w której eksplorujemy konkretną bazę informacji oraz od tego, czy dostępne dane mogą umożliwić przypisanie zidentyfikowanej osobie fizycznej konkretnych informacji.
Przykład: niebieskooki mężczyzna, urodzony w Polsce, lat 47, będzie bardzo łatwy do zidentyfikowania w… Kongo.
Co to oznacza? Świadczy to o tym, że granica między informacją a danymi osobowymi nie zawsze jest wyraźna i oczywista. Dlatego w procesie anonimizacji niezwykle ważna jest analiza określająca zakres danych wymagających anonimizacji, profil akceptowanego ryzyka oraz wejściowych parametrów. Stanowi to istotny element ochrony danych osobowych.
Powód i sposób dokonania anonimizacji należy jasno określić, ponieważ anonimizacja powinna odbywać się w konkretnym celu. Proces anonimizacji w pewnym stopniu może ograniczać zakres wartościowych i spójnych informacji dostępnych w zbiorze danych, ponieważ wraz ze wzrostem stopnia anonimizacji maleje użyteczność zestawu danych.
W związku z tym organizacja musi zdecydować o stopniu kompromisu między akceptowalną (lub oczekiwaną) użytecznością a próbą zmniejszenia ryzyka. Nieumiejętnie wykonana anonimizacja może zniszczyć spójność danych w rozumieniu biznesowym, w szczególności w przypadku testowania rozwiązań przeznaczonych do segmentacji/ profilowania klientów, kampanii marketingowych itp.
Co to jest pseudonimizacja?
Pseudonimizacja jest jedną z metod anonimizacji z tą różnicą, że stanowi dużo słabsze zabezpieczenie przez skorelowaniem informacji wrażliwych w taki sposób, aby stanowiły chronione dane osobowe.
Z tego też względu w przepisach RODO porusza się zagadnienia związane z pseudonimizacją, a nie pełną anonimizacją, ponieważ po jej wdrożeniu nie możemy mówić o przetwarzaniu danych osobowych.
Pojęcie pseudonimizacji zostało wprowadzone oficjalnie w przepisach Rozporządzenia Parlamentu Europejskiego i Rady (UE) 2016/679 z dnia 27 kwietnia 2016 r. w sprawie ochrony osób fizycznych w związku z przetwarzaniem danych osobowych i w sprawie swobodnego przepływu takich danych.
Na czym polega pseudonimizacja?
Jest to czynność, która polega na zastępowaniu danych identyfikacyjnych kryptonimami (pseudonimy), które mogą być w przypadku takich danych, jak imię i nazwisko samymi inicjałami lub np. liczbami. Dzięki temu bez dostępu do dodatkowych informacji nie jest możliwe przypisanie zidentyfikowanej osobie konkretnych danych zapisanych w systemie.
W zasadzie to pojęcie mogłoby w języku polskim brzmieć „kryptonimizacja”, ale w praktyce funkcjonuje jako pseudonimizacja (ze względu na takie określenie tego zagadnienia w RODO, o czym powyżej w tekście).
W efekcie pseudonimizacji otrzymujemy ciąg informacji (nadal o charakterze danych osobowych), na podstawie których nie jest możliwe odszyfrowanie konkretnej osoby fizycznej bez posiadania klucza, na którym oparto proces pseudonimizacji. W praktyce oznacza to, że osoba nieuprawniona nie jest w stanie ustalić tożsamości osoby, której dane dotyczą, bez dostępu do dodatkowych informacji. Informacje pozwalające na ponowną identyfikację osoby powinny być objęte środkami technicznymi oraz odpowiednimi zabezpieczeniami organizacyjnymi.
Co oznacza pseudonimizacja?
Z tego wynika, że możemy znaleźć właściciela danych, ponieważ nie są one zmieniane i zaciemniane tak, jak w przypadku anonimizacji, a jedynie zaszyfrowane. Taki sposób zabezpieczenia danych związany jest również z wymaganiami RODO w celu ochrony danych przed cyberatakami.
Jak stwierdzić czy dana osoba fizyczna jest możliwa do zidentyfikowania mimo pseudonimizacji danych?
W tym przypadku niestety zapisy są mniej precyzyjne, bo odwołują się do wszelkich prawdopodobnych (oraz rozsądnych) sposobów i uzasadnionego prawdopodobieństwa, że zostaną wykorzystane w celu identyfikacji. Kryterium weryfikacji mogą stanowić koszty, czas oraz technologia, jakie byłyby potrzebne do osiągnięcia tego celu.
Pseudonimizacja w praktyce
Zaletą pseudonimizacji jest fakt, że jest łatwa do osiągnięcia niezależnie od warunków. Istnieje wiele sposobów na pseudonimizację danych, które zależą od tego, jaki chcemy uzyskać poziom wpływu na ich prywatność.
Pseudonimizacja pozwala zachować korelację różnych danych przypisanych do konkretnej osoby jako całość, a zarazem zapewnia tej osobie anonimowość.
Ponadto wykorzystanie pseudonimizacji przynosi jeszcze inne korzyści: przepisy dotyczące pseudonimizowanych danych są znacznie mniej restrykcyjne niż w stosunku do czystych danych wrażliwych (niepoddanych pseudonimizacji). Mniejsze wymogi, to większe bezpieczeństwo prawne i mniejszy koszt.
Wykorzystaj możliwość anonimizacji i pseudonimizacji danych za pomocą rozwiązania Soflab G.A.L.L.
Pseudonimizacja – sposoby i przykłady:
Pseudonimizacji możemy dokonać za pomocą:
-
- zaciemniania lub maskowania liter,
- szyfrowania z zastrzeżeniem, że klucz (algorytm) dekodujący przechowywany jest w innej bazie,
- tokenizacji, poprzez wykorzystanie wejściowego strumienia znakowego do tworzenia tokenów,
- zastępowania części danych ciągiem znaków (znamy to choćby ze sposobu podawania numeru kart płatniczych),
- modyfikacji danych w taki sposób, aby pokazywały przybliżone wartości.
Podstawowym atrybutem, który odróżnia pseudonimizację i anonimizację jest jej odwracalność. Anonimizacja jest procesem nieodwracalnym, pseudonimizacja zaś jest odwracalna.
Jak działa aplikacja do anonimizacji danych?
W aspekcie związanym z tworzeniem lub rozwojem oprogramowania poprawna anonimizacja danych i ich eksport są kluczowe dla bezpieczeństwa danych i dla wydajności tworzonych rozwiązań.
W tej sytuacji warto skorzystać z rozwiązań dostępnych na rynku oraz doświadczenia ekspertów, którzy je projektują. Dzięki temu umożliwiamy programistom, deweloperom i testerom użycie wiarygodnych danych, jednocześnie nie narażając poufnych danych produkcyjnych.
Rozwiązania IT służące anonimizacji i pseudonimizacji baz danych mają wiele zalet i wspierają organizacje w ochronie danych przetwarzanych w systemach informatycznych. Algorytmy narzędzia Soflab G.A.L.L. wspierają proces identyfikacji danych wrażliwych i ich modyfikacji w taki sposób, aby nie było możliwe ustalenie tożsamości osoby, której dane dotyczą.
Zwiększanie liczebności danych
Co ciekawe, narzędzie do anonimizacji danych Soflab G.A.L.L. umożliwia generowanie nowych przypadków testowych. Narzędzie pozwala na pobranie spójnej próbki danych, która może podlegać dalszej obróbce oraz powielaniu, tworząc nowe pozycje w bazie z losowymi atrybutami (inne nazwisko, wiek, zawód itp.) Dzięki temu możemy powiększać liczbę danych i testować oprogramowanie pod dużym obciążeniem.
Operację tę można przeprowadzać szybko oraz wielokrotnie i mimo powtarzalności działania, za każdym razem otrzymamy inny efekt, ciągle zachowując spójność danych.
Polska aplikacja do anonimizacji danych
Środowisko testowe lub deweloperskie jest jednym z tych obszarów w firmie, gdzie najłatwiej dochodzi do wycieku danych, dlatego powinno być objęte szczególnymi procedurami ochrony danych osobowych. Aplikacja Soflab G.A.L.L. jest tak zaprogramowany, że procesu raz zanonimizowanych danych nie da się odwrócić z wykorzystaniem tych samych reguł. Pozwala to na zwiększenie bezpieczeństwa danych w środowisku nieprodukcyjnym i w 100% zapobiega identyfikacji.
Anonimizacja i pseudonimizacja danych wrażliwych z wykorzystaniem Soflab G.A.L.L. pozwala na stworzenie w pełni funkcjonalnych baz danych, zawierających wiarygodne informacje i gotowych do użycia w środowiskach nieprodukcyjnych.
Otwarta architektura aplikacji Soflab G.A.L.L. łatwo dostosowuje się do środowiska organizacji i istniejących rozwiązań. Proces anonimizacji możemy realizować z plików csv zawierających zrzut zawartości tabel z systemu lub poprzez bezpośrednie połączenie do baz danych, opartych na motorach ze sterownikami JDBC lub connector Python.
Podsumowanie
Skuteczne rozwiązania stosowane w zakresie ochrony danych osobowych wymagają odpowiednich narzędzi oraz doświadczenia. Zapewnienie zgodności tych rozwiązań z regulacjami prawnymi oraz realizacja obowiązku ochrony danych powinny być priorytetem dla każdej organizacji. Warto przechowywane bazy danych poddać pseudonimizacji lub anonimizacji nawet wówczas, gdy nie są udostępniane podmiotom zewnętrznym (np. w ramach pracy nad rozwojem systemu informatycznego). Dzięki temu cały proces jest zgodny z RODO.
Prawo do zapomnienia wynikające z przepisów ustawy lub indywidualnego życzenia klienta realizowane jest poprzez usunięcie wszystkich danych wrażliwych osoby, której dane dotyczą. Skorzystanie z rozwiązań, takich jak anonimizacja danych osobowych pozwala realizować przepisy dotyczące prawa do zapomnienia, a zarazem daje możliwość zachowania niewrażliwych danych jako zestawu anonimowych informacji o zachowaniach klientów. Pozwala to na lepsze dostosowywanie procesów w organizacjach poprzez wykorzystanie tych danych do doskonalenia procedur i oferty.
Jeśli interesuje Cię zwiększenie bezpieczeństwa danych w środowisku nieprodukcyjnym (testowym lub deweloperskim) skontaktuj się z nami, a wyjaśnimy, jak za pomocą polskich algorytmów zwiększyć bezpieczeństwo bazy danych i zachować przy tym jej właściwości statystyczne, zwiększać wolumen danych i realizować prawo do zapomnienia bez utraty cennych informacji oraz zgodnie z wymaganiami RODO.