EntiOnLine
Categorie
indietro
10/02/2020 BIG DATA - Big Data, dati personali e procedure di anonimizzazione
Il documento è riservato agli abbonati

Per qualsiasi informazione inerente i prezzi o le modalità di effettuazione del servizio, contatta l'agente di zona oppure scrivi a info@entionline.it
o telefona allo 030/2531939.

Big Data nell’ecosistema digitale italiano: considerazioni del Garante per la protezione dei dati personali - Big Data, dati personali e procedure di anonimizzazione

Per quanto sia emerso nel corso dell’Indagine l’assunto secondo il quale le tecniche di Big Data sovente non richiedono l’uso di dati personali, è tuttavia necessario che chi intenda effettuare operazioni di trattamento secondo tale metodologia si accerti, in via preliminare, della natura personale o meno dei dati trattati, così da identificare (come si è visto) la cornice normativa di riferimento all’interno della quale opera. In questa prospettiva, sebbene la linea di demarcazione tra dati di natura personale e non possa essere in concreto difficile da tracciare –in particolare in ragione della possibilità di riconnettere informazioni apparentemente anonime (o anonimizzate) a individui singoli a seguito delle peculiari operazioni di trattamento effettuate (nel tempo sempre più agevolmente realizzabili, sia per le aumentate capacità di calcolo, sia per la pluralità di archivi in ipotesi utilizzabili, aventi anche genesi ed utilizzi prospettici diversi al tempo della raccolta) –, un utile contributo può essere tratto dalle decisioni delle autorità di protezione dei dati e dagli indirizzi assunti dal Comitato europeo per la protezione dei dati, come pure dalle migliori prassi via via elaborate (e comunque soggette a continui aggiornamenti) in tema di anonimizzazione dei dati personali.

Comprensibilmente (ed opportunamente) una via d’uscita (per molti quella maestra) viene ricercata nelle soluzioni tecnologiche, prima fra tutte nella effettiva anonimizzazione dei dati che dovrebbero andare a costituire i Big Data, cui associare, ove necessario, misure di natura organizzativa e/o contrattuale preordinate allo stesso scopo.

E tuttavia, come si è accennato, anche questa strada deve essere percorsa con prudenza, con analisi casistica, avendo da tempo la comunità scientifica, come pure le autorità di protezione dei dati evidenziato i rischi di re-identificazione degli interessati utilizzando dataset ulteriori (pur privi di identificativi individuali); rischio amplificato dalla (via via) crescente massa di informazioni liberamente disponibili (anche per il legittimo riuso) on-line.

Pari attenzione deve essere prestata nel caso in cui l’utilizzo di Big Datasi incentri sul trattamento di dataset acquisiti presso terzi: il titolare del trattamento, oltre a considerare l’incrementato rischio di re-identificazione che potrebbe derivarne, deve altresì accertarsi della sussistenza delle condizioni di riutilizzo dei dati così acquisiti (circostanza peraltro ricorrente in ambiti più tradizionale, quali quelli legati alla circolazione di databas e contenenti dati personali per finalità di marketing).

Al netto di tali considerazioni, le tecniche di analisi basate sul paradigma Big Data comportano una serie di rischi diretti o indiretti che è necessario fronteggiare con misure di sicurezza adeguate, efficaci, realizzate a regola d’arte (state of the art) e continuamente valutate e aggiornate, sia nell’ottica della conformità all’art. 25 del RGPD (data protection by design/default) che del rispetto dell’art. 32 del RGPD (sicurezza dei trattamenti). È infatti evidente come le elaborazioni Big Data, pur basate su dataset anonimi o (semplicemente) ritenuti anonimi, rechino pericoli di possibile pregiudizio a diritti e libertà degli interessati cui i dati possono essere riferiti: come accennato, pur partendo da dati anonimi (perché ottenuti da dati personali sottoposti a procedure di mascheramento o di anonimizzazione) molto spesso permane nei dati di output la possibilità che si producano effetti di singleoutingo di reidentificazione, con conseguenze che si riflettono su un individuo o un gruppo di individui, ancorché non compiutamente individuati.

Esempi di singleouting ricorrono infatti nella letteratura statistica e informatica,e una casistica ricorrente riguarda le elaborazioni possibili su dati demografici e sanitari, possibilmente correlati ad altre raccolte pubblicamente disponibili, come le liste elettorali. Alla fine degli anni ’90 del secolo scorso la ricercatrice americana Latanya Sweeneyche contribuì, insieme alla collega Pierangela Samarati, a gettare le basi della teoria della k-anonymity quale misura per limitare il potenziale identificativo delle grandi raccolte informatizzate di dati, e pubblicò i primi articoli scientifici che suscitarono interesse e preoccupazione nel pubblico.

Il nuovo Regolamento europeo introduce, anche rispetto agli aspetti di sicurezza dei trattamenti, diverse novità e tra queste merita di soffermarsi sul richiamato art. 32 sulla sicurezza dei trattamenti, in cui viene posto l’accento sull’esigenza della protezione dei dati come via per garantire i diritti e le libertà delle persone, e viene suggerita, tra le altre, la misura della pseudo nimizzazione, procedura meno incisiva della anonimizzazionema idonea ad abilitare alcune forme di trattamento riducendo i rischi di reidentificazione.

C’è da osservare, però, che il confine netto, la dicotomia tra dato anonimo, e perciò non personale, e dato personale, non corrisponde alla realtà concreta dei trattamenti. Si riscontra piuttosto una sorta di continuità tra questi due concetti, che comporta la gradazione progressiva dall’anonimato impersonale all’identificazione: una dose residua di identificabilità è quindi presente in tante raccolte di dati comunemente ritenute anonime, mentre è individuabile anche quantitativamente (con metodi matematici) un trade-offtra anonimizzazione e utilità del dato. La tecnologia può rendere oggi un dato anonimizzato e domani renderlo nuovamente dato personale. D’altra parte, la definizione stessa di dato personale, valorizzando la potenzialità del linkage tra differenti dati, anche in possesso e sotto il controllo di differenti soggetti, nella qualificazione di un dato come dato personale, fa sì che la nozione di dato personale acquisti un’ampiezza che sfugge a molti.

Un dato di fatto incontrovertibile è che la disponibilità crescente di dati rende le persone sempre più identificabili. Questo rischio non può essere affrontato con strumenti analitico-matematici ma può essere più efficacemente affrontato con policy che comprendano considerazioni etiche e valutazioni su chi siano i destinatari dei dati anonimizzati, quali siano le garanzie di correttezza che essi offrono, che possibilità di disclosur e successiva permane nei dati conferiti.

Venendo allora a considerare più da vicino il tema dell’anonimizzazione dei dati, va ricordato che obiettivo di tale operazione di trattamento è impedire che sia possibile, utilizzando mezzi “ragionevoli”: 1) isolare una persona in un gruppo; 2) collegare un dato anonimizzato a dati riferibili a una determinata persona censiti in una differente base di dati; 3) la deduzione di nuove informazioni personali a partire da un dato anonimizzato.

Diverse sono le tecniche di anonimizzazione che nel contesto dei Big Data possono essere adottate in base alle esigenze di trattamento, e ricadono nelle macrocategorie della randomizzazione e della generalizzazione. Le tecniche di randomizzazione e quelle di generalizzazione mirano a far diminuire le probabilità di successo dei tentativi di ricondurre a una persona individuata i dati sottoposti ad anonimizzazione e forniscono delle metriche per rendere quantificabile e matematicamente limitabile il rischio residuo.

La randomizzazione può consistere nell’introduzione di un “rumore” statistico o nello shuffling degli attributi riferibili a un insieme di individui (sostanzialmente permutando le proprietà di un membro di un insieme di individui con quelle di altri appartenenti allo stesso gruppo).

Le tecniche di generalizzazionesono invece basate sull’idea, presente in materia censuale e demografica, di evitare effetti di single outing modificando la scala di rappresentazione di determinati attributi: per esempio, in un dataset demografico si può scegliere di utilizzare, al posto del CAP (codice di avviament postale che, unito ad altre informazioni anagrafiche permette con elevata probabilità di arrivare al single out), un codice geografico su più ampia scala che trasformi il riferimento a una ristretta area geografica (quartiere, città) in un dato riferibile a una molteplicità di luoghi (provincia, regione...), con ciò abbattendo drasticamente la probabilità di reidentificare i soggetti cui si riferiscano i dati elaborati.

Procedure analoghe possono essere messe in atto per i riferimenti temporali (minore dettaglio sulle date, con riferimento, per esempio, all’anno di nascita o a intervalli di date, e non alla data esatta).

Con queste tecniche si realizza per via informatica una protezione “per affollamento” (crowding), analoga a quella dell’individuo che cerca di mischiarsi a una folla indistinta di persone per rendersi meno riconoscibile in pubblico.

Le tecniche di anonimizzazione devono però produrre dati non privi di valore a fini di elaborazione, altrimenti verrebbe meno l’utilità di questo procedimento o di altri analoghi basati sullo stesso paradigma. Per esempio, se scopo di un’elaborazione su larga scala fosse uno studio epidemiologico, l’ampliamento dell’area geografica attribuibile a un record individuale rischierebbe, se troppo marcato, di annullare il valore informativo relativo alla maggiore o minore pertinenza di una certa patologia a un determinato territorio o area.

La valutazione sul rischio potenziale connesso alla disponibilità di dati anonimizzati dipende però da informazioni che non necessariamente potranno essere disponibili in maniera sufficiente al momento della decisione e della scelta del metodo di anonimizzazione: una sorgente pubblica di dati potrebbe essere resa disponibile successivamente alla pubblicazione di un dataset ritenuto anonimo che, in modo imprevedibile, si vedrebbe ricongiungibile a informazioni, non note a priori, che consentirebbero il linkage e il singleout ai danni di determinate persone. L’anonimizzazione non può pertanto essere considerata un’operazione una tantum e i relativi rischi dovrebbero essere oggetto di un riesame periodico da parte dei titolari del trattamento.

La pseudonimizzazione, invece, è una misura meno radicale dell’anonimizzazione, prevista dal nuovo regolamento europeo quale misura di sicurezza utilizzabile, su valutazione del titolare, per determinati tipi di trattamento. In particolare, con la pseudo nimizzazione viene mantenuta la corrispondenza 1:1 del dato pseudonimizzato con il dato originario. I dataset pseudonimizzati recano intatto il valore informativo statistico, non essendo frutto di alterazioni di scala o di distorsioni di varia natura (come nei metodi di randomizzazione). La pseudonimizzazione quindi, nelle varie forme in cui può essere realizzata, consente di mantenere l’utilizzabilità statistica dei dati, senza annullarne il valore informativo, tutelando nel contempo l’identità dei soggetti cui si riferiscono.

Sarà responsabilità del titolare che ricorre alla pseudonimizzazione quale misura di sicurezza (indicata, a titolo esemplificativo, dall’articolo 32 del RGPD) curare il mantenimento di quella cesura tra il dato in chiaro e il dato pseudonimizzato, per evitare il più possibile la connessione dei dati alle persone cui si riferiscono.

Esempi di tecniche di pseudonimizzazione comprendono il ricorso a procedure di hashing, ovvero a funzioni matematiche non invertibili che associano a un insieme di dati una stringa di caratteri che non ha relazione alcuna con il contenuto e la semantica del dato, al di là della corrispondenza matematica, e che possono essere rafforzate dal ricorso congiunto a chiavi di hashingche rendano più netta la cesura tra il dato originario e il dato “hashed” anche ricorrendo ad algoritmi di hashingdi pubblico dominio, come MD5 o SHA-256, limitando le possibilità di applicare metodi di reidentificazione per matching.

Il dato pseudonimizzato rimane pur tuttavia dato personalee, come tale, soggetto agli obblighi di protezione sanciti dal regolamento. Qual è dunque il vantaggio del ricorso alla pseudonimizzazione? In primo luogo essa può costituire una salvaguardia nel caso in cui le misure tecniche di sicurezza non siano riuscite a proteggere i dati da una violazione: l’incentivo per i titolari a usare la pseudonimizzazione (in luogo di dati direttamente identificabili) deriva essenzialmente dal differente regime sanzionatorio, ad esempio nel caso di incidenti di sicurezza.

La tecnica più promettente per ridurre il rischio di re-identificazioni è oggi la Differential Privacy, che offre il maggior numero di tutele per gli interessati integrando i benefici delle tecniche di generalizzazione e randomizzazione, in quanto prevede un meccanismo di accesso ai dati basato su interrogazioni (query based mechanism) e non sulla pubblicazione di dati aggregati o randomizzati (sanitized data), ed è molto robusta rispetto alla possibilità di impiegare informazioni ausiliarie (anche pubblicamente disponibili) per la re-identificazione.

Conclusivamente, deve ritenersi che chi intenda avvalersi dei Big Data facendo uso di tecniche di anonimizzazione è tenuto comunque ad effettuare periodicamente un assessment approfondito circa il rischio di re-identificazione, al fine di valutare la “robustezza” delle metodologie impiegate per procedere all’anonimizzazione dei dati e documentando il processo seguito.

Fonte: Rapporto 2020 AGCOM, AGCM E GARANTE sui Big Data

Banca dati