indietro

19/06/2024 IA E WEB SCRAPING: LA NOTA INFORMATIVA DEL GARANTE PER DIFENDERE I DATI PERSONALI DIFFUSI DAGLI ENTI

Il documento è riservato agli abbonati

Per qualsiasi informazione inerente i prezzi o le modalità di effettuazione del servizio, contatta l'agente di zona oppure scrivi a info@entionline.it
o telefona allo 030/2531939.

Per finalità di addestramento dei sistemi di intelligenza artificiale generativa (GIA) viene sistematicamente effettuata un’attività di raccolta massiva, attraverso tecniche di web scraping, di grandi quantità di dati, anche personali.

La raccolta viene effettuata sia sui siti web sia sulle piattaforme online gestiti da PA, organismi partecipati e soggetti privati.

Se non ché, la finalità di addestramento dei sistemi di GIA non è compresa tra le finalità per la quali PA, organismi partecipati e soggetti privati raccolgono e trattano dati personali anche mediante la pubblicazione online.

Fermo restando che qualunque titolare, pubblico o privato, effettua la pubblicazione di dati personali online solo se sussiste una o più basi giuridiche che consente tale trattamento, come indicato dall’art. 6 del Regolamento, la finalità del trattamento è, di regola, una specifica finalità istituzionale diversa dalla costituzione di basi di dati aperte per l’utilizzo da parte di terzi, ai fini di addestramento di algoritmi di intelligenza artificiale.

In disparte la criticità dell’assenza o insufficienza delle finalità del trattamento relativamente all’addestramento dellea GIA va dato atto, sotto altro e diverso profilo, che le caratteristiche peculiari della tecnologia innovativa sottesa ai sistemi di GIA può comportare dei seri rischi per la protezione dei dati personali degli interessati in quanto gli stessi, in presenza di attività web scraping, potrebbero incontrare plurime difficoltà nell’esercitare, in maniera efficace, i diritti riconosciuti dal Regolamento agli artt. da 13 a 22.

L’intervento del Garante

L’estensione via via assunta dal fenomeno di web scraping ha indotto il Garante a prendere posizione e, dopo l’indagine conoscitiva avviata nel dicembre 2023 in materia di attività di raccolta massiva di dati, l’Autorità ha pubblicato sulla Gazzetta Ufficiale Serie Generale n. 132 del 7 giugno 2024 :

il provvedimento n. 329 del 20 maggio 2024 contenente la “Nota informativa” con le indicazioni per difendere i dati personali diffusi online da soggetti pubblici e privati in qualità di titolari del trattamento dal web scraping, la raccolta indiscriminata di dati personali su internet, effettuata, da terzi, con lo scopo di addestrare i modelli di Intelligenza artificiale generativa (GIA).

Il documento prende le mosse dal Regolamento (UE) 2016/679 e dal Codice in materia di protezione dei dati personali, recante disposizioni per l'adeguamento dell'ordinamento nazionale al Regolamento (UE) 2016/679 (d.lgs. 30 giugno 2003, n. 196, come modificato dal d.lgs. 10 agosto 2018, n. 101).

Sulla base di tale quadro normativo, il provvedimento dà atto che l’art. 57, par. 1, lett. b) del Regolamento attribuisce all’Autorità di controllo il compito di promuovere la consapevolezza e favorire la comprensione del pubblico riguardo ai rischi, alle norme, alle garanzie e ai diritti in materia di protezione dei dati personali, con particolare attenzione alle attività destinate specificamente ai minori.

In attuazione di tale compito, il Garante ha deliberato di adottare la citata Nota informativa che tiene conto delle osservazioni, dei commenti e delle proposte operative, ricevute all’Autorità, sulle misure adottate ed adottabili dai gestori di siti internet e di piattaforme, sia pubblici che privati, rispetto alla raccolta massiva di dati personali, effettuata attraverso tecniche di webscraping, da parte di società che sviluppano sistemi di intelligenza artificiale generativa, per finalità di addestramento dei relativi algoritmi.

In tale modo sono state fornite le prime indicazioni sul bisogno di compiere alcune valutazioni in ordine all’esigenza di adottare accorgimenti idonei a impedire o, almeno, ostacolare il web scraping, tenuto conto anche della circostanza che - come rilevato dallo stesso Garante - sono stati proprio alcuni soggetti che sviluppano sistemi di intelligenza artificiale generativa a mettere a disposizione dei gestori, pubblici e privati, di siti web e piattaforme online:

le necessarie misure tecnologiche che consentono di escludere, in tutto o in parte, il contenuto dei loro siti e piattaforme dall’attività web scraping indesiderato.

Come si legge dal comunicato redatto dall’Autorità, tra le misure concrete da adottare vi sono:

la creazione di aree riservate, accessibili solo previa registrazione, in modo da sottrarre i dati dalla pubblica disponibilità;
l’inserimento di clausole anti-scraping nei termini di servizio dei siti;
il monitoraggio del traffico verso le pagine web per individuare eventuali flussi anomali di dati in entrata e in uscita; interventi specifici sui bot utilizzando, tra le altre, le soluzioni tecnologiche rese disponibili dalle stesse società responsabili del web scraping (es: l’intervento sul file robots.txt.).

È evidente che le citate misure non rivestano carattere di obbligatorietà.

Si tratta di suggerimenti, non esaustivi, di misure tecniche ed organizzative la cui adozione deve valutata dai titolari dei trattamenti sulla base del principio di accountability, per prevenire o mitigare, in maniera selettiva, gli effetti del web scraping.

La valutazione deve tenere conto di una serie di elementi tra cui:

lo stato dell’arte tecnologico;
i costi di attuazione.

Di seguito si riportano testualmente i suggerimenti del Garante, tratti dalla Nota informativa, e da tenere in considerazione per effettuare le valutazioni in esame.

La Nota informativa: possibili azioni di contrasto al web scraping per finalità di addestramento dell’intelligenza artificiale generativa.

1. Creazione di aree riservate

Atteso che l’addestramento dell’intelligenza artificiale generativa si basa su enormi quantità di dati che spesso provengono da attività di web scraping diretta (ovverosia effettuata dallo stesso soggetto che sviluppa il modello), indiretta (ovverosia effettuata su dataset creati mediante tecniche di web scraping da soggetti terzi rispetto allo sviluppatore del modello) od ibrida, su fonti presenti nel web, la creazione di aree riservate, a cui si può accedere solo previa registrazione, rappresenta una valida cautela in quanto sottrae dati dalla ritenuta pubblica disponibilità. Tale tipologia di cautela tecnico-organizzativa può, sebbene indirettamente, contribuire ad una maggiore tutela dei dati personali rispetto ad attività di web scraping. Di contro, tale misura non può dar luogo ad un trattamento di dati eccessivo da parte del titolare, in violazione del principio di minimizzazione di cui all’articolo 5, par. 1, lett. c), RGPD (a titolo esemplificativo, si ricorda che i titolari del trattamento non dovrebbero imporre in sede di registrazione, agli utenti che navighino sui loro siti web o sulle loro piattaforme online e che fruiscano dei relativi servizi, oneri di registrazione ulteriori ed ingiustificati.

2. Inserimento di clausole ad hoc nei termini di servizio

L’inserimento nei Termini di Servizio (ToS) di un sito web o di una piattaforma online dell’espresso divieto di utilizzare tecniche di web scraping costituisce una clausola contrattuale che, se non rispettata, consente ai gestori di detti siti e piattaforme di agire in giudizio per far dichiarare l’inadempimento contrattuale della controparte. Si tratta di una cautela di mera natura giuridica che opera, in quanto tale ex post, ma che può fungere da strumento di carattere special-preventivo e, in tal modo, fungere da deterrente, contribuendo ad una maggiore tutela dei dati personali rispetto ad attività di web scraping. A tal proposito, si richiamano l’ampio utilizzo e l’efficacia di tale misura, in particolare, nella protezione dei contenuti protetti dal diritto d’autore (si menzionano, tra i tanti, i termini di servizio di YouTube, a cui Google vieta l’accesso con mezzi automatizzati, quali robot, botnet o strumenti di scraping, salvo si tratti di motori di ricerca pubblici, in conformità con il file robots.txt di YouTube o salvo previa autorizzazione scritta da parte di YouTube).

3. Monitoraggio del traffico di rete

Un semplice accorgimento tecnico quale il monitoraggio delle richieste HTTP ricevute da un sito web o da una piattaforma consente di individuare eventuali flussi anomali di dati in ingresso ed in uscita da un sito web o da una piattaforma online e di intraprendere adeguate contromisure di protezione. Tale cautela può essere accompagnata anche da un Rate Limiting, una misura tecnica che permette di limitare il traffico di rete ed il numero di richieste selezionando solo quelle provenienti da determinati indirizzi IP, al fine di impedire a priori un traffico eccessivo di dati (in particolare attacchi DDoS o web scraping). Si tratta di cautele di natura tecnica che, sebbene indirettamente, possono contribuire ad una maggiore tutela dei dati personali rispetto ad attività di web scraping per finalità di addestramento dell’intelligenza artificiale generativa.

4. Intervento sui bot

Come sopra illustrato, il web scraping si basa sull’utilizzo di bot. Qualunque tecnica in grado di limitare l’accesso ai bot si rivela, pertanto, un efficace metodo per arginare l’attività automatizzata di raccolta dati che viene effettuata tramite tali software. È doveroso sottolineare che nessuna tecnica che agisce sui bot è in grado di annullarne l’operatività al 100%, ma anche che alcune azioni di contrasto possono indubbiamente contribuire a prevenire/mitigare il web scraping non desiderato per finalità di addestramento dell’intelligenza artificiale generativa. A tal proposito si menzionano, a titolo meramente esemplificativo:

i) l’inserimento di verifiche CAPTCHA (Completely Automated Public Turing-test-to-tell Computers and Humans Apart) le quali, imponendo un’azione eseguibile solo da un essere umano, impediscono l’operatività dei bot;

ii) la modifica periodica del markup HTML, in modo da ostacolare o comunque rendere più complicato lo scraping da parte dei bot. Tale modifica può essere realizzata mediante annidamento di elementi HTML oppure modificando altri aspetti del markup, anche in maniera randomica.

iii) l'incorporazione dei contenuti ovvero dei dati che si intendono sottrarre alle attività di scraping all'interno di oggetti multimediali, quali ad esempio immagini (si pensi all’uso di tale tecnica nel caso di testo breve come numeri di telefono o email) o altre forme di media. In questo caso l’estrazione dei dati da parte del bot risulterebbe significativamente più complessa. Ad esempio, per l'estrazione dei dati dall'immagine – posto che il bot sia stato in grado di identificarne la presenza ivi codificata – sarebbe necessario il riconoscimento ottico dei caratteri (OCR), non esistendo il contenuto come stringa di caratteri nel codice della pagina web. Corre tuttavia segnalare come una tal misura, pur rappresentando una possibile forma di sottrazione di alcuni dati all’attività di scraping, potrebbe rappresentare un ostacolo per gli utenti che perseguano alcuni legittimi fini, (e.g. impossibilità di copiare i contenuti dal sito web).

iv) il monitoraggio dei file di log, al fine di bloccare eventuali user-agent non desiderati, ove identificabili

v) l’intervento sul file robot.txt.

Il file robot.txt è uno strumento tecnico che, dal giugno 1994, riveste un ruolo fondamentale nella gestione dell’accesso ai dati contenuti nei siti web, in quanto consente ai gestori di indicare se l’intero sito o alcune sue parti possono o meno essere oggetto di indicizzazione e scraping. Creato come strumento per regolare l’accesso dei crawler dei motori di ricerca (e quindi per controllare l’indicizzazione dei siti web) l’accorgimento basato sul robots.txt (sostanzialmente, una black-list di contenuti da sottrarre all’indicizzazione) si è evoluto nel REP (Robot Exclusion Protocol), un protocollo informale per consentire (allow) o non consentire (disallow) l’accesso alle diverse tipologie di bot. Nel caso di specie, è teoricamente ipotizzabile l’inserimento nel file robot.txt di indicazioni volte a non consentire (disallow) l’azione di specifici bot finalizzati allo scraping per finalità di addestramento dell’intelligenza artificiale generativa facenti capo a determinati sviluppatori. Esistono, infatti, alcuni bot che, per autodichiarazione degli stessi sviluppatori di IAG, sono finalizzati allo scraping per tali finalità.

Si riportano, a titolo meramente esemplificativo, i bot di OpenAI (GPTBot)e di Google (Google-Extended), che possono essere esclusi, tramite REP, per prevenire lo scraping totale o parziale di un sito web da parte dei relativi sviluppatori. Si tratta di una misura tecnica mirata, ma limitata nella sua efficacia per diversi ordini di motivi, tra cui:

1) il REP non è uno standard riconosciuto e, pertanto, il suo rispetto si basa solo sull’assunzione di un impegno etico da parte dei web scraper;

2) esistono bot che raccolgono dati dal web mediante tecniche di scraping per finalità non esclusivamente di addestramento di IAG ed ai cui data lake gli sviluppatori di IAG ricorrono frequentemente per le proprie finalità (tra questi, il più noto è sicuramente il CCBot della non-profit Common Crawl, sopra citata);

3) similmente, esistono bot di sviluppatori di IAG la cui finalità non è stata esplicitamente dichiarata o di cui non sono stati condivisi i dettagli tecnici, per cui è difficile conoscere i comportamenti e gli scopi del loro utilizzo (e.g. ClaudeBot di Anthropic).

Conclusione

L’intelligenza artificiale generativa è foriera di benefici per la collettività che non possono essere limitati, negati, né sminuiti. L’addestramento dei modelli sottesi al funzionamento di tali sistemi richiede, tuttavia, una mole ingente di dati (anche di carattere personale), spesso provenienti da una raccolta massiva ed indiscriminata effettuata sul web con tecniche di web scraping. I gestori di siti web e di piattaforme online che rivestano al tempo stesso il ruolo di titolari del trattamento, fermi restando gli obblighi di pubblicità, accesso, riuso e di adozione delle misure di sicurezza previste dal RGPD, dovrebbero valutare, caso per caso, quando risulti necessario, in conformità alla vigente disciplina, sottrarre i dati personali che trattano ai bot di terze parti mediante l’adozione di azioni di contrasto come quelle indicate che, sebbene non esaustive né per metodo, né per risultato, possono contenere gli effetti dello scraping finalizzato all’addestramento degli algoritmi di intelligenza artificiale generativa.

Team All privacy Entionline

Categorie

News

Parole chiave

Dati personali

Garante Privacy