Dati sintetici, l’ultima frontiera della data protection e della condivisione dei dati
Chi lavora con i dati incontra spesso barriere, sia di ordine giuridico che tecnico, nella condivisione di dati sensibili e non con partner o potenziali clienti, esterni alla propria azienda. Queste barriere spesso si traducono in mancate opportunità di crescita e possono ostacolare l’innovazione del prodotto o servizio offerto.
Tuttavia, le aziende e i ricercatori, che mirano ad accedere a questi dati per sviluppare algoritmi o sistemi di machine learning, non necessariamente devono accedere a dati strettamente reali, ma devono poter accedere a set di dati realistici che simulano e mantengono le stesse proprietà statistiche dell’informazione reale. Questi dati alternativi sono noti come dati sintetici.
I dati sintetici sono propriamente dati creati attraverso una particolare tecnica di anonimizzazione basata su modelli di machine learning di tipo generativo. Partendo da un set di dati reali, si allena un sistema di intelligenza artificiale istruito a individuare le correlazioni e metriche statistiche del dataset originale, per poi generare un set di dati ex novo che mantiene la stessa distribuzione statistica del dataset originale, pur non condividendo alcun dato del dataset reale.
La sintetizzazione rende così impossibile risalire al dato reale dal dato generato, senza perdere l’informazione statistica originale; al contrario di quanto accade invece con le normali tecniche di anonimizzazione, dove il dato è eliso di tutti gli elementi “personali” perdendo così parte delle informazioni contenute nel set di dati.
Ogni modello generativo di dati sintetici potrà solo replicare le proprietà specifiche dei dati reali originali. Tuttavia, i dati sintetici hanno diversi vantaggi rispetto ai dati reali:
- il superamento delle restrizioni di utilizzo dei dati: come detto, i dati reali possono avere vincoli di utilizzo dovuti alle norme sulla privacy o ad altri regolamenti, mentre i dati sintetici possono replicare tutte le proprietà statistiche importanti senza esporre i dati reali, eliminando così il problema;
- la creazione di dati per simulare condizioni non ancora verificatesi: dove i dati reali non esistono, i dati sintetici sono l’unica soluzione (ad esempio, nell’allenamento di veicoli a guida autonoma, per studiarne il comportamento in caso di incidente);
- la generazione di dati sintetici è mediamente più economica rispetto all’acquisizione di dati reali;
- la condivisione delle informazioni tra aziende appartenenti allo stesso comparto viene favorita dalla natura meramente statistica delle informazioni, senza il rischio di rendere contendibili i clienti di ciascuna azienda
I dati sintetici rappresentano quindi un’interessante soluzione tecnologica per quelle aziende capaci di integrare sistemi di intelligenza artificiale o strumenti avanzati di data analytics nei propri servizi o flussi di lavoro. In particolare, la sintetizzazione dei dati rappresenta una valida soluzione in quei settori dove la reperibilità e l’utilizzo di dati reali non è sempre possibile, quali:
- l’healthcare, dove il trattamento di dati genetici, biometrici o relativi alla salute gode di un regime particolare di protezione;
- le assicurazioni e i servizi bancari e finanziari, settori in cui la data science e data analytics stanno rivoluzionando i servizi offerti;
- il settore retail, sempre più caratterizzato dalla profilazione della clientela, che deve essere svolta compatibilmente alle disposizioni in materia di privacy;
- e la Pubblica Amministrazione, che possiede un enorme quantitativo di dati di indubbio valore statistico che non sempre può essere reso disponibile al pubblico.
Tuttavia, il vantaggio di utilizzare dati sintetici non si limita a settori dove la disponibilità di dataset reali è limitata, ma anche in qualsiasi altro settore in chiave competitiva.
Infatti, il vantaggio competitivo derivante dall’utilizzo di dati nei processi aziendali cresce soprattutto in funzione della quantità di dati disponibili. Di conseguenza, uno strumento di sintetizzazione può essere utilizzato per generare nuovi dati che, aggregati ai set di dati già in possesso dell’azienda, possono fornire insights più precisi e un vantaggio competitivo nel proprio settore di mercato.
Un elemento da non sottovalutare è, come accennato, il costo della singola informazione. Ogni dato, infatti, per essere utilizzato in modo efficace deve essere acquisito, pre-elaborato ed archiviato, costituendo così un costo importante per l’azienda.
Le tecniche di anonimizzazione hanno la necessità di equilibrare, da un lato, un elevato standard di data protection e, dall’altro, la perdita minima di informazioni riducendo così il valore del dataset.
Sotto questo profilo, chi progetta sistemi generativi di dati sintetici deve ancora contemperare privacy e utilità, tuttavia, non esistendo un collegamento diretto tra il dato reale e quello sintetico, non sarà mai possibile re-identificare il singolo dato originale analizzando gli attributi del dato generato, perchè artificiali, sarà piuttosto necessario valutare quanto il sistema generativo sia “resistente” ad attacchi malevoli mirati a dedurre attributi personali dall’intero dataset sintetico.
Per questi motivi, sembra potersi affermare che un sistema di sintetizzazione debba essere valutato in base all’integrità del proprio modello generativo, piuttosto che sulla base del principio di minimizzazione dei dati, di cui agli artt. 5 e 6 GDPR.
Tra le aziende che per prime hanno introdotto questa tecnologia nell’ecosistema italiano e europeo, vi è Aindo, una startup della SISSA – Scuola Internazionale Superiore di Studi Avanzati – di Trieste che ha creato un sistema basato su machine learning per generare dati sintetici.
Data Valley, in occasione del primo appuntamento della rubrica Data & Co. – Opportunità con i dati, ha intervistato Daniele Panfilo, fondatore e CTO di Aindo, per capire con i protagonisti di questa rivoluzione il funzionamento e le prospettive future di questa entusiasmante soluzione.