Introduzione
La società in-house progetta e gestisce le infrastrutture fisiche e digitali e contemporaneamente il ciclo degli acquisti aggregati degli Enti della Pubblica Amministrazione regionale.
Tale società ha inteso sviluppare un progetto di valorizzazione dei dati sanitari a sua disposizione al fine di sviluppare un modello di rischio per l’insorgenza di patologie gravi su specifiche categorie di pazienti. Ai fini della realizzazione del progetto, DVC ha fornito alla società supporto tecnologico e giuridico nella definizione di un processo volto al riutilizzo dei dataset disponibili in maniera conforme alla normativa vigente, anche grazie a soluzioni di sintetizzazione dei dati
Challenge
La società aveva l'obiettivo di riutilizzare dataset composti da dati sanitari per sviluppare un modello di machine learning volto a stimare la probabilità di rischio dell’insorgenza di patologie gravi. La disciplina vigente in materia di privacy rende particolarmente difficoltoso il riuso di tale tipologia di dati. Inoltre, le normali tecniche di anonimizzazione dei dati tendono a diminuire alcune proprietà statistiche del dataset di partenza, rendendo quindi più difficile l’elaborazione di modelli predittivi affidabili.
Soluzione
DVC è intervenuta offrendo supporto alla società in due direzioni:
- dal punto di vista tecnologico, offrendo la soluzione tecnica necessaria per consentire l’anonimizzazione dei dati sanitari disponibili garantendo la permanenza delle proprietà statistiche del dataset originario. Tale soluzione consiste nella tecnica di sintetizzazione dei dati, la quale - grazie all'utilizzo di soluzioni di IA - consente la generazione di dati artificiali partendo da un dataset reale le cui proprietà statistiche rimangono invariate;
- dal punto di vista giuridico, supportando la società nell’adempimento dei vari obblighi stabiliti dalla normativa vigente in tema di trattamento dei dati sanitari (es. redazione della DPIA e della relativa valutazione preliminare).
Risultati
La società ha sviluppato la prima fase del progetto pilota, che prevede la sintetizzazione di un dataset previamente anonimizzato al fine di valutare la bontà della soluzione tecnologica offerta. Tale progetto pilota ha dato risultati positivi grazie alla validazione dei risultati effettuata da un soggetto terzo, dimostrando la totale affidabilità dal punto di vista statistico delle tecniche di sintetizzazione proposte. In una seconda fase del progetto, tale tecnologia verrà applicata a un dataset reale contenente dati sanitari ai fini dell’addestramento di modelli di machine learning sempre più affidabili e performanti.