Creazione di valore per imprese e società con la gestione e l’analisi di Big Data

FSE logo.png

Dottorato di ricerca POR FSE 2014-2020 Operazione RIF/PA 2016-8486/RER approvato da Dgr 339/2016 OBIETTIVO TEMATICO 10 - PIANO TRIENNALE ALTE COMPETENZE PER LA RICERCA, IL TRASFERIMENTO TECNOLOGICO E L'IMPRENDITORIALITÀ

Titolo dell’ambito di ricerca: Analisi di Big Data con trattamento di incertezza

Dottorando: Dott.ssa Fadja Arnaud Nguembang 

Referente scientifico/supervisore borsa di dottorato: Prof.ssa Evelina Lamma e Prof. Fabrizio Riguzzi

Dipartimento di afferenza: Ingegneria e Matematica

Corso di dottorato relativo al 32° ciclo nel quale si inscrive il progetto: Dottorato in Scienze dell’Ingegneria

Il progetto

Le sfide poste oggi dai Big Data sono molteplici: dalla raccolta e il miglioramento delle tecniche di memorizzazione, alla definizione di tecniche analitiche robuste, scalabili e con alte prestazioni per l’elaborazione di moli di dati sempre crescenti. Al contempo, il rumore, spesso presente nei dati, induce a svolgere anche un’attività di indagine e ricerca sulla definizione, sviluppo, e testing di tecniche analitiche che siano in grado di trattare incertezza. Nel tempo si sono combinati approcci dichiarativi, anche basati sulla logica, con la teoria della probabilità, proprio per rappresentare e ragionare con conoscenza incerta. Questa combinazione è stata particolarmente utile per analizzare i dati perché le tendenze, i modelli e gli schemi non sono mai veri in assoluto nei dati, ma con una certa probabilità. Per questo si è sviluppata l’area della Programmazione Logica Induttiva Probabilistica, dove si apprendono, in modo automatico, regole logiche a partire dai dati, a ciascuna delle quali è associato un valore di probabilità ancora determinato partendo dai dati. La scoperta di modelli, anche probabilistici, da grandi moli di dati ha richiesto una revisione degli approcci analitici e di apprendimento automatico utilizzati sino a oggi, estendendoli a versioni parallele (l’approccio Map-Reduce appare in questo senso promettente), e sperimentandoli in applicazioni reali ove la raccolta dati sia già avviata o facilmente realizzabile mediante adeguate infrastrutture software.

Il contributo è stato relativo allo sviluppo, testing e sperimentazione di tecniche analitiche per l’estrazione di modelli probabilistici da grandi moli di dati, e si è integrato con quello degli altri partner progettuali relativi a tecniche statistiche e matematiche.