DATA MINING AND ANALYTICS
Anno accademico e docente
Non hai trovato la Scheda dell'insegnamento riferita a un anno accademico precedente?
Ecco come fare >>
- English course description
- Anno accademico
- 2022/2023
- Docente
- FABRIZIO RIGUZZI
- Crediti formativi
- 6
- Periodo didattico
- Secondo Semestre
- SSD
- INF/01
Obiettivi formativi
- L'obiettivo principale del corso consiste nel rendere gli studenti in grado di analizzare i dati memorizzati in database con strumenti di crescente complessità sia descrittivi che predittivi.
Le principali conoscenze acquisite sono relative a:
- data analytics
- knowledge discovery in databases,
- data mining
- machine learning
Le principali abilità (ossia la capacità di applicare le conoscenze acquisite) sono:
- analisi descrittive dei dati,
- analisi predittive dei dati. Prerequisiti
- È necessario avere acquisito e assimilato le seguenti conoscenze (fornite ad esempio dai corsi "Basi di Dati", "Fondamenti di Informatica" e “Fondamenti di Intelligenza Artificiale”):
- modello relazionale dei dati,
- linguaggio SQL di manipolazione e interrogazione dei dati,
- linguaggi di programmazione procedurale (Java, C).
- linguaggi di programmazione logica Contenuti del corso
- Il corso prevede 60 ore di didattica frontale parte in aula e parte in laboratorio.
Introduzione al data mining (7,5 ore): richiami di teoria della probabilità, introduzione all’apprendimento, apprendimento di concetti e ordinamento da generale a specifico
Alberi di decisione, apprendimento di regole proposizionali e apprendimento basato sulle istanze (10 ore).
Reti bayesiane (7,5 ore): inferenza e apprendimento.
Metodi kernel, reti neurali e deep learning (15 ore).
Apprendimento di regole del primo ordine (5 ore).
Linguaggi logico probabilistici (7,5 ore): inferenza e apprendimento.
Data mining descrittivo (7,5 ore): clustering, regole associative. Metodi didattici
- Il corso è diviso in 60 ore di lezione parte in aula e parte nel laboratorio di informatica.
Le lezioni riguardano gli argomenti del corso e includono esercitazioni guidate al calcolatore.
Le esercitazioni in laboratorio riguardano in particolare l’uso del sistema Weka per risolvere problemi di apprendimento automatico e data mining e l’uso di sistemi per l’induzione di regole. Modalità di verifica dell'apprendimento
- L'obiettivo della prova d'esame consiste nel verificare il livello di raggiungimento degli obiettivi formativi precedentemente indicati.
L'esame consiste di una prova scritta e di una prova teorica.
La prova scritta contiene quattro esercizi sugli argomenti del corso. La prova dura due ore. Vale fino a 17 punti. E' consentito usare materiale didattico.
La prova teorica consiste di tre domande sugli argomenti teorici del corso. Vale fino a 15 punti. Non è consentito materiale didattico.
Il voto finale è dato dalla somma dei voti nelle due parti. Per superare l'esame i voti della prova scritta e di quella di teoria devono entrambi essere almeno 9.
Si possono sostenere le due prove in appelli diversi. Testi di riferimento
- i testi di riferimento sono:
Dispense del docente
Fabrizio Riguzzi, “Foundations of Probabilistic Logic Programming”. River Publishers 2018.
T. M. Mitchell, “Machine Learning”, McGraw-Hill, 1997
Ian Witten, Eibe Frank, “Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations”, Second Edition Morgan Kaufmann Publishers, 2005
Hal Daumé III, A Course in Machine Learning, http://www.ciml.info/
Testi consigliati per approfondimento:
Luc De Raedt, “Logical and Relational Learning”, Springer, Series: Cognitive Technologies, 2008
I. Goodfellow, Y. Bengio, A. Courville, and Y. Bengio. “Deep learning”, volume 1. MIT Press, 2016.
Alessandro Rezzani, “Big Data -Architettura, tecnologie e metodi per l’utilizzo di grandi basi di dati”, Apogeo Education, 2013
Matteo Golfarelli, Stefano Rizzi, “Data Warehouse, Teoria e pratica della progettazione”, McGraw-Hill, 2006
Luc De Raedt, Kristian Kersting, Sriraam Natarajan, and David Poole, “Statistical Relational Artificial Intelligence: Logic, Probability, and Computation”, Morgan & Claypool, 2016
Daphne Koller, Nir Friedman, “Probabilistic graphical models: principles and techniques”, MIT Press, 2009
J. Ross Quinlan: “c4.5: Programs for machine learning”, Morgan Kaufmann Publishers, 1992
N. Lavrac and S. Dzeroski, “Inductive Logic Programming Techniques and Applications”, Ellis Horwood, 1994, http://www-ai.ijs.si/SasoDzeroski/ILPBook/