Salta ai contenuti. | Salta alla navigazione

Strumenti personali

BIOINFORMATICA E BIOSTATISTICA

Anno accademico e docente
Non hai trovato la Scheda dell'insegnamento riferita a un anno accademico precedente? Ecco come fare >>
English course description
Anno accademico
2021/2022
Docente
ANDREA BENAZZO
Crediti formativi
6
Periodo didattico
Secondo Semestre
SSD
BIO/18

Obiettivi formativi

Il corso ha l'obiettivo di fornire allo studente la comprensione di come l'informazione genomica è organizzata all'interno delle cellule procarioti ed eucarioti, degli strumenti bioinformatici necessari per la sua caratterizzazione e di alcune tecniche di analisi statistica utili per la sua comprensione. In particolare, verranno approfondite le tecniche molecolari di ultima generazione necessarie per il sequenziamento di genomi completi, con particolare enfasi sulla preparazione del campione biologico (creazione della library), sui principi di sequenziamento delle piattaforme Illumina, PacBio e Nanopore, e sulle procedure bioinformatiche per il trattamento dei dati di sequenziamento in uscita da queste piattaforme fino all'identificazione dei polimorfismi a livello individuale e di popolazione. Lo studente apprenderà come completare queste fasi di analisi bioinformatica sia in presenza di un genoma di riferimento noto, sia in sua assenza, generando un assemblaggio di un genoma “de novo”. Inoltre, verranno introdotte alcune tecniche di analisi statistica necessarie per l'analisi di fenomeni biologici complessi e all'interpretazione dei risultati provenienti da studi sperimentali. Le attività di laboratorio permetteranno agli studenti di acquisire le abilità pratiche necessarie per applicare gli strumenti bioinformatici a dati di sequenziamento reali presi dalla letteratura in ambiente Linux e approfondirne i passaggi fondamentali come il controllo della qualità dei dati di sequenziamento, il loro allineamento ad un genoma di riferimento, il controllo della qualità degli allineamenti (rimozione duplicati di PCR e riallineamento delle piccole inserzioni/delezioni) e l'identificazione delle varianti (SNP e INDEL).
Tramite le lezioni teoriche lo studente comprenderà come il genoma è organizzato in modo differente nei diversi organismi viventi, come è possibile sequenziarlo in modo efficiente con le tecnologie di sequenziamento più diffuse, come devono essere trattati i dati di sequenziamento per identificare le varianti genomiche e alcuni metodi statistici per l'interpretazione dei dati sperimentali. Tramite le attività di laboratorio, lo studente apprenderà come applicare gli strumenti bioinformatici più utilizzati a dati di sequenziamento reali in ambiente Linux e come applicare le nozioni di statistica ai risultati prodotti dall'attività di ricerca sperimentale.

Prerequisiti

Sebbene non ci siano regole di propedeuticità, l’analisi bioinformatica dei dati di sequenziamento genomico richiede che lo studente abbia solide basi di genetica, in particolare delle leggi dell’ereditarietà e dei meccanismi mutazionali. Inoltre, l'apprendimento degli elementi teorici di biostatistica richiede la conoscenza degli elementi principali di statistica di base. Saper utilizzare a livello base un computer è inoltre richiesto per l'apprendimento delle abilità pratiche da parte dello studente.

Contenuti del corso

Il corso prevede 40 ore di lezioni frontali teoriche, corrispondenti a 5 crediti formativi, e 12 ore di lezioni pratiche, corrispondenti a 1 credito formativo di laboratorio, relative ai seguenti argomenti principali:
-Il flusso dell'informazione genica: dal DNA alle proteine (2 ore). La trascrizione e la traduzione. Tipi di mutazioni: sostituzioni nucleotidiche e amminoacidiche. Creazione di variabilità genetica per inserzione, delezione e ricombinazione.
- Genomi: struttura, contenuto e organizzazione in organismi procarioti ed eucarioti (4 ore).
- Organizzazione del genoma umano come esempio di un genoma eucariote (2 ore).
- Metodologie di sequenziamento di nuova generazione (8 ore). Preparazione della libreria, sequenziamento e lettura del segnale utilizzando la piattaforma di sequenziamento Illumina.
- Metodologie di sequenziamento a singola molecola. Introduzione alle piattaforme PacBio e Nanopore (4 ore).
- Assemblaggio di un genoma “de novo” (8 ore).
- Identificazione delle varianti a partire da dati di sequenziamento di nuova generazione usando un genoma di riferimento (6 ore). Controllo qualità delle reads. Algoritmi di allineamento efficienti. Rimozione dei duplicati di PCR. Riallineamento degli indel. Scoperta delle varianti e chiamata del genotipo associato. Validazione dei polimorfismi.
- Correlazione tra variabili numeriche (2 ore): Stima del coefficiente di correlazione lineare, verifica di ipotesi, Assunzioni principali, Correlazione non parametrica.
- La regressione (4 ore): Concetto di regressione lineare, Qualità delle previsioni, Verifica delle ipotesi sulla pendenza, Assunzioni, Trasformazioni di variabile, Effetti degli errori di misura, Regressione non lineare.
- Esercitazione di Laboratorio (12 ore). Introduzione a Linux e a bash. Controllo qualità delle reads (fastqc). Allineamento delle reads ad un genoma di riferimento (bwa). Operazioni sugli allineamenti (samtools). Controllo delle qualità dell'allineamento (samtools+GATK). Identificazione dei polimorfismi e chiamata dei genotipi (freebayes). Controllo della qualità delle varianti (vcflib).

Metodi didattici

Il corso è strutturato in lezioni teoriche frontali e lezioni pratiche al computer in laboratorio multimediale. Sono previste 52 ore di lezione complessive divise in 40 ore di lezione teoriche e 12 ore di esercitazioni. Ogni lezione viene svolta dal docente in aula multimediale, con il supporto della proiezione di presentazioni power-point e della lavagna per la descrizione degli argomenti teorici. Durante il corso, allo studente vengono descritti gli argomenti teorici relativi allo studio del genoma di vari organismi dalla produzione dei dati di sequenziamento, al loro trattamento dal punto di vista bioinformatico, fino alla scoperta dei polimorfismi caratteristici di ogni individuo. Inoltre, allo studente viene descritta la teoria alla base delle principali metodologie statistiche atte alla ricerca e descrizione dell'associazione tra variabili numeriche. I concetti teorici vengono successivamente applicati a dati di sequenziamento reali durante il laboratorio didattico. In questa fase, agli studenti viene fornito un computer con sistema operativo Linux configurato con tutti gli strumenti bioinformatici necessari per affrontare tutte le fasi previste.

Modalità di verifica dell'apprendimento

Il raggiungimento degli obiettivi formativi indicati precedentemente verrà verificato da prova scritta composta da una combinazione di domande aperte (a risposta breve), domande a risposta multipla e piccoli esercizi, per un totale di 30 quesiti. 25 domande saranno inerenti il programma teorico, mentre 5 domande verteranno sugli argomenti svolti durante il laboratorio. Per il superamento della prova è necessario rispondere ad almeno 16 domande su 30, in un tempo massimo di 1 ora e 30 minuti.

Testi di riferimento

Next-Generation Sequencing Data Analysis di Xinkun Wang (CRC Press)
Bioinformatica, Pascarella e Paiardini, Zanichelli