BIOINFORMATICA E ANALISI DEI GENOMI
Anno accademico e docente
Non hai trovato la Scheda dell'insegnamento riferita a un anno accademico precedente?
Ecco come fare >>
- English course description
- Anno accademico
- 2015/2016
- Docente
- SILVIA FUSELLI
- Crediti formativi
- 6
- Periodo didattico
- Primo Semestre
- SSD
- BIO/18
Obiettivi formativi
- La genomica è una disciplina biologica che studia il contenuto, la struttura, l’espressione e l’evoluzione del materiale genetico codificante strutture e relative funzioni degli organismi viventi e permette che tale informazione venga trasmessa di generazione in generazione. Con il termine bioinformatica in questo corso si intendono gli strumenti computazionali che permettono di analizzare “in silico” le informazioni prodotte dal sequenziamento di geni e genomi con metodologie di nuova generazione.
Conoscenza e comprensione
Il corso si propone di
-fornire conoscenze sulla struttura e l’organizzazione dei genomi dei procarioti ed eucarioti
-fornire conoscenze sulle principali strategie e tecniche molecolari utilizzate per lo studio dei genomi procarioti ed eucarioti
-insegnare agli studenti come consultare le più importanti banche dati biologiche
-fornire elementi teorici di bioinformatica e genomica computazionale
Le attività di laboratorio permetteranno agli studenti di
-acquisire le basi per poter utilizzare il sistema operativo Linux, essenziale per analizzare le grandi moli di dati prodotte dalle odierne metodologie di sequenziamento dei genomi.
Capacità di applicare conoscenza e comprensione
Gli studenti saranno in grado di
-progettare un’analisi di sequenziamento di genomi procarioti, eucarioti o di effettuare una tipizzazione di una verisone ridotta del genoma
-consultare le principali banche dati biologiche ed estrarre informazioni geniche, genomiche e, in parte, proteiche, utili per progettare esperimenti o analizzare i dati prodotti da esperimenti di tipizzazione di genomi o parte di essi
Gli studenti che frequenteranno il laboratorio svolgeranno un intero progetto di analisi bioinformatica di dati prodotti dal sequenziamento di un genoma, allo scopo di imparare autonomamente come estrarre i dati informativi a partire dalle sequenze grezze. Prerequisiti
- Sebbene non ci siano regole di propedeuticità, l’analisi dei genomi con metodi bioinformatici richiede che lo studente abbia solide basi di genetica, in particolare delle leggi dell’ereditarietà e dei meccanismi mutazionali, oltre che di biologia molecolare, in particolare per quanto riguarda la duplicazione, trascrizione e traduzione dell’informazione contenuta negli acidi nucleici. Sono inoltre richieste basi di biostatistica.
Contenuti del corso
- Il corso prevede lezioni frontali ed esercitazioni in laboratorio.
Le lezioni frontali in aula affronteranno i seguenti argomenti:
Il dogma centrale e le molecole dell’ereditarietà (4h)
Gli acidi nucleici e il codice genetico. Gli aminoacidi e le sostituzioni aminoacidiche. Le mutazione nucleotidica come fonte di variabilità. I diversi tipi di mutazione, definizione e significato funzionale di cambiamento sinonimo e non sinonimo.
Dimensioni ed organizzazione dei genomi (8h)
¿ Genomi virali, batterici ed eucarioti. Cromosomi: struttura, numero, ploidia, paradosso del valore K, N e C.
¿ Geni: concetto tradizionale ed esteso a regione funzionale, progetto ENCODE. Quanti geni e quante regioni funzionali compongono i genomi semplici e complessi; espressione genica e aumento della complessità in seguito a fenomeni epigenetici.
¿ Il genoma umano come esempio di genoma eucariotico complesso: sommario degli elementi contenuti in un genoma eucariote; variabilità: dove si trova e come si definisce; i grandi progetti internazionali di caratterizzazione della variabilità dei genomi umani; alcuni esempi di regioni codificanti il proteoma: geni di lunghezze molto diverse e famiglie geniche (DNA moderatamente ripetitivo)
Metodologie di analisi dei genomi con particolare approfondimento dei metodi di Next generation sequencing (NGS) (10h)
¿ Frederick Sanger e lo sviluppo dei metodi di sequenziamento.
¿ I metodi di sequenziamento di seconda generazione (NGS): High Throughput Sequencing. Preparazione della library, controllo e quantificazione, sequenziamento e rilevazione del segnale.
¿ Metodi di sequenziamento di terza generazione: sequenziamento a singola molecola (Single Molecule Real Time Technology e Nanopore sequencing)
Metagenomica: una nuova prospettiva in campo ecologico (4h)
¿ Appplicazione dei metodi di sequenziamento genomico a campioni ambientali. Definizioni ed esempi. Dal campione alle sequenze: flusso standard di analisi metagenomiche.
¿ Barcoding e metabarcoding.
Confronto di sequenze biologiche: allineamenti a coppie e allineamenti multipli (6h)
¿ Perché allineare; concetto di similarità ed omologia; allineamenti globali e locali.
¿ Algoritmi di allineamento: matrici di sostituzione di acidi nucleici e proteine, penalità per i gap; algoritmi esaustivi ed euristici (Needleman-Wunsch, Smith-Waterman, FASTA, BLAST)
Ricerche di sequenze in banche dati biologiche, Basic Local Alignment Search Tool (BLAST) (4h)
¿ Banche dati biologiche (con esercizi al Computer di consultazione dei relative siti web): National Center for Biotechnology Information (NCBI); ENSEMBL. Durante queste ore di lezione agli studenti sarà richiesto di portare un computer portatile, 12 laptops sono messi a disposizione dal docente.
¿ Utilizzo di BLAST con esempi pratici
Bioinformatica e next generation sequencing (4+12h)
Questa parte del programma prevederà l’utilizzo di un computer per analizzare dati di sequenziamento prodotti con metodologie High Throughput Sequencing (tecnologia Illumina). In particolare esploreremo i passaggi attraverso i più comuni strumenti bioinformatici che dal dato grezzo di output dei sequenziatori permettono di ottenere i file definitivi su cui è possibile effettuare interpretazioni biologiche.
In dettaglio:
basi di BASH, interprete di comandi che permette all’utente di comunicare col sistema operativo Linux (4h); dal dato grezzo (sequenze in formato FASTQ) al file contenente i soli siti variabili (formato vcf). Verranno utilizzati i programmi standard per effettuare i seguenti passaggi: controllo di qualità dei dati in FASTQ + trimming; allineamento ad un genoma di riferimento; bam refinement; controllo dei dati in formato bam e visualizzazione dell’allineamento; identificazione dei siti variabili; filtro e validazione dei siti variabili (12h). Metodi didattici
- Il corso è strutturato in lezioni teoriche frontali ed esercitazioni guidate nel laboratorio multimediale. In particolare sono previste 52 ore complessive di didattica (6 CFU) di cui 40 ore di lezione e 12 ore di esercitazioni. Le lezioni si svolgono settimanalmente in aula e l’esposizione avviene mediante l’utilizzo di diapositive su power-point, video che illustrano i passaggi delle metodologie di sequenziamento, navigazione in tempo reale di siti web di banche dati biologiche e algoritmi di allineamento.
Per i laboratori gli studenti vengono divisi in gruppi (massimo 30 studenti per gruppo). Al momento sono disponibili 15 computer fissi avviati da chiavetta USB contenente il sistema operativo Linux e i programmi necessari per lo svolgimento del progetto, due studenti lavorano in ogni postazione. La virtualizzazione dell’aula (che permetterà l’accesso diretto a Linux e ai relativi programmi da ogni postazione e l’aumento dei terminali da 15 a 20) è in fase di attuazione. Modalità di verifica dell'apprendimento
- Il raggiungimento degli obiettivi formativi indicati precedentemente verrà verificato attraverso tre prove che hanno luogo lo stesso giorno. Ognuna delle prove viene superata con un punteggio minimo di 6/10, è necessario raggiungere la sufficienza in ognuna delle prove per superare l’esame.
Prima prova: 4 domande composte da quesiti a scelta multipla, completamento di frasi e schemi, corte domande aperte. Lo scopo di questa prima parte è di verificare la conoscenza e la comprensione degli argomenti di base della parte di programma che riguarda i genomi, le metodologie di sequenziamento, la metagenomica, l’allineamento di sequenze. Tempo a disposizione: 1 ora.
Seconda prova: consultazione di banche dati biologiche ed utilizzo di BLAST. Lo studente dovrà utilizzare un computer con accesso ad internet per svolgere i 4 o 5 esercizi richiesti. In dettaglio si chiede di applicare le nozioni apprese a lezione anche attraverso esercizi svolti in aula, per ottenere sequenze nucleotidiche o proteiche a partire da numeri identificativi (accession numbers) o parole chiave e definirne alcune caratteristiche. Similmente si chiede di utilizzare il corretto algoritmo di BLAST online per il quesito specifico (ricerca di geni o proteine a partire da sequenze nucleotidiche o proteiche) e di spiegare i parametri usati per la ricerca. Tempo a disposizione 1 ora e 30 minuti.
Terza prova: lo studente dovrà dimostrare di essere in grado di muoversi nell’architettura del sistema operativo Linux e di utilizzare i comandi base di BASH. Dovrà rispondere ad alcune domande sui passaggi svolti durante il laboratorio, in particolare verranno chiesti i motivi per effettuare alcuni passaggi e come tale operazione permette di raggiungere o migliorare il risultato. Verrà richiesta la conoscenza del formato dei file principali e delle informazioni in essi codificate. Questa prova si svolge oralmente al terminale in presenza del docente. Tempo necessario: circa 15 minuti. Testi di riferimento
- Sia la genomica che la bioinformatica sono in costante evoluzione e non esistono testi di riferimento esaustivi. Per la prima parte del corso possono essere utili i primi 8 capitoli del libro di Arthur M Lesk “Introduction to genomics” Second edition, Oxford University Press. Il resto del corso (le banche dati, le metodologie di sequenziamento) deve essere studiata utilizzando le risorse online specifiche ed indicate dal docente a lezione e sul materiale didattico. Il docente fornisce i pdf delle diapositive mostrate in aula e l’elenco di tutti i link ai siti web utilizzati a lezione. Esempi di esercizi pratici con soluzioni per la seconda parte dell’esame sono disponibili sul sito del docente.