BIOINFORMATICA E ANALISI DEI GENOMI
Anno accademico e docente
Non hai trovato la Scheda dell'insegnamento riferita a un anno accademico precedente?
Ecco come fare >>
- English course description
- Anno accademico
- 2022/2023
- Docente
- SILVIA FUSELLI
- Crediti formativi
- 6
- Periodo didattico
- Primo Semestre
- SSD
- BIO/18
Obiettivi formativi
- La genomica è una disciplina biologica che studia il contenuto, la struttura, l’espressione e l’evoluzione del materiale genetico codificante strutture e relative funzioni degli organismi viventi e permette che tale informazione venga trasmessa di generazione in generazione. Con il termine bioinformatica in questo corso si intendono gli strumenti computazionali che permettono di analizzare “in silico” le informazioni prodotte dal sequenziamento di geni e genomi con metodologie di nuova generazione.
Conoscenza e comprensione
Il corso si propone di
-fornire conoscenze sulla struttura e l’organizzazione dei genomi dei procarioti ed eucarioti
-fornire conoscenze sulle principali strategie e tecniche molecolari utilizzate per lo studio dei genomi procarioti ed eucarioti
-insegnare agli studenti come consultare le più importanti banche dati biologiche
-fornire elementi teorici di bioinformatica e genomica computazionale
Le attività di laboratorio permetteranno agli studenti di
-acquisire le basi per poter utilizzare il sistema operativo Linux, essenziale per analizzare le grandi moli di dati prodotte dalle odierne metodologie di sequenziamento dei genomi.
Capacità di applicare conoscenza e comprensione
Gli studenti saranno in grado di
-progettare un’analisi di sequenziamento di genomi procarioti, eucarioti o di effettuare una tipizzazione di una versione ridotta del genoma
-consultare le principali banche dati biologiche ed estrarre informazioni geniche, genomiche e, in parte, proteiche, utili per progettare esperimenti o analizzare i dati prodotti da esperimenti di tipizzazione di genomi o parte di essi
Le attività pratiche cosnsisteranno in un intero progetto di analisi bioinformatica di dati prodotti dal sequenziamento di seconda e/o terza generazione, allo scopo di imparare autonomamente come estrarre i dati informativi a partire dalle sequenze grezze. Prerequisiti
- Sebbene non ci siano regole di propedeuticità, l’analisi dei genomi con metodi bioinformatici richiede che lo studente abbia solide basi di genetica, in particolare delle leggi dell’ereditarietà e dei meccanismi mutazionali, oltre che di biologia molecolare, in particolare per quanto riguarda la duplicazione, trascrizione e traduzione dell’informazione contenuta negli acidi nucleici. Sono inoltre richieste basi di biostatistica.
Contenuti del corso
- Il corso prevede lezioni frontali (in presenza o registrate) ed esercitazioni al computer.
Le lezioni affronteranno i seguenti argomenti:
Il dogma centrale e le molecole dell’ereditarietà (4h)
Gli acidi nucleici e il codice genetico. Gli aminoacidi e le sostituzioni aminoacidiche. Le mutazione nucleotidica come fonte di variabilità. I diversi tipi di mutazione, definizione e significato funzionale di cambiamento sinonimo e non sinonimo.
Dimensioni ed organizzazione dei genomi (8h)
¿ Genomi virali, batterici ed eucarioti. Cromosomi: struttura, numero, ploidia, paradosso del valore K, N e C.
¿ Geni: concetto tradizionale ed esteso a regione funzionale, progetto ENCODE. Quanti geni e quante regioni funzionali compongono i genomi semplici e complessi; espressione genica e aumento della complessità in seguito a fenomeni epigenetici.
¿ Il genoma umano come esempio di genoma eucariotico complesso: sommario degli elementi contenuti in un genoma eucariote; variabilità: dove si trova e come si definisce; i grandi progetti internazionali di caratterizzazione della variabilità dei genomi umani; alcuni esempi di regioni codificanti il proteoma: geni di lunghezze molto diverse e famiglie geniche (DNA moderatamente ripetitivo)
Metodologie di analisi dei genomi con particolare approfondimento dei metodi di Next generation sequencing (NGS) (10h)
¿ Frederick Sanger e lo sviluppo dei metodi di sequenziamento.
¿ I metodi di sequenziamento di seconda generazione (NGS): High Throughput Sequencing. Preparazione della library, controllo e quantificazione, sequenziamento e rilevazione del segnale.
¿ Metodi di sequenziamento di terza generazione: sequenziamento a singola molecola (Single Molecule Real Time Technology e Nanopore sequencing)
- caratterizzazione dei genomi a livello cromosomico (Chromosome conformation capture techniques)
Metagenomica: una nuova prospettiva in campo ecologico (4h)
¿ Appplicazione dei metodi di sequenziamento genomico a campioni ambientali. Definizioni ed esempi. Dal campione alle sequenze: flusso standard di analisi metagenomiche.
¿ Barcoding e metabarcoding.
Confronto di sequenze biologiche: allineamenti a coppie e allineamenti multipli (6h)
¿ Perché allineare; concetto di similarità ed omologia; allineamenti globali e locali.
¿ Algoritmi di allineamento: matrici di sostituzione di acidi nucleici e proteine, penalità per i gap; algoritmi esaustivi ed euristici (Needleman-Wunsch, Smith-Waterman, FASTA, BLAST)
Ricerche di sequenze in banche dati biologiche, Basic Local Alignment Search Tool (BLAST) (4h)
¿ Banche dati biologiche (con esercizi al Computer di consultazione dei relative siti web): National Center for Biotechnology Information (NCBI); ENSEMBL. Durante queste ore di lezione agli studenti sarà richiesto di portare un computer portatile, 12 laptops sono messi a disposizione dal docente.
¿ Utilizzo di BLAST con esempi pratici
Bioinformatica e next generation sequencing (4+12h)
Questa parte del programma prevederà l’utilizzo di un computer per analizzare dati di sequenziamento prodotti con metodologie High Throughput Sequencing (tecnologia Illumina) o long reads. In particolare esploreremo i passaggi attraverso i più comuni strumenti bioinformatici che dal dato grezzo di output dei sequenziatori permettono di ottenere i file definitivi su cui è possibile effettuare interpretazioni biologiche.
In dettaglio:
basi di BASH, interprete di comandi che permette all’utente di comunicare col sistema operativo Linux (4h); dal dato grezzo (sequenze in formato FASTQ) al file contenente i soli siti variabili (formato vcf). Verranno utilizzati i programmi standard per effettuare i seguenti passaggi: controllo di qualità dei dati in FASTQ + trimming; allineamento ad un genoma di riferimento; bam refinement; controllo dei dati in formato bam e visualizzazione dell’allineamento; identificazione dei siti variabili; filtro e validazione dei siti variabili (12h). Metodi didattici
- Il corso è strutturato in lezioni teoriche frontali (in presenza, registrate o in streaming) ed esercitazioni guidate nel laboratorio multimediale o sul proprio personal computer. In particolare sono previste 52 ore complessive di didattica (6 CFU) di cui 40 ore di lezione e 12 ore di esercitazioni. Le lezioni si svolgono settimanalmente e l’esposizione avviene mediante l’utilizzo di diapositive su power-point, video che illustrano i passaggi delle metodologie di sequenziamento, navigazione in tempo reale di siti web di banche dati biologiche e algoritmi di allineamento.
Per i laboratori, se effettuati in presenza gli studenti vengono divisi in gruppi. Le esercitazioni si svolgono su sistema operativo Linux. In alternativa gli studenti lavoreranno per quanto possibile col proprio PC e, laddove venissero richiesti specifici programmi difficilmente installabili, la docente dimostrerà attraverso il proprio computer come effettuare l'analisi. Modalità di verifica dell'apprendimento
- Il raggiungimento degli obiettivi formativi indicati precedentemente verrà verificato attraverso due prove che hanno luogo lo stesso giorno, in forma scritta o orale. Ognuna delle prove viene superata con un punteggio minimo di 9/15, è necessario raggiungere la sufficienza in ognuna delle prove per superare l’esame.
Prima prova.
Se scritta: 4 domande composte da quesiti a scelta multipla, completamento di frasi e schemi, corte domande aperte. Lo scopo di questa prima parte è di verificare la conoscenza e la comprensione degli argomenti di base della parte di programma che riguarda i genomi, le metodologie di sequenziamento, la metagenomica, l’allineamento di sequenze. Tempo a disposizione: 1 h.
Nel caso di esame orale gli argomenti verranno verificati con domande aperte.
Seconda prova. Sia orale che scritta:
Lo studente dovrà dimostrare di essere in grado di muoversi nell’architettura del sistema operativo Linux e di utilizzare i comandi base di BASH. Dovrà rispondere ad alcune domande sui passaggi svolti durante il laboratorio, in particolare verranno chiesti i motivi per effettuare alcuni passaggi e come tale operazione permette di raggiungere o migliorare il risultato. Verrà richiesta la conoscenza del formato dei file principali e delle informazioni in essi codificate. Se scritto: 1 h. Testi di riferimento
- Testo di riferimento
Fondamenti di bioinformatica
Manuela Helmer Citterich, Fabrizio Ferrè, Giulio Pavesi, Graziano Pesole, Chiara Romualdi
2018 (Zanichelli)
Altro testo suggerito
Next-Generation Sequencing Data Analysis di Xinkun Wang (Taylor and Francis Group)
Risorse online specifiche ed indicate dal docente a lezione, materiale didattico. Il docente fornisce i pdf delle diapositive mostrate in aula e l’elenco di tutti i link ai siti web utilizzati a lezione. Esempi di esercizi pratici con soluzioni per la seconda parte dell’esame sono disponibili sul sito del docente.