# STATISTICA MULTIVARIATA # I SEMESTRE 2019-2020 # DOCENTE: MINI V. ############################################## #### analisi per componenti principali #### ############################################## ##punti fondamentali dell'analisi da seguire## 1. motivazione della analisi (riduzione, ranking, multicollinearità ecc.) 2. struttura del database (ed eventuale esclusione di alcuni dati) getwd() voti=read.csv2("students.csv",header=T) View(voti) str(voti) head(voti) attach(voti) esclusione della prima colonna voti=voti[,2:4] 3. visualizzazione grafica plot(voti) pairs(x=voti,panel=panel.smooth) 4. matrice delle correlazioni Creiamo una matrice di correlazione con solo due decimali, in modo da agevolare la lettura res=cor(voti) round(res,2) 5. analisi PER COMPONENTI PRINCIPALI: comando "prcomp" La funzione prcomp comprende vari argomenti. L'analisi per componenti principali può essere eseguita su variabili originarie. pca=prcomp(voti) Tuttavia, generalmente si richiede di specificare due argomenti: il primo è rappresentato dalla matrice dei dati; il secondo argomento, scale=TRUE, ha la funzione di normalizzare le variabili; pertanto la nostra analisi delle componenti principali sarà condotta sulla matrice di correlazione. pca1=prcomp(voti, scale=TRUE) --> standardizzazione delle variabili RISULTATO OTTENUTO: si visualizza attraverso la dicitura del nome che si è attribuito all'analisi: pca1 si hanno tante componenti quante variabili originarie. Ogni componente è funzione lineare delle variabili originarie ciascuna moltiplicata per il proprio peso fattoriale. Le informazioni rilevanti si ricavano dalla funzione summary dell’output di prcomp. summary(pca1) La funzione restituisce una matrice che riporta: nella prima riga le radici quadrate degli autovalori, nella seconda le proporzioni di varianza spiegata da ciascuna componente e nella terza riga le percentuali di varianza cumulata. 6. quante componenti estrarre? (3 metodi) (1) METODO: autovalori maggiori di 1 (o regola di Kaiser) si chiede di considerare tutte le CP il cui autovalore è maggiore di 1. La “ratio” di questo criterio deriva dal fatto che l’autovalore di una CP è uguale alla sua varianza e che operando su variabili standardizzate queste hanno varianza unitaria.Pertanto, si decide di mantenere una CP solo se essa spiega una quota di varianza totale maggiore di quella di una singola variabile (D’Urso, 2008). e_values=pca1$sdev^2 e_values barplot(e_values) (2) METODO: varianza totale spiegata superiore al 70% si deve considerare un numero di CP tale che esse tengano conto di una percentuale sufficientemente elevata di varianza totale (ad esempio, almeno il 70%). Nel definire la percentuale minima di varianza accettabile, occorre tener conto del numero di variabili originarie; pertanto al crescere del numero di variabili potrà essere accettata una percentuale minore di varianza spiegata. # gli autovalori rappresentano la varianza delle singole componenti, e il rapporto # tra ogni autovalore e la somma degli autovalori di tutte le componenti fornisce la varianza # spiegata da ogni componente. Del 100% della variabilità originaria, quanto è spiegato da ogni # componente? summary(pca1) (3) METODO: visualizzazione grafica del "grafico a gomito" Si fa uso di un grafico chiamato scree-graph degli autovalori in funzione del numero di CP. Poiché gli autovalori sono decrescenti, il grafico assume la forma di una spezzata con pendenza sempre negativa. Analizzando il grafico, si potrà individuare un punto nel quale si manifesta una brusca variazione di pendenza, in corrispondenza della quale si individua il numero k di CP da considerare. Tuttavia, può accadere che la diminuzione degli autovalori sia graduale e il grafico non evidenzi salti evidenti. Inoltre, in letteratura si distinguono differenti posizioni in relazione all’inclusione (Cattel, 1966) o all’esclusione (Harman, 1976) della CP in corrispondenza del gomito. screeplot(pca1,type=c("lines")) oppure plot(pca1,type="lines") grafico delle varianze: plot(pca1) Come avrete notato, nonostante l’utilizzo di tre criteri differenti, rimane comunque un certo margine di soggettività nella scelta, che talvolta può risultare determinante nel prendere in considerazione una CP in più o in meno, con evidenti distorsioni nei risultati della ricerca. 7. DIAMO IL NOME ALLE COMPONENTI pca1 # e guardiamo il factor loadings 8. correlazione tra le variabili originarie e le componenti cor.pca1=cor(voti,pca1$scores) cor.pca1 9. identificare i valori (scores) finali --> nuove variabili create per il database yscores=pca1$x se vogliamo tenere solo i primi 2: final=yscores[,1:2] 10. rotazione: si migliora l'interpretazione? ortogonale: varimax(pca1$x,normalize=TRUE,eps=1e-5) obliqua: promax(pca1$x,m=4) si possono confrontare i valori 11. Grafico delle due principali componenti biplot(pca1)