Correlazione canonica - Canonical correlation

In statistica , l' analisi di correlazione canonica ( CCA ), chiamata anche analisi delle variabili canoniche , è un modo per dedurre informazioni da matrici di covarianza incrociata . Se abbiamo due vettori X  = ( X 1 , ...,  X n ) e Y  = ( Y 1 , ...,  Y m ) di variabili casuali e ci sono correlazioni tra le variabili, allora l'analisi di correlazione canonica sarà trova combinazioni lineari di X e Y che hanno la massima correlazione tra loro. TR Knapp osserva che "praticamente tutti i test parametrici di significatività comunemente incontrati possono essere trattati come casi speciali di analisi di correlazione canonica, che è la procedura generale per investigare le relazioni tra due insiemi di variabili". Il metodo è stato introdotto per la prima volta da Harold Hotelling nel 1936, sebbene nel contesto degli angoli tra gli appartamenti il concetto matematico sia stato pubblicato da Jordan nel 1875.

Definizione

Dati due vettori colonna e di variabili casuali con momenti secondi finiti , si può definire la covarianza incrociata come la matrice il cui ingresso è la covarianza . In pratica, stimeremmo la matrice di covarianza sulla base dei dati campionati da e (cioè da una coppia di matrici di dati).

Analisi canonica-correlazione cerca vettori ( ) e ( ) in modo tale che le variabili aleatorie e massimizzare la correlazione . Le variabili casuali e sono la prima coppia di variabili canoniche . Si cercano allora vettori che massimizzano la stessa correlazione, con il vincolo di non essere correlati con la prima coppia di variabili canoniche; questo dà la seconda coppia di variabili canoniche . Questa procedura può essere continuata fino a volte.

Calcolo

Derivazione

Sia la matrice di covarianza incrociata per qualsiasi variabile casuale e . La funzione target da massimizzare è

Il primo passo è definire un cambio di base e definire

E così abbiamo

Per la disuguaglianza di Cauchy-Schwarz , abbiamo

Si ha uguaglianza se i vettori e sono collineari. Inoltre, il massimo di correlazione è raggiunto se è l' autovettore con l'autovalore massimo per la matrice (vedi quoziente di Rayleigh ). Le coppie successive si trovano utilizzando autovalori di magnitudo decrescente. L'ortogonalità è garantita dalla simmetria delle matrici di correlazione.

Un altro modo di visualizzare questo calcolo è che e sono i vettori singolari sinistro e destro della matrice di correlazione di X e Y corrispondenti al valore singolare più alto.

Soluzione

La soluzione è quindi:

  • è un autovettore di
  • è proporzionale a

Reciprocamente, c'è anche:

  • è un autovettore di
  • è proporzionale a

Invertendo il cambio di coordinate, abbiamo che

  • è un autovettore di ,
  • è proporzionale a
  • è un autovettore di
  • è proporzionale a .

Le variabili canoniche sono definite da:

Implementazione

Il CCA può essere calcolato utilizzando la scomposizione in valori singolari su una matrice di correlazione. È disponibile come funzione in

Il calcolo del CCA utilizzando la scomposizione in valori singolari su una matrice di correlazione è correlato al coseno degli angoli tra i piani . La funzione coseno è mal condizionata per piccoli angoli, portando a un calcolo molto impreciso di vettori principali altamente correlati nell'aritmetica del computer a precisione finita . Per risolvere questo problema , sono disponibili algoritmi alternativi in

Controllo di un'ipotesi

Ogni riga può essere verificata per la significatività con il seguente metodo. Poiché le correlazioni sono ordinate, dire che la riga è zero implica che anche tutte le ulteriori correlazioni siano zero. Se abbiamo osservazioni indipendenti in un campione ed è la correlazione stimata per . Per la riga, la statistica del test è:

che è distribuito asintoticamente come un chi quadrato con gradi di libertà per grandi . Poiché tutte le correlazioni da a sono logicamente nulle (e stimate anche in questo modo) il prodotto per i termini dopo questo punto è irrilevante.

Si noti che nel limite di piccole dimensioni del campione con allora siamo garantiti che le correlazioni superiori saranno identiche a 1 e quindi il test è privo di significato.

Usi pratici

Un uso tipico della correlazione canonica nel contesto sperimentale è prendere due insiemi di variabili e vedere cosa è comune tra i due insiemi. Ad esempio, nei test psicologici, si potrebbero prendere due test di personalità multidimensionali ben consolidati come il Minnesota Multiphasic Personality Inventory (MMPI-2) e il NEO . Vedendo come i fattori MMPI-2 si relazionano con i fattori NEO, è possibile ottenere informazioni su quali dimensioni erano comuni tra i test e quanta varianza era condivisa. Ad esempio, si potrebbe scoprire che una dimensione di estroversione o nevroticismo rappresentava una notevole quantità di varianza condivisa tra i due test.

Si può anche utilizzare l'analisi della correlazione canonica per produrre un'equazione modello che metta in relazione due insiemi di variabili, ad esempio un insieme di misure di performance e un insieme di variabili esplicative, o un insieme di output e un insieme di input. È possibile imporre restrizioni di vincoli a tale modello per garantire che rifletta requisiti teorici o condizioni intuitivamente ovvie. Questo tipo di modello è noto come modello di correlazione massima.

La visualizzazione dei risultati della correlazione canonica avviene solitamente tramite grafici a barre dei coefficienti dei due insiemi di variabili per le coppie di variabili canoniche che mostrano una correlazione significativa. Alcuni autori suggeriscono di visualizzarli meglio tracciandoli come eliografi, un formato circolare con barre simili a raggi, con ciascuna metà che rappresenta i due insiemi di variabili.

Esempi

Sia con valore atteso nullo , cioè . Se , ie, e sono perfettamente correlati, allora, eg, e , in modo che la prima (e solo in questo esempio) coppia di variabili canoniche sia e . Se , ie, e sono perfettamente anticorrelate, allora, eg, e , in modo che la prima (e solo in questo esempio) coppia di variabili canoniche sia e . Notiamo che in entrambi i casi , il che dimostra che l'analisi di correlazione canonica tratta le variabili correlate e anticorrelate in modo simile.

Collegamento agli angoli principali

Assumendo che e abbiano valori attesi zero , cioè , le loro matrici di covarianza e possono essere viste come matrici di Gram in un prodotto interno per le voci di e , corrispondentemente. In questa interpretazione, le variabili casuali, gli elementi di e di sono trattati come elementi di uno spazio vettoriale con un prodotto interno dato dalla covarianza ; vedi Covarianza#Relazione con i prodotti interni .

La definizione delle variabili canoniche e ' quindi equivalente alla definizione dei vettori principali per la coppia di sottospazi attraversati dalle entrate di e rispetto a questo prodotto interno . Le correlazioni canoniche sono uguali al coseno degli angoli principali .

Whitening e analisi di correlazione canonica probabilistica

CCA può anche essere visto come una speciale trasformazione di sbiancamento in cui i vettori casuali e vengono trasformati simultaneamente in modo tale che la correlazione incrociata tra i vettori sbiancati e sia diagonale. Le correlazioni canoniche vengono interpretati come coefficienti di regressione collegamento e e possono anche essere negativo. La vista di regressione di CCA fornisce anche un modo per costruire un modello generativo probabilistico variabile latente per CCA, con variabili nascoste non correlate che rappresentano la variabilità condivisa e non condivisa.

Guarda anche

Riferimenti

link esterno

  1. ^ Haghighat, Mohammad; Abdel-Mottaleb, Mohamed; Alhalabi, Wadee (2016). "Analisi della correlazione discriminante: fusione del livello di funzionalità in tempo reale per il riconoscimento biometrico multimodale" . Transazioni IEEE su Information Forensics e Security . 11 (9): 1984-1996. doi : 10.1109/TIFS.2016.2569061 .