Divergenza (statistiche) - Divergence (statistics)

In statistica e geometria dell'informazione , la divergenza o una funzione di contrasto è una funzione che stabilisce la "distanza" di una distribuzione di probabilità rispetto all'altra su una varietà statistica . La divergenza è una nozione più debole di quella di distanza , in particolare la divergenza non deve essere simmetrica (cioè in generale la divergenza da p a q non è uguale alla divergenza da q a p ), e non deve soddisfare il triangolo disuguaglianza .

Definizione

Supponiamo che S sia uno spazio di tutte le distribuzioni di probabilità con supporto comune. Allora una divergenza su S è una funzione D (· || ·): S×SR che soddisfa

  1. D ( p  ||  q ) ≥ 0 per ogni p , qS ,
  2. D ( p  ||  q ) = 0 se e solo se p = q ,

La doppia divergenza D* è definita come

Proprietà geometriche

Molte proprietà delle divergenze possono essere derivate se restringiamo S ad essere una varietà statistica, il che significa che può essere parametrizzata con un sistema di coordinate a dimensione finita θ , così che per una distribuzione pS possiamo scrivere p = p ( θ ) .

Per una coppia di punti p , qS con coordinate θ p e θ q , denotare le derivate parziali di D ( p  ||  q ) come

Ora limitiamo queste funzioni a una diagonale p = q , e denotiamo

Per definizione, la funzione D ( p  ||  q ) è minimizzata in p = q , e quindi

dove la matrice g ( D ) è semidefinita positiva e definisce un'unica metrica Riemanniana sulla varietà S .

La divergenza D (· || ·) definisce anche un'unica connessione affine priva di torsione( D ) con coefficienti

e il duale a questa connessione ∇* è generato dalla divergenza duale D *.

Quindi, una divergenza D (· || ·) genera su una varietà statistica un'unica struttura dualistica ( g ( D ) , ∇ ( D ) , ∇ ( D *) ). È vero anche il contrario: ogni struttura dualistica priva di torsione su una varietà statistica è indotta da una qualche funzione di divergenza definita globalmente (che tuttavia non deve essere unica).

Ad esempio, quando D è una f-divergenza per qualche funzione ƒ(·), allora genera la metrica g ( D f ) = c·g e la connessione ( D f ) = ∇ ( α ) , dove g è la metrica canonica dell'informazione di Fisher , α ( α ) è la connessione α , c = ƒ′′(1) , e α = 3 + 2ƒ′′′(1)/ƒ′′(1) .

Esempi

Le due divergenze più importanti sono l' entropia relativa ( divergenza Kullback-Leibler , divergenza KL), che è centrale per la teoria e la statistica dell'informazione , e la distanza euclidea al quadrato (SED). Minimizzare queste due divergenze è il modo principale per risolvere il problema lineare inverso , tramite il principio della massima entropia e dei minimi quadrati , in particolare nella regressione logistica e nella regressione lineare .

Le due classi più importanti di divergenze sono le f- divergenze e le divergenze di Bregman ; tuttavia, in letteratura si riscontrano anche altri tipi di funzioni di divergenza. L'unica divergenza che è sia una f -divergenza che una divergenza Bregman è la divergenza di Kullback-Leibler; la divergenza euclidea al quadrato è una divergenza di Bregman (corrispondente alla funzione ), ma non una f -divergenza.

f-divergenze

Questa famiglia di divergenze è generata tramite funzioni f ( u ), convesse su u > 0 e tali che f (1) = 0 . Allora una f -divergenza è definita come

divergenza Kullback-Leibler :
distanza al quadrato di Hellinger :
Divergenza di Jeffrey:
α-divergenza di Chernoff :
divergenza esponenziale:
La divergenza di Kagan:
( α , β )-divergenza del prodotto:

Se un processo di Markov ha una distribuzione di probabilità di equilibrio positiva, allora è una funzione del tempo monotona (non crescente), dove la distribuzione di probabilità è una soluzione delle equazioni forward di Kolmogorov (o equazione principale ), usata per descrivere l'evoluzione temporale della probabilità distribuzione nel processo di Markov. Ciò significa che tutte le f -divergenze sono le funzioni di Lyapunov delle equazioni in avanti di Kolmogorov. Anche l'affermazione inversa è vera: se è una funzione di Lyapunov per tutte le catene di Markov con equilibrio positivo ed è della forma traccia ( ) allora , per qualche funzione convessa f . Le divergenze di Bregman in generale non hanno tale proprietà e possono aumentare nei processi di Markov.

divergenze di Bregman

Le divergenze di Bregman corrispondono a funzioni convesse su insiemi convessi. Data una funzione F strettamente convessa , continuamente differenziabile su un insieme convesso , nota come generatore di Bregman , la divergenza di Bregman misura la convessità di: l'errore dell'approssimazione lineare di F da q come approssimazione del valore in p :

La doppia divergenza a una divergenza Bregman è la divergenza generata dal coniugato convesso F * del generatore Bregman della divergenza originaria. Ad esempio, per la distanza euclidea al quadrato, il generatore è , mentre per l'entropia relativa il generatore è l' entropia negativa .

Storia

Il termine "divergenza" per una distanza statistica è stato utilizzato informalmente in vari contesti dal c. 1910 a c. 1940. Il suo uso formale risale almeno a Bhattacharyya (1943) , intitolato "Su una misura di divergenza tra due popolazioni statistiche definite dalle loro distribuzioni di probabilità", che definiva la distanza di Bhattacharyya , e Bhattacharyya (1946) , intitolato "Su una misura di Divergenza tra due popolazioni multinomiali", che ha definito l' angolo Bhattacharyya . Il termine è stato reso popolare dal suo uso per la divergenza Kullback-Leibler in Kullback & Leibler (1951) , il suo uso nel libro di testo Kullback (1959) , e poi da Ali & Silvey (1966) in generale, per la classe delle f -divergenze. Il termine "distanza di Bregman" si trova ancora, ma ora si preferisce "divergenza di Bregman". Nella geometria dell'informazione, sono stati inizialmente utilizzati termini alternativi, tra cui "quasi-distanza" Amari (1982 , p. 369) e "funzione di contrasto" Eguchi (1985) , sebbene "divergenza" sia stata utilizzata in Amari (1985) per l' α -divergenza , ed è diventato uno standard (ad esempio, Amari & Cichocki (2010) ).

Guarda anche

Riferimenti