Divergenza (statistiche) - Divergence (statistics)
In statistica e geometria dell'informazione , la divergenza o una funzione di contrasto è una funzione che stabilisce la "distanza" di una distribuzione di probabilità rispetto all'altra su una varietà statistica . La divergenza è una nozione più debole di quella di distanza , in particolare la divergenza non deve essere simmetrica (cioè in generale la divergenza da p a q non è uguale alla divergenza da q a p ), e non deve soddisfare il triangolo disuguaglianza .
Definizione
Supponiamo che S sia uno spazio di tutte le distribuzioni di probabilità con supporto comune. Allora una divergenza su S è una funzione D (· || ·): S×S → R che soddisfa
- D ( p || q ) ≥ 0 per ogni p , q ∈ S ,
- D ( p || q ) = 0 se e solo se p = q ,
La doppia divergenza D* è definita come
Proprietà geometriche
Molte proprietà delle divergenze possono essere derivate se restringiamo S ad essere una varietà statistica, il che significa che può essere parametrizzata con un sistema di coordinate a dimensione finita θ , così che per una distribuzione p ∈ S possiamo scrivere p = p ( θ ) .
Per una coppia di punti p , q ∈ S con coordinate θ p e θ q , denotare le derivate parziali di D ( p || q ) come
Ora limitiamo queste funzioni a una diagonale p = q , e denotiamo
Per definizione, la funzione D ( p || q ) è minimizzata in p = q , e quindi
dove la matrice g ( D ) è semidefinita positiva e definisce un'unica metrica Riemanniana sulla varietà S .
La divergenza D (· || ·) definisce anche un'unica connessione affine priva di torsione ∇ ( D ) con coefficienti
e il duale a questa connessione ∇* è generato dalla divergenza duale D *.
Quindi, una divergenza D (· || ·) genera su una varietà statistica un'unica struttura dualistica ( g ( D ) , ∇ ( D ) , ∇ ( D *) ). È vero anche il contrario: ogni struttura dualistica priva di torsione su una varietà statistica è indotta da una qualche funzione di divergenza definita globalmente (che tuttavia non deve essere unica).
Ad esempio, quando D è una f-divergenza per qualche funzione ƒ(·), allora genera la metrica g ( D f ) = c·g e la connessione ∇ ( D f ) = ∇ ( α ) , dove g è la metrica canonica dell'informazione di Fisher , α ( α ) è la connessione α , c = ƒ′′(1) , e α = 3 + 2ƒ′′′(1)/ƒ′′(1) .
Esempi
Le due divergenze più importanti sono l' entropia relativa ( divergenza Kullback-Leibler , divergenza KL), che è centrale per la teoria e la statistica dell'informazione , e la distanza euclidea al quadrato (SED). Minimizzare queste due divergenze è il modo principale per risolvere il problema lineare inverso , tramite il principio della massima entropia e dei minimi quadrati , in particolare nella regressione logistica e nella regressione lineare .
Le due classi più importanti di divergenze sono le f- divergenze e le divergenze di Bregman ; tuttavia, in letteratura si riscontrano anche altri tipi di funzioni di divergenza. L'unica divergenza che è sia una f -divergenza che una divergenza Bregman è la divergenza di Kullback-Leibler; la divergenza euclidea al quadrato è una divergenza di Bregman (corrispondente alla funzione ), ma non una f -divergenza.
f-divergenze
Questa famiglia di divergenze è generata tramite funzioni f ( u ), convesse su u > 0 e tali che f (1) = 0 . Allora una f -divergenza è definita come
divergenza Kullback-Leibler : | |
distanza al quadrato di Hellinger : | |
Divergenza di Jeffrey: | |
α-divergenza di Chernoff : | |
divergenza esponenziale: | |
La divergenza di Kagan: | |
( α , β )-divergenza del prodotto: |
Se un processo di Markov ha una distribuzione di probabilità di equilibrio positiva, allora è una funzione del tempo monotona (non crescente), dove la distribuzione di probabilità è una soluzione delle equazioni forward di Kolmogorov (o equazione principale ), usata per descrivere l'evoluzione temporale della probabilità distribuzione nel processo di Markov. Ciò significa che tutte le f -divergenze sono le funzioni di Lyapunov delle equazioni in avanti di Kolmogorov. Anche l'affermazione inversa è vera: se è una funzione di Lyapunov per tutte le catene di Markov con equilibrio positivo ed è della forma traccia ( ) allora , per qualche funzione convessa f . Le divergenze di Bregman in generale non hanno tale proprietà e possono aumentare nei processi di Markov.
divergenze di Bregman
Le divergenze di Bregman corrispondono a funzioni convesse su insiemi convessi. Data una funzione F strettamente convessa , continuamente differenziabile su un insieme convesso , nota come generatore di Bregman , la divergenza di Bregman misura la convessità di: l'errore dell'approssimazione lineare di F da q come approssimazione del valore in p :
La doppia divergenza a una divergenza Bregman è la divergenza generata dal coniugato convesso F * del generatore Bregman della divergenza originaria. Ad esempio, per la distanza euclidea al quadrato, il generatore è , mentre per l'entropia relativa il generatore è l' entropia negativa .
Storia
Il termine "divergenza" per una distanza statistica è stato utilizzato informalmente in vari contesti dal c. 1910 a c. 1940. Il suo uso formale risale almeno a Bhattacharyya (1943) , intitolato "Su una misura di divergenza tra due popolazioni statistiche definite dalle loro distribuzioni di probabilità", che definiva la distanza di Bhattacharyya , e Bhattacharyya (1946) , intitolato "Su una misura di Divergenza tra due popolazioni multinomiali", che ha definito l' angolo Bhattacharyya . Il termine è stato reso popolare dal suo uso per la divergenza Kullback-Leibler in Kullback & Leibler (1951) , il suo uso nel libro di testo Kullback (1959) , e poi da Ali & Silvey (1966) in generale, per la classe delle f -divergenze. Il termine "distanza di Bregman" si trova ancora, ma ora si preferisce "divergenza di Bregman". Nella geometria dell'informazione, sono stati inizialmente utilizzati termini alternativi, tra cui "quasi-distanza" Amari (1982 , p. 369) e "funzione di contrasto" Eguchi (1985) , sebbene "divergenza" sia stata utilizzata in Amari (1985) per l' α -divergenza , ed è diventato uno standard (ad esempio, Amari & Cichocki (2010) ).
Guarda anche
Riferimenti
- Amari, Shun-ichi ; Nagaoka, Hiroshi (2000). Metodi di geometria dell'informazione . La stampa dell'università di Oxford. ISBN 0-8218-0531-2.
- Eguchi, Shinto (1985). "Un approccio geometrico differenziale all'inferenza statistica sulla base di funzionali di contrasto" . Giornale di matematica di Hiroshima . 15 (2): 341–391. doi : 10.32917/hmj/1206130775 .
- Eguchi, Shinto (1992). "Geometria di minimo contrasto" . Giornale di matematica di Hiroshima . 22 (3): 631–647. doi : 10.32917/hmj/1206128508 .
- Matumoto, Takao (1993). "Qualsiasi varietà statistica ha una funzione di contrasto - sulle funzioni C³ prendendo il minimo alla diagonale della varietà prodotto" . Giornale di matematica di Hiroshima . 23 (2): 327-332. doi : 10.32917/hmj/1206128255 .