Divergenza (statistiche) - Divergence (statistics)

In statistica e geometria dell'informazione , la divergenza o una funzione di contrasto è una funzione che stabilisce la "distanza" di una distribuzione di probabilità rispetto all'altra su una varietà statistica . La divergenza è una nozione più debole di quella di distanza , in particolare la divergenza non deve essere simmetrica (cioè in generale la divergenza da p a q non è uguale alla divergenza da q a p ), e non deve soddisfare il triangolo disuguaglianza .

Definizione

Supponiamo che S sia uno spazio di tutte le distribuzioni di probabilità con supporto comune. Allora una divergenza su S è una funzione D (· || ·): S×S → R che soddisfa

D ( p || q ) ≥ 0 per ogni p , q ∈ S ,
D ( p || q ) = 0 se e solo se p = q ,

La doppia divergenza D* è definita come

D^{*}(p\parallel q)=D(q\parallel p).

Proprietà geometriche

Molte proprietà delle divergenze possono essere derivate se restringiamo S ad essere una varietà statistica, il che significa che può essere parametrizzata con un sistema di coordinate a dimensione finita θ , così che per una distribuzione p ∈ S possiamo scrivere p = p ( θ ) .

Per una coppia di punti p , q ∈ S con coordinate θ _p e θ _q , denotare le derivate parziali di D ( p || q ) come

{\begin{allineato}D((\partial _{i})_{p}\parallel q)\ \ &{\stackrel {\mathrm {def} }{=}}\ \ {\tfrac { \partial }{\partial \theta _{p}^{i}}}D(p\parallel q),\\D((\partial _{i}\partial _{j})_{p}\parallel (\partial _{k})_{q})\ \ &{\stackrel {\mathrm {def} }{=}}\ \ {\tfrac {\partial }{\partial \theta _{p}^{ i}}}{\tfrac {\partial }{\partial \theta _{p}^{j}}}{\tfrac {\partial }{\partial \theta _{q}^{k}}}D( p\parallel q),\ \ \mathrm {ecc.} \end{allineato}}

Ora limitiamo queste funzioni a una diagonale p = q , e denotiamo

{\begin{allineato}D[\partial _{i}\parallel \cdot ]\ &:\ p\mapsto D((\partial _{i})_{p}\parallel p),\\ D[\partial _{i}\parallel \partial _{j}]\ &:\ p\mapsto D((\partial _{i})_{p}\parallel (\partial _{j})_{ p}),\ \ \mathrm {ecc.} \end{allineato}}

Per definizione, la funzione D ( p || q ) è minimizzata in p = q , e quindi

{\begin{allineato}&D[\partial _{i}\parallel \cdot ]=D[\cdot \parallel \partial _{i}]=0,\\&D[\partial _{i}\ parziale _{j}\parallel \cdot ]=D[\cdot \parallel \partial _{i}\partial _{j}]=-D[\partial _{i}\parallel \partial _{j}]\ \equiv \ g_{ij}^{(D)},\end{allineato}}

dove la matrice g ^{( D )} è semidefinita positiva e definisce un'unica metrica Riemanniana sulla varietà S .

La divergenza D (· || ·) definisce anche un'unica connessione affine priva di torsione ∇ ⁽^D⁾ con coefficienti

\Gamma _{ij,k}^{(D)}=-D[\partial _{i}\parziale _{j}\parallel \parziale _{k}],

e il duale a questa connessione ∇* è generato dalla divergenza duale D *.

Quindi, una divergenza D (· || ·) genera su una varietà statistica un'unica struttura dualistica ( g ^{( D )} , ∇ ^{( D )} , ∇ ^{( D *)} ). È vero anche il contrario: ogni struttura dualistica priva di torsione su una varietà statistica è indotta da una qualche funzione di divergenza definita globalmente (che tuttavia non deve essere unica).

Ad esempio, quando D è una f-divergenza per qualche funzione ƒ(·), allora genera la metrica g ^{( D _f )} = c·g e la connessione ∇ ^{( D _f )} = ∇ ^{( α )} , dove g è la metrica canonica dell'informazione di Fisher , ^α^{( α )} è la connessione α , c = ƒ′′(1) , e α = 3 + 2ƒ′′′(1)/ƒ′′(1) .

Esempi

Le due divergenze più importanti sono l' entropia relativa ( divergenza Kullback-Leibler , divergenza KL), che è centrale per la teoria e la statistica dell'informazione , e la distanza euclidea al quadrato (SED). Minimizzare queste due divergenze è il modo principale per risolvere il problema lineare inverso , tramite il principio della massima entropia e dei minimi quadrati , in particolare nella regressione logistica e nella regressione lineare .

Le due classi più importanti di divergenze sono le f- divergenze e le divergenze di Bregman ; tuttavia, in letteratura si riscontrano anche altri tipi di funzioni di divergenza. L'unica divergenza che è sia una f -divergenza che una divergenza Bregman è la divergenza di Kullback-Leibler; la divergenza euclidea al quadrato è una divergenza di Bregman (corrispondente alla funzione ), ma non una f -divergenza. $x^{2}$

f-divergenze

Questa famiglia di divergenze è generata tramite funzioni f ( u ), convesse su u > 0 e tali che f (1) = 0 . Allora una f -divergenza è definita come

D_{f}(p\parallel q)=\int p(x)f{\bigg (}{\frac {q(x)}{p(x)}}{\bigg )}dx

divergenza Kullback-Leibler :	$D_{\mathrm {KL}}(p\parallel q)=\int p(x)\ln \left({\frac {p(x)}{q(x)}}\right)dx$
distanza al quadrato di Hellinger :	$H^{2}(p,\,q)=2\int {\Big (}{\sqrt {p(x)}}-{\sqrt {q(x)}}\,{\Big )}^{2}dx$
Divergenza di Jeffrey:	$D_{J}(p\parallel q)=\int (p(x)-q(x)){\big (}\ln p(x)-\ln q(x){\big )} dx$
α-divergenza di Chernoff :	$D^{(\alpha )}(p\parallel q)={\frac {4}{1-\alpha ^{2}}}{\bigg (}1-\int p(x)^{ \frac {1-\alpha }{2}}q(x)^{\frac {1+\alpha }{2}}dx{\bigg )}$
divergenza esponenziale:	$D_{e}(p\parallel q)=\int p(x){\big (}\ln p(x)-\ln q(x){\big )}^{2}dx$
La divergenza di Kagan:	$D_{\chi ^{2}}(p\parallel q)={\frac {1}{2}}\int {\frac {(p(x)-q(x))^{2} }{p(x)}}dx$
( α , β )-divergenza del prodotto:	$D_{\alpha,\beta}(p\parallel q)={\frac {2}{(1-\alpha)(1-\beta)}}\int {\Big (}1-{\ Grande (}{\tfrac {q(x)}{p(x)}}{\Big )}^{\!\!{\frac {1-\alpha }{2}}}{\Big )}{ \Big (}1-{\Big (}{\tfrac {q(x)}{p(x)}}{\Big )}^{\!\!{\frac {1-\beta }{2} }}{\Grande )}p(x)dx$

Se un processo di Markov ha una distribuzione di probabilità di equilibrio positiva, allora è una funzione del tempo monotona (non crescente), dove la distribuzione di probabilità è una soluzione delle equazioni forward di Kolmogorov (o equazione principale ), usata per descrivere l'evoluzione temporale della probabilità distribuzione nel processo di Markov. Ciò significa che tutte le f -divergenze sono le funzioni di Lyapunov delle equazioni in avanti di Kolmogorov. Anche l'affermazione inversa è vera: se è una funzione di Lyapunov per tutte le catene di Markov con equilibrio positivo ed è della forma traccia ( ) allora , per qualche funzione convessa f . Le divergenze di Bregman in generale non hanno tale proprietà e possono aumentare nei processi di Markov. $p^{*}$ $D_{f}(p(t)\parallel p^{*})$ $p(t)$ $D_{f}(p(t)\parallel p^{*})$ $H(p)$ $p^{*}$ $H(p)=\sum _{i}h(p_{i},p_{i}^{*})$ $H(p)=D_{f}(p(t)\parallel p^{*})$

divergenze di Bregman

Le divergenze di Bregman corrispondono a funzioni convesse su insiemi convessi. Data una funzione $F$ strettamente convessa , continuamente differenziabile su un insieme convesso , nota come generatore di Bregman , la divergenza di Bregman misura la convessità di: l'errore dell'approssimazione lineare di $F$ da $q$ come approssimazione del valore in $p$ :

D_{F}(p,q)=F(p)-F(q)-\langle \nabla F(q),pq\rangle .

La doppia divergenza a una divergenza Bregman è la divergenza generata dal coniugato convesso $F *$ del generatore Bregman della divergenza originaria. Ad esempio, per la distanza euclidea al quadrato, il generatore è , mentre per l'entropia relativa il generatore è l' entropia negativa . $x^{2}$ $x\log x$

Storia

Il termine "divergenza" per una distanza statistica è stato utilizzato informalmente in vari contesti dal c. 1910 a c. 1940. Il suo uso formale risale almeno a Bhattacharyya (1943) , intitolato "Su una misura di divergenza tra due popolazioni statistiche definite dalle loro distribuzioni di probabilità", che definiva la distanza di Bhattacharyya , e Bhattacharyya (1946) , intitolato "Su una misura di Divergenza tra due popolazioni multinomiali", che ha definito l' angolo Bhattacharyya . Il termine è stato reso popolare dal suo uso per la divergenza Kullback-Leibler in Kullback & Leibler (1951) , il suo uso nel libro di testo Kullback (1959) , e poi da Ali & Silvey (1966) in generale, per la classe delle f -divergenze. Il termine "distanza di Bregman" si trova ancora, ma ora si preferisce "divergenza di Bregman". Nella geometria dell'informazione, sono stati inizialmente utilizzati termini alternativi, tra cui "quasi-distanza" Amari (1982 , p. 369) e "funzione di contrasto" Eguchi (1985) , sebbene "divergenza" sia stata utilizzata in Amari (1985) per l' $α$ -divergenza , ed è diventato uno standard (ad esempio, Amari & Cichocki (2010) ).

Guarda anche

Distanza statistica

Riferimenti

Amari, Shun-ichi ; Nagaoka, Hiroshi (2000). Metodi di geometria dell'informazione . La stampa dell'università di Oxford. ISBN 0-8218-0531-2.
Eguchi, Shinto (1985). "Un approccio geometrico differenziale all'inferenza statistica sulla base di funzionali di contrasto" . Giornale di matematica di Hiroshima . 15 (2): 341–391. doi : 10.32917/hmj/1206130775 .
Eguchi, Shinto (1992). "Geometria di minimo contrasto" . Giornale di matematica di Hiroshima . 22 (3): 631–647. doi : 10.32917/hmj/1206128508 .
Matumoto, Takao (1993). "Qualsiasi varietà statistica ha una funzione di contrasto - sulle funzioni C³ prendendo il minimo alla diagonale della varietà prodotto" . Giornale di matematica di Hiroshima . 23 (2): 327-332. doi : 10.32917/hmj/1206128255 .

Languages

In other projects