Divergenza Kullback – Leibler - Kullback–Leibler divergence

Nella statistica matematica , l' entropia relativa (chiamata anche divergenza di Kullback-Leibler ) è una misura di come una distribuzione di probabilità è diversa da una seconda distribuzione di probabilità di riferimento. Le applicazioni includono la caratterizzazione dell'entropia relativa (Shannon) nei sistemi informativi, la casualità nelle serie temporali continue e il guadagno di informazioni quando si confrontano modelli statistici di inferenza . Contrariamente alla variazione dell'informazione , è una misura asimmetrica dal punto di vista della distribuzione e quindi non si qualifica come metrica statistica di diffusione - non soddisfa nemmeno la disuguaglianza del triangolo . Nel caso semplice, un'entropia relativa di 0 indica che le due distribuzioni in questione sono identiche. In termini semplificati, è una misura di sorpresa, con diverse applicazioni come statistica applicata, meccanica dei fluidi , neuroscienze e apprendimento automatico .

Introduzione e contesto

Considera due distribuzioni di probabilità e . Di solito, rappresenta i dati, le osservazioni o una distribuzione di probabilità misurata con precisione. La distribuzione rappresenta invece una teoria, un modello, una descrizione o un'approssimazione di . La divergenza Kullback-Leibler viene quindi interpretata come la differenza media del numero di bit richiesti per codificare campioni di utilizzo di un codice ottimizzato per invece di uno ottimizzato per .

Etimologia

L'entropia relativa è stata introdotta da Solomon Kullback e Richard Leibler nel 1951 come divergenza diretta tra due distribuzioni; Kullback ha preferito il termine informazioni sulla discriminazione . La divergenza è discussa nel libro di Kullback del 1959, Teoria dell'informazione e statistica .

Definizione

Per distribuzioni di probabilità discrete e definite sullo stesso spazio di probabilità , l'entropia relativa da a è definito come

che è equivalente a

In altre parole, è l' aspettativa della differenza logaritmica tra le probabilità e , dove l'aspettativa è presa usando le probabilità . L'entropia relativa è definita solo se per tutti , implica ( continuità assoluta ). Ogni volta che è zero il contributo del termine corrispondente viene interpretato come zero perché

Per le distribuzioni e di una variabile casuale continua , l'entropia relativa è definita come l'integrale:

dove e denotano le densità di probabilità di e .

Più in generale, se e sono misure di probabilità su un insieme , ed è assolutamente continua rispetto a , allora l'entropia relativa da a è definita come

dove è la derivata di Radon-Nikodym di rispetto , e ha fornito l'espressione a destra esiste lato. Equivalentemente (per la regola della catena ), questo può essere scritto come

che è l' entropia di rispetto a . Continuando in questo caso, se c'è una misura su cui ed esistono (intendendo che e sono assolutamente continui rispetto a ), allora l'entropia relativa da a è data come

I logaritmi in queste formule sono portati in base 2 se l'informazione è misurata in unità di bit , o in base se l'informazione è misurata in nats . La maggior parte delle formule che coinvolgono l'entropia relativa si mantengono indipendentemente dalla base del logaritmo.

Esistono varie convenzioni per fare riferimento a parole. Spesso viene definita divergenza tra e , ma ciò non riesce a trasmettere l'asimmetria fondamentale nella relazione. A volte, come in questo articolo, può essere descritto come la divergenza di da o come la divergenza da a . Ciò riflette l' asimmetria in Bayesiano inferenza , che parte da una prima e gli aggiornamenti per il posteriore . Un altro modo comune di riferirsi a è come l'entropia relativa di rispetto a .

Esempio di base

Kullback fornisce il seguente esempio (Tabella 2.1, Esempio 2.1). Siano e le distribuzioni mostrate nella tabella e nella figura. è la distribuzione sul lato sinistro della figura, una distribuzione binomiale con e . è la distribuzione sul lato destro della figura, una distribuzione uniforme discreta con tre possibili esiti , o (esempio ), ciascuna con probabilità .

Due distribuzioni per illustrare l'entropia relativa

X 0 1 2
Distribuzione P (x)
Distribuzione Q (x)

Le entropie relative e sono calcolate come segue. Questo esempio usa il logaritmo naturale con base e , designato per ottenere risultati in nats (vedi unità di informazione ).

Interpretazioni

L'entropia relativa da a è spesso indicata .

Nel contesto dell'apprendimento automatico , viene spesso chiamato il guadagno di informazioni ottenuto se viene utilizzato al posto di . Per analogia con la teoria dell'informazione, è chiamata entropia relativa di rispetto a . Nel contesto della teoria della codifica , può essere costruito misurando il numero atteso di bit extra necessari per codificare i campioni utilizzando un codice ottimizzato per piuttosto che il codice ottimizzato per .

Espressa nel linguaggio dell'inferenza bayesiana , è una misura delle informazioni ottenute rivedendo le proprie convinzioni dalla distribuzione di probabilità a priori alla distribuzione di probabilità a posteriori . In altre parole, è la quantità di informazioni perse quando viene utilizzata per approssimare . Nelle applicazioni, rappresenta tipicamente la distribuzione "vera" di dati, osservazioni o una distribuzione teorica calcolata con precisione, mentre tipicamente rappresenta una teoria, un modello, una descrizione o un'approssimazione di . Per trovare una distribuzione più vicina , possiamo ridurre al minimo la divergenza KL e calcolare una proiezione delle informazioni .

Entropia relativa è un caso particolare di una classe più ampia di divergenze statistici chiamati f -divergences nonché la classe di divergenze Bregman . È l'unica tale divergenza sulle probabilità che è un membro di entrambe le classi. Sebbene sia spesso intuito come un modo per misurare la distanza tra le distribuzioni di probabilità , la divergenza Kullback-Leibler non è una vera metrica . Non obbedisce alla disuguaglianza del triangolo e in generale non è uguale . Tuttavia, la sua forma infinitesimale , in particolare la sua iuta , fornisce un tensore metrico noto come metrica di informazione di Fisher .

Arthur Hobson ha dimostrato che l'entropia relativa è l'unica misura della differenza tra le distribuzioni di probabilità che soddisfa alcune proprietà desiderate, che sono l'estensione canonica a quelle che appaiono in una caratterizzazione dell'entropia comunemente usata . Di conseguenza, l'informazione reciproca è l'unica misura della dipendenza reciproca che obbedisce a determinate condizioni correlate, poiché può essere definita in termini di divergenza Kullback-Leibler .

Motivazione

Illustrazione dell'entropia relativa per due distribuzioni normali . La tipica asimmetria è chiaramente visibile.

Nella teoria dell'informazione, il teorema di Kraft-McMillan stabilisce che qualsiasi schema di codifica decodificabile direttamente per codificare un messaggio per identificare un valore da un insieme di possibilità può essere visto come rappresentante una distribuzione di probabilità implicita su , dove è la lunghezza del codice per in bit. Pertanto, l'entropia relativa può essere interpretata come la lunghezza del messaggio extra attesa per dato che deve essere comunicata se viene utilizzato un codice ottimale per una data distribuzione (errata) , rispetto all'utilizzo di un codice basato sulla distribuzione vera .

dove è l' entropia incrociata di e , ed è l' entropia di (che è uguale all'entropia incrociata di P con se stesso).

L'entropia relativa può essere pensata come qualcosa come una misura di quanto sia lontana la distribuzione Q dalla distribuzione P. L'entropia incrociata è essa stessa una tale misura, ma ha il difetto che non è zero, quindi sottraiamo per concordare più strettamente con la nostra nozione di distanza. (Sfortunatamente non è ancora simmetrica.) L'entropia relativa si riferisce alla " funzione di velocità " nella teoria delle grandi deviazioni .

Proprietà

un risultato noto come disuguaglianza di Gibbs , con zero se e solo se quasi ovunque . L'entropia stabilisce quindi un valore minimo per l'entropia incrociata , il numero atteso di bit richiesto quando si utilizza un codice basato su piuttosto che ; e la divergenza Kullback-Leibler rappresenta quindi il numero atteso di bit extra che devono essere trasmessi per identificare un valore tratto , se viene utilizzato un codice corrispondente alla distribuzione di probabilità , piuttosto che alla distribuzione "vera" .
  • L'entropia relativa rimane ben definita per le distribuzioni continue e inoltre è invariante per le trasformazioni dei parametri . Ad esempio, se viene effettuata una trasformazione da variabile a variabile , allora, poiché e l'entropia relativa può essere riscritta:
dove e . Sebbene si presumesse che la trasformazione fosse continua, non è necessario che sia così. Questo mostra anche che l'entropia relativa produce una quantità dimensionalmente consistente , poiché if è una variabile dimensionata, e sono anche dimensionati, poiché ad esempio è adimensionale. L'argomento del termine logaritmico è e rimane adimensionale, come deve. Può quindi essere vista come in qualche modo una quantità più fondamentale di alcune altre proprietà della teoria dell'informazione (come l'autoinformazione o l' entropia di Shannon ), che possono diventare indefinite o negative per probabilità non discrete.
  • L'entropia relativa è additiva per le distribuzioni indipendenti più o meno allo stesso modo dell'entropia di Shannon. Se sono distribuzioni indipendenti, con la distribuzione congiunta , e allo stesso modo, allora
  • L'entropia relativa è convessa nella coppia di funzioni di massa di probabilità , cioè se e sono due coppie di funzioni di massa di probabilità, allora

Esempi

Distribuzioni normali multivariate

Supponiamo di avere due distribuzioni normali multivariate , con medie e con matrici di covarianza (non singolari) Se le due distribuzioni hanno la stessa dimensione , allora l'entropia relativa tra le distribuzioni è la seguente:

Il logaritmo nell'ultimo termine deve essere preso in base e poiché tutti i termini tranne l'ultimo sono logaritmi in base e di espressioni che sono fattori della funzione di densità o altrimenti sorgono naturalmente. L'equazione fornisce quindi un risultato misurato in nats . Dividendo l'intera espressione sopra per si ottiene la divergenza in bit .

Un caso speciale, e una quantità comune nell'inferenza variazionale , è l'entropia relativa tra una normale multivariata diagonale e una distribuzione normale standard (con media zero e varianza unitaria):

Relazione con le metriche

Si potrebbe essere tentati di chiamare l'entropia relativa una " metrica della distanza " sullo spazio delle distribuzioni di probabilità, ma ciò non sarebbe corretto in quanto non è simmetrica - cioè - né soddisfa la disuguaglianza triangolare . Genera una topologia sullo spazio delle distribuzioni di probabilità . Più concretamente, if è una sequenza di distribuzioni tale che

allora si dice così

La disuguaglianza di Pinsker implica questo

dove quest'ultimo sta per la consueta convergenza nella variazione totale .

Metrica delle informazioni di Fisher

L'entropia relativa è direttamente correlata alla metrica delle informazioni di Fisher . Questo può essere reso esplicito come segue. Supponiamo che le distribuzioni di probabilità e siano entrambe parametrizzate da qualche parametro (possibilmente multidimensionale) . Considera quindi due valori vicini di e in modo che il parametro differisca solo di una piccola quantità dal valore del parametro . In particolare, fino al primo ordine si ha (usando la convenzione di sommatoria di Einstein )

con un piccolo cambiamento di nella direzione, e il corrispondente tasso di variazione della distribuzione di probabilità. Poiché l'entropia relativa ha un minimo assoluto 0 per , cioè , cambia solo al secondo ordine nei parametri piccoli . Più formalmente, come per ogni minimo, le derivate prime della divergenza svaniscono

e dall'espansione di Taylor si arriva al secondo ordine

dove la matrice dell'Assia della divergenza

deve essere semidefinito positivo . Lasciando variare (e rilasciando il sottoindice 0) l'Assiano definisce una metrica Riemanniana (possibilmente degenere) sullo spazio dei parametri θ , chiamata metrica delle informazioni di Fisher.

Teorema della metrica dell'informazione di Fisher

Quando soddisfa le seguenti condizioni di regolarità:

esistere,

dove ξ è indipendente da ρ

poi:

Variazione delle informazioni

Un'altra metrica della teoria dell'informazione è la variazione dell'informazione , che è più o meno una simmetrizzazione dell'entropia condizionale . È una metrica sull'insieme di partizioni di uno spazio di probabilità discreto .

Relazione con altre quantità di teoria dell'informazione

Molte delle altre quantità della teoria dell'informazione possono essere interpretate come applicazioni dell'entropia relativa a casi specifici.

Autoinformazione

L' autoinformazione , nota anche come contenuto informativo di un segnale, variabile casuale o evento, è definita come il logaritmo negativo della probabilità che si verifichi un determinato risultato.

Quando applicata a una variabile casuale discreta , l'autoinformazione può essere rappresentata come

è l'entropia relativa della distribuzione di probabilità da un delta di Kronecker che rappresenta la certezza che - cioè il numero di bit extra che devono essere trasmessi per identificare se solo la distribuzione di probabilità è disponibile per il ricevitore, non il fatto che .

Informazioni reciproche

L' informazione reciproca ,

è l'entropia relativa del prodotto delle due distribuzioni di probabilità marginali dalla distribuzione di probabilità congiunta , ovvero il numero atteso di bit extra che devono essere trasmessi per identificare e se sono codificati utilizzando solo le loro distribuzioni marginali invece della distribuzione congiunta. Allo stesso modo, se la probabilità congiunta è nota, è il numero atteso di bit extra che in media devono essere inviati per identificare se il valore di non è già noto al ricevitore.

Entropia di Shannon

L' entropia di Shannon ,

è il numero di bit che dovrebbero essere trasmessi per identificare da equiprobabili possibilità, meno la relativa entropia della distribuzione uniforme sulle variabili casuali di , , dal vero distribuzione - cioè meno il numero atteso di bit salvato, che avrebbe doveva essere inviato se il valore di fosse codificato in base alla distribuzione uniforme piuttosto che alla distribuzione reale .

Entropia condizionale

L' entropia condizionale ,

è il numero di bit che dovrebbero essere trasmessi per identificare da possibilità ugualmente probabili, meno l'entropia relativa della distribuzione del prodotto dalla vera distribuzione congiunta - cioè meno il numero previsto di bit salvati che avrebbero dovuto essere inviati se il valore di sono stati codificati in base alla distribuzione uniforme piuttosto che alla distribuzione condizionale di data .

Entropia incrociata

Quando abbiamo un insieme di possibili eventi, provenienti dalla distribuzione p , possiamo codificarli (con una compressione dei dati senza perdita di dati ) utilizzando la codifica entropica . Questo comprime i dati sostituendo ogni simbolo di input di lunghezza fissa con un codice univoco, di lunghezza variabile e senza prefisso corrispondente (es .: gli eventi (A, B, C) con probabilità p = (1/2, 1/4, 1/4) possono essere codificati come bit (0, 10, 11)). Se conosciamo la distribuzione p in anticipo, possiamo escogitare una codifica che sia ottimale (ad esempio: usando la codifica di Huffman ). Significa che i messaggi che codifichiamo avranno in media la lunghezza più breve (supponendo che gli eventi codificati siano campionati da p ), che sarà uguale all'entropia di Shannon di p (indicata come ). Tuttavia, se usiamo una distribuzione di probabilità diversa ( q ) durante la creazione dello schema di codifica entropica, verrà utilizzato (in media) un numero maggiore di bit per identificare un evento da un insieme di possibilità. Questo nuovo numero (più grande) è misurato dall'entropia incrociata tra p e q .

L' entropia incrociata tra due distribuzioni di probabilità ( p e q ) misura il numero medio di bit necessari per identificare un evento da una serie di possibilità, se uno schema di codifica è utilizzato sulla base di una data distribuzione di probabilità q , piuttosto che la distribuzione "vera" p . L'entropia croce per due distribuzioni p e q nello stesso spazio di probabilità è quindi definita come segue:

In questo scenario, le entropie relative possono essere interpretate come il numero extra di bit, in media, necessario (oltre ) per codificare gli eventi a causa dell'uso di q per costruire lo schema di codifica invece di p .

Aggiornamento bayesiano

In statistica bayesiana , entropia relativa può essere utilizzato come misura del guadagno informazioni nel passare da una distribuzione a priori di una distribuzione a posteriori : . Se viene scoperto qualche fatto nuovo , può essere utilizzato per aggiornare la distribuzione a posteriori per da a una nuova distribuzione a posteriori usando il teorema di Bayes :

Questa distribuzione ha una nuova entropia :

che può essere minore o maggiore dell'entropia originale . Tuttavia, dal punto di vista della nuova distribuzione di probabilità si può stimare che l'aver utilizzato il codice originale basato su invece di un nuovo codice basato su avrebbe aggiunto un numero atteso di bit:

alla lunghezza del messaggio. Questo rappresenta quindi la quantità di informazioni utili, o guadagni di informazioni, su cui possiamo stimare di aver appreso scoprendo .

Se successivamente arriva un ulteriore dato, la distribuzione di probabilità di può essere ulteriormente aggiornata, per fornire una nuova migliore ipotesi . Se si analizza nuovamente il guadagno di informazioni per l'utilizzo anziché , si scopre che potrebbe essere maggiore o minore di quanto stimato in precedenza:

può essere ≤ o> di

e quindi il guadagno di informazioni combinato non obbedisce alla disuguaglianza del triangolo:

può essere <, = o> di

Tutto quello che si può dire è che in media , facendo una media di utilizzo , i due lati calcoleranno la media.

Design sperimentale bayesiano

Un obiettivo comune nel disegno sperimentale bayesiano è massimizzare l'entropia relativa prevista tra il precedente e il posteriore. Quando i posteriori sono approssimati per essere distribuzioni gaussiane, un progetto che massimizza l'entropia relativa attesa è chiamato Bayes d-ottimale .

Informazioni sulla discriminazione

L'entropia relativa può anche essere interpretata come l' informazione di discriminazione attesa per over : l'informazione media per campione per discriminare a favore di un'ipotesi contro un'ipotesi , quando l'ipotesi è vera. Un altro nome per questa quantità, conferitole dal IJ buona , è l'atteso peso dell'evidenza per over da aspettarsi da ogni campione.

Il peso atteso dell'evidenza per over non è lo stesso del guadagno di informazioni atteso per campione sulla distribuzione di probabilità delle ipotesi,

Ciascuna delle due quantità può essere utilizzata come funzione di utilità nel disegno sperimentale bayesiano, per scegliere una domanda successiva ottimale da indagare: ma in generale porteranno a strategie sperimentali piuttosto differenti.

Sulla scala dell'entropia del guadagno di informazioni c'è pochissima differenza tra quasi certezza e assoluta certezza: la codifica secondo una quasi certezza non richiede quasi più bit della codifica secondo una certezza assoluta. D'altra parte, sulla scala logitica implicita nel peso dell'evidenza, la differenza tra i due è enorme, forse infinita; questo potrebbe riflettere la differenza tra l'essere quasi sicuri (a livello probabilistico) che, per esempio, l' ipotesi di Riemann sia corretta, rispetto all'essere certi che sia corretta perché si ha una dimostrazione matematica. Queste due diverse scale di funzione di perdita per l'incertezza sono entrambe utili, a seconda di quanto ciascuna rifletta le circostanze particolari del problema in questione.

Principio di informazione sulla discriminazione minima

L'idea di entropia relativa come informazione di discriminazione ha portato Kullback a proporre il Principio di informazione di discriminazione minima (MDI): dati nuovi fatti, dovrebbe essere scelta una nuova distribuzione che sia il più difficile da discriminare dalla distribuzione originale ; in modo che i nuovi dati producano il minor guadagno possibile di informazioni.

Ad esempio, se uno aveva una distribuzione a priori sopra e , e, successivamente, ha imparato la vera distribuzione di era , allora l'entropia relativa tra la nuova distribuzione congiunta per e , e la distribuzione in precedenza prima sarebbe:

cioè la somma dell'entropia relativa della distribuzione precedente per dalla distribuzione aggiornata , più il valore atteso (utilizzando la distribuzione di probabilità ) dell'entropia relativa della distribuzione condizionale precedente dalla nuova distribuzione condizionale . (Si noti che spesso il valore atteso successivo è chiamato entropia relativa condizionale (o divergenza condizionale Kullback-Leibler ) e denotato da ) Questo è minimizzato se sull'intero supporto di ; e notiamo che questo risultato incorpora il teorema di Bayes, se la nuova distribuzione è in effetti una funzione δ che rappresenta la certezza che ha un valore particolare.

MDI può essere vista come un'estensione di Laplace s' principio di ragione insufficiente , e il principio di massima entropia di ET Jaynes . In particolare, è la naturale estensione del principio di massima entropia dalle distribuzioni discrete a quelle continue, per cui l'entropia di Shannon cessa di essere così utile (vedi entropia differenziale ), ma l'entropia relativa continua ad essere altrettanto rilevante.

Nella letteratura ingegneristica, l'MDI è talvolta chiamato Principio di Entropia incrociata minima (MCE) o abbreviazione di Minxent . Minimizzare l'entropia relativa da a rispetto a equivale a minimizzare l'entropia incrociata di e , dal

che è appropriato se si sta cercando di scegliere un'approssimazione adeguata a . Tuttavia, altrettanto spesso non è il compito che si cerca di realizzare. Al contrario, altrettanto spesso è che si tratta di una misura di riferimento preliminare fissa e che si sta tentando di ottimizzare riducendo al minimo il soggetto a qualche vincolo. Ciò ha portato a una certa ambiguità nella letteratura, con alcuni autori che hanno tentato di risolvere l'incongruenza ridefinendo l'entropia incrociata come essere , piuttosto che .

Rapporto con il lavoro disponibile

Grafico pressione contro volume del lavoro disponibile da una mole di gas argon rispetto all'ambiente, calcolato come moltiplicato per la divergenza Kullback-Leibler.

Le sorprese aggiungono dove si moltiplicano le probabilità. La sorpresa per un evento di probabilità è definita come . Se è allora la sorpresa è in nats, bits, o così che, per esempio, ci sono bit di sorpresa per far cadere tutte le "teste" su un lancio di monete.

Gli stati di migliore ipotesi (ad esempio per gli atomi in un gas) vengono dedotti massimizzando la sorpresa media ( entropia ) per un dato insieme di parametri di controllo (come pressione o volume ). Questa massimizzazione dell'entropia vincolata , sia classicamente che meccanicamente quantistica, riduce al minimo la disponibilità di Gibbs in unità di entropia dove è una molteplicità vincolata o funzione di partizione .

Quando la temperatura è fissa, anche l'energia libera ( ) viene ridotta al minimo. Quindi, se il numero di molecole è costante, l' energia libera di Helmholtz (dov'è l' energia) è ridotta al minimo poiché un sistema "equilibra". Se e sono mantenuti costanti (diciamo durante i processi nel tuo corpo), l' energia libera di Gibbs viene invece ridotta al minimo. La variazione di energia libera in queste condizioni è una misura del lavoro disponibile che potrebbe essere svolto nel processo. Quindi il lavoro disponibile per un gas ideale a temperatura e pressione costanti è dove e (vedi anche disuguaglianza di Gibbs ).

Più in generale il lavoro disponibile relativo ad alcuni ambienti si ottiene moltiplicando la temperatura ambiente per l'entropia relativa o sorpresa netta definita come il valore medio di dove è la probabilità di un dato stato in condizioni ambientali. Ad esempio, il lavoro disponibile per equilibrare un gas ideale monoatomico a valori ambientali di ed è quindi , dove l'entropia relativa

I contorni risultanti di entropia relativa costante, mostrati a destra per una mole di argon a temperatura e pressione standard, ad esempio pongono limiti alla conversione del caldo in freddo come nel condizionamento d'aria alimentato a fiamma o nel dispositivo non alimentato per convertire l'ebollizione. acqua in acqua ghiacciata discussa qui. Quindi l'entropia relativa misura la disponibilità termodinamica in bit.

Teoria dell'informazione quantistica

Per matrici di densità e su uno spazio di Hilbert , l' entropia relativa quantistica da a è definita essere

Nella scienza dell'informazione quantistica il minimo di tutti gli stati separabili può anche essere utilizzato come misura dell'entanglement nello stato .

Rapporto tra modelli e realtà

Proprio come l'entropia relativa di "reale dall'ambiente" misura la disponibilità termodinamica, anche l'entropia relativa della "realtà da un modello" è utile anche se gli unici indizi che abbiamo sulla realtà sono alcune misurazioni sperimentali. Nel primo caso l'entropia relativa descrive la distanza dall'equilibrio o (moltiplicata per la temperatura ambiente) la quantità di lavoro disponibile , mentre nel secondo caso racconta le sorprese che la realtà ha nella manica o, in altre parole, quanto il modello deve ancora imparare .

Sebbene questo strumento per la valutazione di modelli rispetto a sistemi accessibili sperimentalmente possa essere applicato in qualsiasi campo, la sua applicazione alla selezione di un modello statistico tramite il criterio informativo di Akaike è particolarmente ben descritta in articoli e in un libro di Burnham e Anderson. In poche parole, l'entropia relativa della realtà da un modello può essere stimata, entro un termine additivo costante, in funzione delle deviazioni osservate tra i dati e le previsioni del modello (come la deviazione quadratica media ). Le stime di tale divergenza per i modelli che condividono lo stesso termine additivo possono a loro volta essere utilizzate per selezionare tra i modelli.

Quando si cerca di adattare i modelli parametrizzati ai dati, esistono vari stimatori che tentano di ridurre al minimo l'entropia relativa, come gli stimatori di massima verosimiglianza e di spaziatura massima .

Divergenza simmetrica

Kullback e Leibler stessi hanno effettivamente definito la divergenza come:

che è simmetrico e non negativo. Questa quantità è stata talvolta utilizzata per la selezione delle caratteristiche nei problemi di classificazione , dove e sono i pdf condizionali di una caratteristica in due classi differenti. Nei settori bancario e finanziario, questa quantità è denominata Indice di stabilità della popolazione e viene utilizzata per valutare i cambiamenti distributivi delle caratteristiche del modello nel tempo.

Un'alternativa è data tramite la divergenza,

che può essere interpretato come il guadagno di informazioni atteso dalla scoperta da quale distribuzione di probabilità è tratto, o , se attualmente hanno probabilità e rispettivamente.

Il valore fornisce la divergenza Jensen – Shannon , definita da

dov'è la media delle due distribuzioni,

può anche essere interpretata come la capacità di un canale di informazioni rumoroso con due ingressi che danno le distribuzioni di uscita e . La divergenza Jensen-Shannon, come tutte le divergenze f , è localmente proporzionale alla metrica di informazione di Fisher . È simile alla metrica di Hellinger (nel senso che induce la stessa connessione affine su una varietà statistica ).

Relazione con altre misure di probabilità-distanza

Esistono molte altre misure importanti della distanza di probabilità . Alcuni di questi sono particolarmente legati all'entropia relativa. Per esempio:

  • La distanza totale variazione , . Questo è collegato alla divergenza attraverso la disuguaglianza di Pinsker :
  • La famiglia delle divergenze di Rényi generalizza l'entropia relativa. A seconda del valore di un certo parametro, si possono dedurre varie disuguaglianze.

Altre misure notevoli di distanza comprendono la distanza Hellinger , istogramma intersezione , statistica Chi-quadro , quadratica distanza forma , partita distanza , Kolmogorov-Smirnov distanza , e la distanza terra del motore .

Differenziazione dei dati

Proprio come l' entropia assoluta funge da sfondo teorico per la compressione dei dati , l' entropia relativa funge da sfondo teorico per la differenziazione dei dati : l'entropia assoluta di un insieme di dati in questo senso è il dato richiesto per ricostruirlo (dimensione minima compressa), mentre l'entropia relativa di un set di dati di destinazione, dato un set di dati di origine, sono i dati necessari per ricostruire il set di dati di destinazione data l'origine (dimensione minima di una patch ).

Guarda anche

Riferimenti

link esterno