Tweedie distribuzione - Tweedie distribution

In probabilità e statistica , le distribuzioni di Tweedie sono una famiglia di distribuzioni di probabilità che includono le distribuzioni normali , gamma e gaussiane inverse puramente continue , la distribuzione di Poisson scalata puramente discreta e la classe delle distribuzioni composte di Poisson-gamma che hanno massa positiva a zero, ma sono altrimenti continue. Le distribuzioni Tweedie sono un caso speciale di modelli a dispersione esponenziale e sono spesso utilizzate come distribuzioni per modelli lineari generalizzati .

Le distribuzioni Tweedie sono stati nominati da Bent Jørgensen dopo Maurice Tweedie , un fisico statistico e medica presso l' Università di Liverpool , Regno Unito, che ha presentato il primo studio approfondito di queste distribuzioni nel 1984.

Definizioni

Le distribuzioni di Tweedie (riproduttive) sono definite come sottofamiglia di modelli di dispersione esponenziale (riproduttiva) (ED), con una speciale relazione media - varianza . Una variabile casuale Y è distribuita Tweedie Tw p (μ, σ 2 ) , se con media , parametro di dispersione positivo e

dove è chiamato parametro di potenza Tweedie. La distribuzione di probabilità P θ,σ 2 sugli insiemi misurabili A , è data da

per qualche misura σ-finita ν λ . Questa rappresentazione utilizza il parametro canonica θ di un modello disperson esponenziale e la funzione cumulant

dove abbiamo usato , o equivalente .

Proprietà

Modelli di dispersione esponenziale additiva

I modelli appena descritti sono in forma riproduttiva. Un modello di dispersione esponenziale ha sempre un duplice: la forma additiva. Se Y è riproduttivo, allora with è nella forma additiva ED * ( θ , λ ), per Tweedie Tw * p (μ, λ) . I modelli additivi hanno la proprietà che la distribuzione della somma di variabili casuali indipendenti,

per il quale Z i  ~ DE * ( θ , λ i ) con fisso θ e vari λ sono i membri della famiglia di distribuzioni con lo stesso θ ,

Modelli di dispersione esponenziale riproduttiva

Esiste una seconda classe di modelli di dispersione esponenziale designati dalla variabile casuale

dove σ 2  = 1/ λ , noti come modelli di dispersione esponenziale riproduttiva. Hanno la proprietà che per n variabili casuali indipendenti Y i  ~ ED( μ , σ 2 / w i ), con fattori di ponderazione w i e

una media ponderata delle variabili dà,

Per i modelli riproduttivi la media ponderata di variabili casuali indipendenti con fisso μ e σ 2 e vari valori di w i è un membro della famiglia di distribuzioni con stesso μ e σ 2 .

I modelli di dispersione esponenziale di Tweedie sono sia additivi che riproduttivi; abbiamo quindi la trasformazione della dualità

Invarianza di scala

Una terza proprietà dei modelli Tweedie è che sono invarianti di scala : per un modello di dispersione esponenziale riproduttiva Tw p (μ, σ 2 ) e qualsiasi costante positiva c abbiamo la proprietà di chiusura sotto trasformazione di scala,

La funzione di variazione di potenza di Tweedie

Per definire la funzione di varianza per modelli di dispersione esponenziali abbiamo utilizzato la mappatura valore medio, la relazione tra il parametro canonica θ e la media μ . È definito dalla funzione

con funzione cumulativa . La funzione di varianza V ( μ ) è costruita dalla mappatura del valore medio,

Qui l'esponente negativo in τ −1 ( μ ) denota una funzione inversa piuttosto che un reciproco. La media e la varianza di una variabile casuale additiva sono quindi E( Z ) =  λμ e var( Z ) =  λV ( μ ).

L'invarianza di scala implica che la funzione di varianza obbedisca alla relazione V ( μ ) = μ p .

La devianza Tweedie

La devianza unitaria di una distribuzione riproduttiva Tweedie è data da

Le funzioni generatrici cumulative di Tweedie

Le proprietà dei modelli di dispersione esponenziale ci danno due equazioni differenziali . Il primo mette in relazione tra loro la mappatura del valore medio e la funzione di varianza,

Il secondo mostra come la mappatura del valore medio è correlata alla funzione cumulativa ,

Queste equazioni possono essere risolte per ottenere la funzione cumulativa per diversi casi dei modelli Tweedie. Una funzione generatrice cumulativa (CGF) può quindi essere ottenuta dalla funzione cumulativa. L'additivo CGF è generalmente specificato dall'equazione

e il CGF riproduttivo da

dove s è la variabile della funzione generatrice.

Per i modelli Tweedie additivi i CGF assumono la forma,

e per i modelli riproduttivi,

I modelli Tweedie additivo e riproduttivo sono convenzionalmente indicati dai simboli Tw * p ( θ , λ ) e Tw p ( θ , σ 2 ), rispettivamente.

La prima e la seconda derivata dei CGF, con s  = 0, danno rispettivamente la media e la varianza. Si può quindi confermare che per i modelli additivi la varianza è relativa alla media per legge di potenza,

Il teorema di convergenza di Tweedie

I modelli di dispersione esponenziale di Tweedie sono fondamentali nella teoria statistica in conseguenza del loro ruolo di foci di convergenza per un'ampia gamma di processi statistici. Jørgensen et al hanno dimostrato un teorema che specifica il comportamento asintotico delle funzioni di varianza noto come teorema di convergenza di Tweedie . Questo teorema, in termini tecnici, si enuncia così: La funzione di varianza unitaria è regolare di ordine p a zero (o infinito) purché V ( μ ) ~  c 0 μ p per μ quando si avvicina a zero (o infinito) per tutti i reali valori di p e c 0  > 0. Allora per una funzione di varianza unitaria regolare di ordine p a zero o infinito e per

per qualsiasi , e abbiamo

come o , rispettivamente, dove la convergenza è attraverso valori di c tale che è nel dominio di θ e c p -2 / σ 2 è nel dominio di λ . Il modello deve essere infinitamente divisibile quando c 2− p tende all'infinito.

In termini non tecnici, questo teorema implica che qualsiasi modello di dispersione esponenziale che manifesti asintoticamente una legge di potenza varianza-media deve avere una funzione di varianza che rientri nel dominio di attrazione di un modello di Tweedie. Quasi tutte le funzioni di distribuzione con funzioni generatrici cumulative finite si qualificano come modelli di dispersione esponenziale e la maggior parte dei modelli di dispersione esponenziale manifesta funzioni di varianza di questa forma. Quindi molte distribuzioni di probabilità hanno funzioni di varianza che esprimono questo comportamento asintotico e le distribuzioni di Tweedie diventano focolai di convergenza per un'ampia gamma di tipi di dati.

Distribuzioni correlate

Le distribuzioni Tweedie includono un numero di distribuzioni familiari e alcune insolite, ciascuna specificata dal dominio del parametro index. Abbiamo il

Per 0 <  p  < 1 non esiste un modello Tweedie. Nota che tutte le distribuzioni stabili significano effettivamente generate da distribuzioni stabili .

Evento e applicazioni

I modelli di Tweedie e la legge del potere di Taylor

La legge di Taylor è una legge empirica in ecologia che mette in relazione la varianza del numero di individui di una specie per unità di area di habitat con la media corrispondente mediante una relazione di legge di potenza . Per il conteggio della popolazione Y con media µ e varianza var( Y ), si scrive la legge di Taylor,

dove a e p sono entrambe costanti positive. Da quando LR Taylor descrisse questa legge nel 1961, sono state offerte molte diverse spiegazioni per spiegarla, che vanno dal comportamento animale, un modello di passeggiata casuale , un modello stocastico di nascita, morte, immigrazione ed emigrazione , a una conseguenza dell'equilibrio e del disequilibrio statistico. meccanica . Non esiste consenso su una spiegazione per questo modello.

Poiché la legge di Taylor è matematicamente identica alla legge di varianza-potenza che caratterizza i modelli di Tweedie, sembrava ragionevole utilizzare questi modelli e il teorema di convergenza di Tweedie per spiegare il raggruppamento osservato di animali e piante associato alla legge di Taylor. La maggior parte dei valori osservati per l'esponente p della legge di potenza sono caduti nell'intervallo (1,2) e quindi la distribuzione di Poisson-gamma composta di Tweedie sembrerebbe applicabile. Il confronto della funzione di distribuzione empirica con la distribuzione teorica composta di Poisson-gamma ha fornito un mezzo per verificare la consistenza di questa ipotesi.

Mentre i modelli convenzionali per la legge di Taylor hanno avuto la tendenza a coinvolgere ipotesi ad hoc sul comportamento degli animali o sulla dinamica della popolazione , il teorema di convergenza di Tweedie implicherebbe che la legge di Taylor risulta da un effetto di convergenza matematico generale tanto quanto il teorema del limite centrale governa il comportamento di convergenza di certi tipi di dati casuali. Infatti, qualsiasi modello matematico, approssimazione o simulazione progettato per produrre la legge di Taylor (sulla base di questo teorema) deve convergere alla forma dei modelli di Tweedie.

Convergenza Tweedie e rumore 1/ f

Il rumore rosa , o rumore 1/ f , si riferisce a un modello di rumore caratterizzato da una relazione di legge di potenza tra le sue intensità S ( f ) a diverse frequenze f ,

dove l'esponente adimensionale γ ∈ [0,1]. Si trova all'interno di un numero diversificato di processi naturali. Esistono molte spiegazioni diverse per il rumore 1/ f , un'ipotesi ampiamente condivisa si basa sulla criticità auto-organizzata in cui si pensa che i sistemi dinamici vicini a un punto critico manifestino un comportamento spaziale e/o temporale invariante di scala .

In questa sottosezione verrà descritta una connessione matematica tra il rumore 1/ f e la legge di Tweedie tra varianza e potenza media. Per iniziare, dobbiamo prima introdurre processi auto-simili : Per la sequenza di numeri

con media

deviazioni

varianza

e funzione di autocorrelazione

con lag k , se l' autocorrelazione di questa sequenza ha il comportamento a lungo raggio

come k →∞ e dove L ( k ) è una funzione che varia lentamente a grandi valori di k , questa sequenza è chiamata processo autosimilare.

Il metodo di espansione dei contenitori può essere utilizzato per analizzare processi auto-simili. Si consideri un insieme di bin di uguale dimensione non sovrapposti che divida la sequenza originale di N elementi in gruppi di m segmenti di uguale dimensione ( N/m è intero) in modo da poter definire nuove sequenze riproduttive, basate sui valori medi:

La varianza determinata da questa sequenza verrà ridimensionata al variare della dimensione del contenitore in modo tale che

se e solo se l'autocorrelazione ha la forma limite

Si può anche costruire un insieme di sequenze additive corrispondenti

in base ai cassonetti espandibili,

A condizione che la funzione di autocorrelazione mostri lo stesso comportamento, le sequenze additive obbediranno alla relazione

Poiché e sono costanti questa relazione costituisce una legge di varianza-potenza media, con p  = 2 -  d .

La relazione bicondizionale sopra tra la legge di potenza varianza-media e la funzione di autocorrelazione della legge di potenza, e il teorema di Wiener-Khinchin implica che qualsiasi sequenza che esibisce una legge di potenza varianza-media con il metodo di espansione dei bin si manifesterà anche 1/ f rumore e viceversa. Inoltre, il teorema di convergenza di Tweedie, in virtù del suo effetto limite centrale di generare distribuzioni che manifestano funzioni di varianza-media, genererà anche processi che manifestano rumore 1/ f . Il teorema di convergenza di Tweedie fornisce quindi una spiegazione alternativa per l'origine del rumore 1/ f , basandosi sul suo effetto limite centrale.

Così come il teorema del limite centrale richiede che certi tipi di processi casuali abbiano come fulcro della loro convergenza la distribuzione gaussiana e quindi esprimano rumore bianco , il teorema di convergenza di Tweedie richiede che alcuni processi non gaussiani abbiano come fulcro di convergenza le distribuzioni di Tweedie che esprimere 1/ f di rumore.

I modelli Tweedie e la multifrattalità

Dalle proprietà dei processi autosimili, l'esponente della legge di potenza p  = 2 -  d è correlato all'esponente di Hurst H e alla dimensione frattale D da

Una sequenza di dati unidimensionale di dati auto-simili può dimostrare una legge di potenza varianza-media con variazioni locali nel valore di p e quindi nel valore di D . Quando le strutture frattali manifestano variazioni locali nella dimensione frattale, si dice che siano multifrattali . Esempi di sequenze di dati che mostrano variazioni locali in p come questa includono le deviazioni degli autovalori degli insiemi ortogonali e unitari gaussiani . La distribuzione di Poisson-gamma composta di Tweedie è servita a modellare la multifrattalità basata su variazioni locali nell'esponente di Tweedie α . Di conseguenza, in concomitanza con la variazione di α , il teorema di convergenza di Tweedie può essere visto come avente un ruolo nella genesi di tali multifrattali.

Si è scoperto che la variazione di α obbedisce alla distribuzione asimmetrica di Laplace in alcuni casi. È stato dimostrato che questa distribuzione è un membro della famiglia dei modelli geometrici Tweedie, che si manifestano come distribuzioni limite in un teorema di convergenza per modelli geometrici di dispersione.

Flusso sanguigno degli organi regionali

Il flusso sanguigno degli organi regionali è stato tradizionalmente valutato mediante l'iniezione di microsfere di polietilene radiomarcato nella circolazione arteriosa degli animali, di dimensioni tali da essere intrappolate all'interno della microcircolazione degli organi. L'organo da valutare viene quindi diviso in cubi di uguali dimensioni e la quantità di radiomarcatura all'interno di ciascun cubo viene valutata mediante conteggio in scintillazione liquida e registrata. La quantità di radioattività all'interno di ciascun cubo viene presa per riflettere il flusso sanguigno attraverso quel campione al momento dell'iniezione. È possibile valutare cubi adiacenti da un organo per determinare additivamente il flusso sanguigno attraverso regioni più grandi. Attraverso il lavoro di JB Bassingthwaighte e altri è stata derivata una legge di potenza empirica tra la dispersione relativa del flusso sanguigno di campioni di tessuto ( RD  = deviazione standard/media) di massa m rispetto a campioni di dimensioni di riferimento:

Questo esponente della legge di potenza D s è stato chiamato dimensione frattale. Si può dimostrare che la legge di potenza di Bassingthwaighte è direttamente correlata alla legge di potenza varianza-media. Il flusso sanguigno dell'organo regionale può quindi essere modellato dalla distribuzione Poisson-gamma del composto di Tweedie. In questo modello si potrebbe considerare che il campione di tessuto contenga un numero distribuito casuale (Poisson) di siti di intrappolamento, ciascuno con flusso sanguigno distribuito gamma . È stato osservato che il flusso sanguigno a questo livello microcircolatorio obbedisce a una distribuzione gamma, fornendo così supporto a questa ipotesi.

Metastasi del cancro

Il " test sperimentale di metastasi del cancro " ha qualche somiglianza con il metodo di cui sopra per misurare il flusso sanguigno regionale. A gruppi di topi singenici e di pari età vengono somministrate iniezioni endovenose di aliquote di uguali dimensioni di sospensioni di cellule tumorali clonate e quindi, dopo un determinato periodo di tempo, i loro polmoni vengono rimossi e viene enumerato il numero di metastasi tumorali all'interno di ciascuna coppia di polmoni. Se ad altri gruppi di topi vengono iniettati diversi cloni di cellule cancerose, il numero di metastasi per gruppo differirà in accordo con i potenziali metastatici dei cloni. È stato a lungo riconosciuto che può esserci una considerevole variazione intraclonale nel numero di metastasi per topo nonostante i migliori tentativi di mantenere uniformi le condizioni sperimentali all'interno di ciascun gruppo clonale. Questa variazione è maggiore di quanto ci si aspetterebbe sulla base di una distribuzione di Poisson del numero di metastasi per topo in ciascun clone e quando la varianza del numero di metastasi per topo è stata tracciata rispetto alla media corrispondente è stata trovata una legge di potenza.

La legge di potenza varianza-media per le metastasi è risultata valida anche per le metastasi murine spontanee e per le serie di casi di metastasi umane. Poiché le metastasi ematogene si verificano in relazione diretta con il flusso sanguigno regionale e gli studi videomicroscopici indicano che il passaggio e l'intrappolamento delle cellule tumorali all'interno della circolazione appare analogo agli esperimenti sulla microsfera, è sembrato plausibile proporre che la variazione del numero di metastasi ematogene potesse riflettere l'eterogeneità nel flusso sanguigno dell'organo. Il modello del flusso sanguigno era basato sulla distribuzione Poisson-gamma del composto Tweedie, una distribuzione che governa una variabile casuale continua. Per questo motivo nel modello delle metastasi si presumeva che il flusso sanguigno fosse governato da tale distribuzione e che il numero di metastasi regionali si verificasse come un processo di Poisson per cui l'intensità fosse direttamente proporzionale al flusso sanguigno. Ciò ha portato alla descrizione della distribuzione binomiale negativa di Poisson (PNB) come equivalente discreto della distribuzione Poisson-gamma composta di Tweedie. La funzione generatrice di probabilità per la distribuzione PNB è

La relazione tra la media e la varianza della distribuzione PNB è quindi

che, nell'ambito di molti saggi sperimentali di metastasi, sarebbe indistinguibile dalla legge di varianza-potenza media. Per dati sparsi, tuttavia, questa relazione varianza-media discreta si comporterebbe più come quella di una distribuzione di Poisson in cui la varianza è uguale alla media.

Struttura ed evoluzione genomica

La densità locale dei polimorfismi a singolo nucleotide (SNP) all'interno del genoma umano , così come quella dei geni , sembra raggrupparsi in accordo con la legge di potenza varianza-media e la distribuzione Poisson-gamma del composto di Tweedie. Nel caso degli SNP, la loro densità osservata riflette le tecniche di valutazione, la disponibilità di sequenze genomiche per l'analisi e l' eterozigosi nucleotidica . I primi due fattori riflettono errori di accertamento inerenti ai metodi di raccolta, il secondo fattore riflette una proprietà intrinseca del genoma.

Nel modello coalescente della genetica delle popolazioni ogni locus genetico ha la sua storia unica. All'interno dell'evoluzione di una popolazione da alcune specie, alcuni loci genetici potrebbero presumibilmente essere ricondotti a un antenato comune relativamente recente, mentre altri loci potrebbero avere genealogie più antiche . Segmenti genomici più antichi avrebbero avuto più tempo per accumulare SNP e sperimentare la ricombinazione . RR Hudson ha proposto un modello in cui la ricombinazione potrebbe causare variazioni nel tempo all'antenato recente più comune per diversi segmenti genomici. Un alto tasso di ricombinazione potrebbe far sì che un cromosoma contenga un gran numero di piccoli segmenti con genealogie meno correlate.

Assumendo un tasso di mutazione di fondo costante, il numero di SNP per segmento genomico si accumulerebbe proporzionalmente al tempo trascorso dall'antenato comune più recente. L'attuale teoria genetica della popolazione indicherebbe che questi tempi sarebbero distribuiti gamma , in media. La distribuzione Poisson-gamma composta di Tweedie suggerirebbe un modello in base al quale la mappa SNP sarebbe costituita da più piccoli segmenti genomici con il numero medio di SNP per segmento distribuito gamma secondo il modello di Hudson.

La distribuzione dei geni all'interno del genoma umano ha anche dimostrato una legge di potenza varianza-media, quando il metodo di espansione dei contenitori è stato utilizzato per determinare le varianze e le medie corrispondenti. Allo stesso modo, è stato scoperto che il numero di geni per contenitore enumerativo obbedisce a una distribuzione Poisson-gamma composta da Tweedie. Questa distribuzione di probabilità è stata ritenuta compatibile con due diversi modelli biologici: il modello di microarrangiamento in cui il numero di geni per unità di lunghezza genomica è stato determinato dalla somma di un numero casuale di segmenti genomici più piccoli derivati ​​da rotture casuali e ricostruzione di protocromosomi. Si presume che questi segmenti più piccoli portino in media un numero di geni distribuito gamma.

Nel modello di cluster genico alternativo , i geni sarebbero distribuiti casualmente all'interno dei protocromosomi. Su grandi tempi evolutivi si verificherebbero duplicazioni in tandem , mutazioni, inserzioni, delezioni e riarrangiamenti che potrebbero influenzare i geni attraverso un processo stocastico di nascita, morte e immigrazione per produrre la distribuzione Poisson-gamma composta da Tweedie.

Entrambi questi meccanismi implicherebbero processi evolutivi neutri che porterebbero a un raggruppamento regionale di geni.

Teoria delle matrici casuali

L' insieme unitario gaussiano (GUE) è costituito da matrici hermitiane complesse che sono invarianti per trasformazioni unitarie mentre l' insieme ortogonale gaussiano (GOE) è costituito da matrici simmetriche reali invarianti per trasformazioni ortogonali . Gli autovalori classificati E n da queste matrici casuali obbediscono alla distribuzione semicircolare di Wigner : Per una matrice N × N la densità media per gli autovalori di dimensione E sarà

come E → ∞ . L'integrazione della regola semicircolare fornisce il numero di autovalori in media inferiore a E ,

Gli autovalori classificati possono essere spiegati o rinormalizzati con l'equazione

Questo rimuove l'andamento della sequenza dalla porzione fluttuante. Se osserviamo il valore assoluto della differenza tra il numero cumulativo effettivo e quello atteso di autovalori

otteniamo una sequenza di fluttuazioni di autovalori che, utilizzando il metodo dei bin di espansione, rivela una legge di varianza-potenza media. Le fluttuazioni degli autovalori sia del GUE che del GOE manifestano questa legge di potenza con esponenti della legge di potenza compresi tra 1 e 2, e manifestano similmente spettri di rumore 1/ f . Queste fluttuazioni di autovalori corrispondono anche alla distribuzione di Poisson-gamma composta di Tweedie e mostrano multifrattalità.

La distribuzione dei numeri primi

La seconda funzione di Chebyshev ψ ( x ) è data da,

dove la sommatoria si estende su tutte le potenze prime non eccedenti  x , x scorre sui numeri reali positivi, ed è la funzione di von Mangoldt . La funzione ψ ( x ) è correlata alla funzione di conteggio dei primi π ( x ), e come tale fornisce informazioni sulla distribuzione dei numeri primi tra i numeri reali. È asintotico a  x , un'affermazione equivalente al teorema dei numeri primi e si può anche dimostrare che è correlato agli zeri della funzione zeta di Riemann situata sulla striscia critica ρ , dove la parte reale dello zero zeta ρ è compresa tra 0 e 1. Allora ψ espresso per x maggiore di uno può essere scritto:

dove

L' ipotesi di Riemann afferma che gli zeri non banali della funzione zeta di Riemann hanno tutti parte reale ½. Questi zeri della funzione zeta sono legati alla distribuzione dei numeri primi . Schoenfeld ha dimostrato che se l'ipotesi di Riemann è vera allora

per tutti . Se analizziamo le deviazioni di Chebyshev Δ( n ) sugli interi n usando il metodo dell'espansione dei bin e tracciamo la varianza rispetto alla media, si può dimostrare una varianza rispetto alla legge di potenza media. Inoltre, queste deviazioni corrispondono alla distribuzione Poisson-gamma composta di Tweedie e mostrano rumore 1/ f .

Altre applicazioni

Le applicazioni delle distribuzioni Tweedie includono:

  • studi attuariali
  • analisi del dosaggio
  • analisi di sopravvivenza
  • ecologia
  • analisi del consumo di alcol negli adolescenti britannici
  • applicazioni mediche
  • economia sanitaria
  • meteorologia e climatologia
  • pesca
  • Funzione di Mertens
  • criticità auto-organizzata

Riferimenti

Ulteriori letture

  • Dunn, Pennsylvania; Smith, GK (2018). Modelli lineari generalizzati con esempi in R . New York: Springer. doi : 10.1007/978-1-4419-0118-7 . ISBN 978-1-4419-0118-7. Il capitolo 12 riguarda le distribuzioni ei modelli di Tweedie.
  • Kaas, R. (2005). "Distribuzione composta di Poisson e GLM - Distribuzione di Tweedie" . In Atti del Forum di contatto "3a Giornata della matematica attuariale e finanziaria" , pagine 3-12. Bruxelles: Accademia reale fiamminga del Belgio per la scienza e le arti.
  • Tweedie, MCK (1956). "Alcune proprietà statistiche delle distribuzioni gaussiane inverse". Virginia J. Sci . Nuova serie. 7 : 160-165.