Stimatore del rapporto - Ratio estimator

Lo stimatore del rapporto è un parametro statistico ed è definito come il rapporto tra le medie di due variabili casuali. Le stime dei rapporti sono distorte e devono essere apportate correzioni quando vengono utilizzate in lavori sperimentali o di indagine. Le stime del rapporto sono test asimmetrici e simmetrici come il test t non dovrebbe essere utilizzato per generare intervalli di confidenza.

Il bias è dell'ordine O (1/ n ) (vedi notazione O grande ) così all'aumentare della dimensione del campione ( n ), il bias si avvicinerà asintoticamente a 0. Pertanto, lo stimatore è approssimativamente imparziale per campioni di grandi dimensioni.

Definizione

Supponiamo che ci siano due caratteristiche – x e y – che possono essere osservate per ogni elemento campionato nell'insieme di dati. Il rapporto R è

La stima del rapporto di un valore della variabile y ( θ y ) è

dove θ x è il valore corrispondente della variabile x . θ y viene notoriamente asintoticamente distribuzione normale.

Proprietà statistiche

Il rapporto di campionamento ( r ) è stimato dal campione

Che il rapporto sia distorto può essere mostrato con la disuguaglianza di Jensen come segue (assumendo l'indipendenza tra x e y):

Sotto semplice campionamento casuale la distorsione è dell'ordine O ( n -1 ). Un limite superiore alla distorsione relativa della stima è fornito dal coefficiente di variazione (il rapporto tra la deviazione standard e la media ). Sotto semplice campionamento casuale la distorsione relativa è O ( n -1/2 ).

Correzione del bias della media

I metodi di correzione, a seconda delle distribuzioni delle variabili x e y , differiscono nella loro efficienza rendendo difficile consigliare un metodo complessivamente migliore. Poiché le stime di r sono distorte, è necessario utilizzare una versione corretta in tutti i calcoli successivi.

Una correzione del bias accurata al primo ordine è

dove m x è la media della variabile x e s ab è la covarianza tra a e b .

Per semplificare la notazione s ab sarà utilizzato successivamente per indicare la covarianza tra il variates un e b .

Un altro stimatore basato sullo sviluppo di Taylor è

dove n è la dimensione del campione, N è la dimensione della popolazione, m x è la media del variate x , s x 2 e s y 2 sono campione varianze della x ed y variates rispettivamente e ρ è la correlazione campionaria tra il x e y varia.

Una versione computazionalmente più semplice ma leggermente meno accurata di questo stimatore è

dove N è la dimensione della popolazione, n è la dimensione del campione, m x è la media di x variate, s x 2 e s y 2 sono campione varianze della x ed y variates rispettivamente e ρ è la correlazione campionaria tra il x e y varia. Queste versioni differiscono solo per il fattore al denominatore ( N - 1 ). Per un grande N la differenza è trascurabile.

Una correzione di secondo ordine è

Sono stati proposti anche altri metodi di correzione del bias. Per semplificare la notazione verranno utilizzate le seguenti variabili

Stimatore di Pascual:

Lo stimatore di Beale:

Stimatore di stagno:

Stimatore di Sahoo:

Sahoo ha anche proposto una serie di stimatori aggiuntivi:

Se m x e m y sono entrambi maggiori di 10, allora la seguente approssimazione è corretta per ordinare O( n −3 ).

Uno stimatore asintoticamente corretto è

Stima del coltello a serramanico

Una stima a serramanico del rapporto è meno distorta della forma ingenua. Uno stimatore a coltello del rapporto è

dove n è la dimensione del campione e r i sono stimati con l'omissione di una coppia di variabili alla volta.

Un metodo alternativo consiste nel dividere il campione in g gruppi ciascuno di dimensione p con n = pg . Sia r i la stima dell'i- esimo gruppo. Allora lo stimatore

ha un bias di al massimo O ( n -2 ).

Altri stimatori basati sulla divisione del campione in g gruppi sono:

dove è la media dei rapporti r g dei g gruppi e

dove r i ' è il valore del rapporto di campionamento con l' i- esimo gruppo omesso.

Altri metodi di stima

Altri metodi per stimare uno stimatore di rapporto includono la massima verosimiglianza e il bootstrap .

Stima del totale

Il totale stimato della variabile y ( τ y ) è

dove ( τ x ) è il totale della x variabile.

Stime della varianza

La varianza del rapporto di campionamento è approssimativamente:

dove s x 2 e s y 2 sono rispettivamente le varianze delle variabili x e y , m x e m y sono le medie delle variabili x e y rispettivamente e s ab è la covarianza di a e b .

Sebbene lo stimatore approssimativo della varianza del rapporto indicato di seguito sia distorto, se la dimensione del campione è grande, la distorsione in questo stimatore è trascurabile.

dove N è la dimensione della popolazione, n è la dimensione del campione e m x è la media della variabile x .

Un altro stimatore della varianza basato sullo sviluppo di Taylor è

dove n è la dimensione del campione, N è la dimensione della popolazione e ρ è il coefficiente di correlazione tra il x ed y variates.

Una stima accurata per O( n −2 ) è

Se la distribuzione di probabilità è Poissoniana, uno stimatore accurato a O( n −3 ) è

Uno stimatore a serramanico della varianza è

dove r i è il rapporto con la i- esima coppia di variabili omesse e r J è la stima a coltello del rapporto.

Varianza del totale

La varianza del totale stimato è

Varianza della media

La varianza della media stimata della variabile y è

dove m x è la media di x variate, s x 2 e s y 2 sono campione varianze della x ed y variates rispettivamente e ρ è la correlazione tra il campione di x ed y variates.

asimmetria

L' asimmetria e la curtosi del rapporto dipendono dalle distribuzioni di x ed y variates. Sono state fatte delle stime di questi parametri per le variabili x e y normalmente distribuite, ma per altre distribuzioni non sono state ancora derivate espressioni. È stato riscontrato che in generale le variabili di rapporto sono inclinate verso destra, sono leptocurtiche e la loro non normalità aumenta all'aumentare della grandezza del coefficiente di variazione del denominatore .

Per le variazioni di x e y normalmente distribuite l' asimmetria del rapporto è approssimativamente

dove

Effetto sugli intervalli di confidenza

Poiché la stima del rapporto è generalmente distorta, gli intervalli di confidenza creati con la varianza ei test simmetrici come il test t non sono corretti. Questi intervalli di confidenza tendono a sovrastimare la dimensione dell'intervallo di confidenza sinistro e sottovalutare la dimensione del destro.

Se lo stimatore del rapporto è unimodale (cosa che è spesso il caso) allora una stima conservativa degli intervalli di confidenza al 95% può essere fatta con la disuguaglianza di Vysochanskiï-Petunin .

Metodi alternativi di riduzione del bias

Un metodo alternativo per ridurre o eliminare la distorsione nello stimatore del rapporto consiste nell'alterare il metodo di campionamento. La varianza del rapporto utilizzando questi metodi differisce dalle stime fornite in precedenza. Si noti che mentre molte applicazioni come quelle discusse in Lohr sono destinate ad essere limitate ai soli numeri interi positivi , come le dimensioni dei gruppi di campioni, il metodo Midzuno-Sen funziona per qualsiasi sequenza di numeri positivi, integrali o meno. Non è chiaro cosa significhi che il metodo di Lahiri funziona poiché restituisce un risultato distorto.

Il metodo di Lahiri

Il primo di questi schemi di campionamento è un doppio uso di un metodo di campionamento introdotto da Lahiri nel 1951. L'algoritmo qui si basa sulla descrizione di Lohr.

  1. Scegli un numero M = max( x 1 , ..., x N ) dove N è la dimensione della popolazione.
  2. Scegli i a caso da una distribuzione uniforme su [1, N ].
  3. Scegli k a caso da una distribuzione uniforme su [1, M ].
  4. Se kx i , allora x i viene mantenuto nel campione. In caso negativo viene rifiutato.
  5. Ripetere questo processo dal passaggio 2 fino a ottenere la dimensione del campione desiderata.

La stessa procedura per la stessa dimensione del campione desiderata viene eseguita con la variabile y .

Lo schema di Lahiri come descritto da Lohr è distorto e, quindi, è interessante solo per ragioni storiche. Si consiglia invece la tecnica Midzuno-Sen descritta di seguito.

Metodo di Midzuno-Sen

Nel 1952 Midzuno e Sen descrissero indipendentemente uno schema di campionamento che fornisce uno stimatore imparziale del rapporto.

Il primo campione viene scelto con probabilità proporzionale alla dimensione della variabile x . I restanti n - 1 campioni vengono scelti a caso senza sostituzione dai restanti N - 1 membri della popolazione. La probabilità di selezione secondo questo schema è

dove X è la somma delle N x varia e x i sono gli n membri del campione. Allora il rapporto tra la somma delle variabili y e la somma delle variabili x scelte in questo modo è una stima imparziale dello stimatore del rapporto.

Nei simboli abbiamo

dove x i e y i sono scelti secondo lo schema sopra descritto.

Lo stimatore del rapporto dato da questo schema è imparziale.

Särndal, Swensson e Wretman attribuiscono a Lahiri, Midzuno e Sen le intuizioni che hanno portato a questo metodo, ma la tecnica di Lahiri è distorta.


Altri stimatori di rapporto

Tin (1965) ha descritto e confrontato gli stimatori di rapporto proposti da Beale (1962) e Quenouille (1956) e ha proposto un approccio modificato (ora indicato come metodo di Tin). Questi stimatori di rapporto sono comunemente usati per calcolare i carichi inquinanti dal campionamento dei corsi d'acqua, in particolare dove il flusso viene misurato più frequentemente della qualità dell'acqua. Ad esempio, vedere Quilbe et al., (2006)


Regressione ordinaria ai minimi quadrati

Se esiste una relazione lineare tra le variabili x e y e l' equazione di regressione passa per l'origine, la varianza stimata dell'equazione di regressione è sempre inferiore a quella dello stimatore del rapporto. La precisa relazione tra le varianze dipende dalla linearità della relazione tra le variabili x e y : quando la relazione è diversa da lineare la stima del rapporto può avere una varianza inferiore a quella stimata mediante regressione.

Usi

Sebbene lo stimatore del rapporto possa essere utile in una serie di impostazioni, è particolarmente utile in due casi:

  • quando le variabili x e y sono altamente correlate attraverso l' origine .
  • Nella metodologia di indagine quando si stima una media ponderata in cui il denominatore indica la somma dei pesi che riflettono la dimensione totale della popolazione, ma la dimensione totale della popolazione è sconosciuta.

Storia

Il primo uso noto dello stimatore del rapporto fu di John Graunt in Inghilterra che nel 1662 fu il primo a stimare il rapporto y / x dove y rappresentava la popolazione totale e x il numero totale noto di nascite registrate nelle stesse aree durante l'anno precedente .

Più tardi Messance (~1765) e Moheau (1778) pubblicarono stime molto attentamente preparate per la Francia basate sul conteggio della popolazione in alcuni distretti e sul conteggio delle nascite, morti e matrimoni come riportato per l'intero paese. I distretti da cui è stato determinato il rapporto tra abitanti e natalità costituiscono solo un campione.

Nel 1802, Laplace ha voluto stimare la popolazione della Francia. Non era stato effettuato alcun censimento della popolazione e a Laplace mancavano le risorse per contare ogni individuo. Invece ha campionato 30 parrocchie il cui numero totale di abitanti era 2.037.615. I registri battesimali parrocchiali erano considerati stime attendibili del numero di nati vivi, quindi ha utilizzato il numero totale di nascite su un periodo di tre anni. La stima del campione è stata di 71.866,333 battesimi all'anno in questo periodo, con un rapporto di un battesimo registrato ogni 28,35 persone. Aveva a disposizione anche il numero totale delle iscrizioni battesimali per la Francia e presumeva che il rapporto tra nati vivi e popolazione fosse costante. Ha quindi utilizzato il rapporto del suo campione per stimare la popolazione della Francia.

Karl Pearson ha affermato nel 1897 che le stime del rapporto sono distorte e hanno messo in guardia contro il loro uso.

Guarda anche

Riferimenti