Campionamento a grappolo - Cluster sampling

Campionamento a grappolo

In statistica , il campionamento a grappolo è un piano di campionamento utilizzato quando in una popolazione statistica sono evidenti raggruppamenti reciprocamente omogenei ma internamente eterogenei . Viene spesso utilizzato nelle ricerche di mercato . In questo piano di campionamento, la popolazione totale viene suddivisa in questi gruppi (noti come cluster) e viene selezionato un semplice campione casuale dei gruppi. Gli elementi in ciascun cluster vengono quindi campionati. Se vengono campionati tutti gli elementi in ciascun cluster campionato, si parla di piano di campionamento cluster "a una fase". Se viene selezionato un semplice sottocampione casuale di elementi all'interno di ciascuno di questi gruppi, si parla di piano di campionamento a grappolo "a due fasi". Una motivazione comune per il campionamento a grappolo è ridurre il numero totale di interviste e costi data l'accuratezza desiderata. Per una dimensione del campione fissa, l' errore casuale atteso è minore quando la maggior parte della variazione nella popolazione è presente all'interno dei gruppi e non tra i gruppi.

Elementi a grappolo

La popolazione all'interno di un cluster dovrebbe idealmente essere il più eterogenea possibile, ma dovrebbe esserci omogeneità tra i cluster. Ogni cluster dovrebbe essere una rappresentazione su piccola scala della popolazione totale. I cluster dovrebbero essere mutuamente esclusivi e collettivamente esaustivi. Una tecnica di campionamento casuale viene quindi utilizzata su qualsiasi cluster rilevante per scegliere quali cluster includere nello studio. Nel campionamento a cluster a fase singola, vengono campionati tutti gli elementi di ciascuno dei cluster selezionati. Nel campionamento a grappolo in due fasi, viene applicata una tecnica di campionamento casuale agli elementi di ciascuno dei grappoli selezionati.

La principale differenza tra il campionamento a grappolo e il campionamento stratificato è che nel campionamento a grappolo il grappolo viene trattato come l'unità di campionamento, quindi il campionamento viene effettuato su una popolazione di grappoli (almeno nella prima fase). Nel campionamento stratificato, il campionamento viene effettuato su elementi all'interno di ogni strato. Nel campionamento stratificato viene prelevato un campione casuale da ciascuno degli strati, mentre nel campionamento a grappolo vengono campionati solo i grappoli selezionati. Una motivazione comune del campionamento a grappolo è ridurre i costi aumentando l'efficienza del campionamento. Ciò contrasta con il campionamento stratificato in cui la motivazione è aumentare la precisione.

Esiste anche un campionamento a grappolo multistadio , in cui vengono prese almeno due fasi nella selezione degli elementi dai grappoli.

Quando i cluster sono di dimensioni diverse

Senza modificare il parametro stimato, il campionamento dei cluster è imparziale quando i cluster sono approssimativamente della stessa dimensione. In questo caso, il parametro viene calcolato combinando tutti i cluster selezionati. Quando i cluster sono di dimensioni diverse ci sono diverse opzioni:

Un metodo consiste nel campionare i cluster e quindi esaminare tutti gli elementi in quel cluster. Un altro metodo è un metodo in due fasi per campionare una percentuale fissa di unità (che si tratti del 5% o del 50% o di un altro numero, a seconda delle considerazioni sui costi) all'interno di ciascuno dei cluster selezionati. Affidarsi al campione tratto da queste opzioni produrrà uno stimatore imparziale. Tuttavia, la dimensione del campione non è più fissata in anticipo. Ciò porta a una formula più complicata per l'errore standard dello stimatore, nonché a problemi con l'ottica del piano di studi (poiché l'analisi della potenza e le stime dei costi si riferiscono spesso a una specifica dimensione del campione).

Una terza possibile soluzione consiste nell'utilizzare la probabilità proporzionale alla dimensione del campionamento . In questo piano di campionamento, la probabilità di selezionare un cluster è proporzionale alla sua dimensione, per cui un cluster grande ha una probabilità di selezione maggiore rispetto a un cluster piccolo. Il vantaggio qui è che quando i cluster sono selezionati con probabilità proporzionata alla dimensione, in ogni cluster campionato dovrebbe essere effettuato lo stesso numero di interviste in modo che ogni unità campionata abbia la stessa probabilità di selezione.

Applicazioni del campionamento a grappolo

Un esempio di campionamento a grappolo è il campionamento ad area o il campionamento a grappolo geografico . Ogni cluster è un'area geografica. Poiché una popolazione geograficamente dispersa può essere costosa da rilevare, è possibile ottenere una maggiore economia rispetto al semplice campionamento casuale raggruppando più intervistati all'interno di un'area locale in un cluster. Di solito è necessario aumentare la dimensione totale del campione per ottenere una precisione equivalente negli stimatori , ma i risparmi sui costi possono rendere fattibile un tale aumento della dimensione del campione.

Il campionamento a grappolo viene utilizzato per stimare la mortalità elevata in casi quali guerre , carestie e disastri naturali .

Vantaggio

  • Può essere più economico di altri piani di campionamento, ad es. minori spese di viaggio, costi amministrativi.
  • Fattibilità: questo piano di campionamento tiene conto di grandi popolazioni. Poiché questi gruppi sono così grandi, l'implementazione di qualsiasi altro piano di campionamento sarebbe molto costosa.
  • Economia: i due principali problemi di spesa, ad es. viaggiare ed elencare, sono notevolmente ridotti in questo metodo. Ad esempio: la compilazione di informazioni di ricerca su ogni famiglia in una città sarebbe molto costosa, mentre la compilazione di informazioni sui vari isolati della città sarà più economica. Qui, i viaggi e gli sforzi di quotazione saranno notevolmente ridotti.
  • Variabilità ridotta: nel raro caso di una correlazione intraclasse negativa tra soggetti all'interno di un cluster, gli stimatori prodotti dal campionamento a cluster forniranno stime più accurate rispetto ai dati ottenuti da un semplice campione casuale (ovvero l' effetto del disegno sarà inferiore a 1). Questo non è uno scenario comune.

Utilizzo maggiore: quando il frame di campionamento di tutti gli elementi non è disponibile si può ricorrere solo al campionamento a grappolo.

Svantaggio

  • Errore di campionamento più elevato , che può essere espresso dall'effetto disegno: il rapporto tra la varianza di uno stimatore ricavato dai campioni dello studio cluster e la varianza di uno stimatore ottenuto da un campione di soggetti in uno studio non cluster ugualmente affidabile, campionato casualmente . Maggiore è la correlazione intraclasse tra i soggetti all'interno di un cluster, peggiore diventa l'effetto di progettazione (ovvero maggiore diventa da 1. Indicando un aumento atteso maggiore della varianza dello stimatore). In altre parole, più c'è eterogeneità tra i cluster e più omogeneità tra i soggetti all'interno di un cluster, meno accurati diventano i nostri stimatori. Questo perché in questi casi è meglio campionare il maggior numero di cluster possibile e accontentarsi di un piccolo campione di soggetti all'interno di ciascun cluster (cioè campionamento a cluster in due fasi).
  • Complessità. I campioni a grappolo sono più sofisticati e richiedono maggiore attenzione su come pianificare e su come analizzare (es: tenere conto dei pesi dei soggetti durante la stima dei parametri, intervalli di confidenza, ecc.)

Maggiori informazioni sul campionamento a grappolo

Campionamento a grappolo in due fasi

Il campionamento a grappolo a due stadi, un semplice caso di campionamento a più stadi , si ottiene selezionando campioni di grappoli nella prima fase e quindi selezionando un campione di elementi da ogni grappolo campionato. Considera una popolazione di N cluster in totale. Nella prima fase, vengono selezionati n cluster utilizzando il metodo di campionamento a cluster ordinario. Nella seconda fase viene solitamente utilizzato il campionamento casuale semplice . Viene utilizzato separatamente in ogni cluster e il numero di elementi selezionati da cluster diversi non è necessariamente uguale. Il numero totale di cluster N , il numero di cluster selezionati n e il numero di elementi dei cluster selezionati devono essere predeterminati dal progettista del sondaggio. Il campionamento a grappolo in due fasi mira a minimizzare i costi di indagine e allo stesso tempo a controllare l'incertezza relativa alle stime di interesse. Questo metodo può essere utilizzato nelle scienze sanitarie e sociali. Ad esempio, i ricercatori hanno utilizzato il campionamento a grappolo in due fasi per generare un campione rappresentativo della popolazione irachena per condurre indagini sulla mortalità. Il campionamento con questo metodo può essere più rapido e affidabile rispetto ad altri metodi, motivo per cui questo metodo viene ora utilizzato frequentemente.

Inferenza quando il numero di cluster è piccolo

I metodi di campionamento dei cluster possono portare a una distorsione significativa quando si lavora con un numero ridotto di cluster. Ad esempio, può essere necessario raggruppare a livello statale o cittadino unità che possono essere piccole e in numero fisso. I metodi di microeconometria per i dati panel spesso utilizzano pannelli brevi, il che è analogo ad avere poche osservazioni per cluster e molti cluster. Il problema del cluster piccolo può essere visto come un problema di parametro incidentale. Mentre le stime puntuali possono essere stimate in modo ragionevolmente preciso, se il numero di osservazioni per cluster è sufficientemente alto, abbiamo bisogno del numero di cluster affinché gli asintotici si attivino. Se il numero di cluster è basso, la matrice di covarianza stimata può essere distorta verso il basso.

Un piccolo numero di cluster è un rischio quando c'è una correlazione seriale o quando c'è una correlazione intraclasse come nel contesto di Moulton. Quando abbiamo pochi cluster, tendiamo a sottovalutare la correlazione seriale tra le osservazioni quando si verifica uno shock casuale o la correlazione intraclasse in un ambiente Moulton. Diversi studi hanno evidenziato le conseguenze della correlazione seriale e messo in evidenza il problema dei piccoli cluster.

Nell'ambito del fattore Moulton, una spiegazione intuitiva del problema dei piccoli cluster può essere derivata dalla formula per il fattore Moulton. Assumiamo per semplicità che il numero di osservazioni per cluster sia fissato a n . Sotto, sta per la matrice di covarianza aggiustata per il clustering, sta per la matrice di covarianza non aggiustata per il clustering e ρ sta per la correlazione intraclasse:

Il rapporto sul lato sinistro fornisce un'indicazione di quanto lo scenario non aggiustato sovrastimi la precisione. Pertanto, un numero elevato indica una forte distorsione verso il basso della matrice di covarianza stimata. Un problema di cluster piccolo può essere interpretato come un grande n: quando i dati sono corretti e il numero di cluster è basso, il numero di dati all'interno di un cluster può essere elevato. Ne consegue che l'inferenza quando il numero di cluster è piccolo non avrà una copertura corretta.

Sono state proposte diverse soluzioni per il problema dei piccoli cluster. È possibile utilizzare una matrice di varianza robusta del cluster corretta per bias, apportare aggiustamenti alla distribuzione T o utilizzare metodi bootstrap con perfezionamenti asintotici, come il percentile-t o il bootstrap selvaggio, che possono portare a una migliore inferenza del campione finito. Cameron, Gelbach e Miller (2008) forniscono microsimulazioni per diversi metodi e trovano che il bootstrap selvaggio si comporta bene di fronte a un piccolo numero di cluster.

Guarda anche

Riferimenti