Campionamento (statistiche) - Sampling (statistics)

Una rappresentazione visiva del processo di campionamento

In statistica , garanzia di qualità e metodologia di indagine , il campionamento è la selezione di un sottoinsieme (un campione statistico ) di individui all'interno di una popolazione statistica per stimare le caratteristiche dell'intera popolazione. Gli statistici tentano di raccogliere campioni rappresentativi della popolazione in questione. Il campionamento ha costi inferiori e una raccolta dati più rapida rispetto alla misurazione dell'intera popolazione e può fornire approfondimenti nei casi in cui non è possibile campionare un'intera popolazione.

Ogni osservazione misura una o più proprietà (come peso, posizione, colore) di oggetti o individui indipendenti. Nel campionamento del sondaggio , i pesi possono essere applicati ai dati per adeguarsi al disegno del campione, in particolare nel campionamento stratificato . I risultati della teoria della probabilità e della teoria statistica sono impiegati per guidare la pratica. Nella ricerca medica e commerciale, il campionamento è ampiamente utilizzato per raccogliere informazioni su una popolazione. Il campionamento di accettazione viene utilizzato per determinare se un lotto di produzione di materiale soddisfa le specifiche in vigore .

Definizione di popolazione

La pratica statistica di successo si basa sulla definizione mirata del problema. Nel campionamento, ciò include la definizione della " popolazione " da cui è tratto il nostro campione. Una popolazione può essere definita come comprendente tutte le persone o gli elementi con la caratteristica che si desidera comprendere. Poiché molto raramente c'è abbastanza tempo o denaro per raccogliere informazioni da tutti o da tutto in una popolazione, l'obiettivo diventa trovare un campione rappresentativo (o sottoinsieme) di quella popolazione.

A volte ciò che definisce una popolazione è ovvio. Ad esempio, un produttore deve decidere se un lotto di materiale dalla produzione è di qualità sufficientemente elevata da essere rilasciato al cliente o se deve essere condannato per scarto o rilavorazione a causa della scarsa qualità. In questo caso, il batch è la popolazione.

Sebbene la popolazione di interesse sia spesso costituita da oggetti fisici, a volte è necessario campionare nel tempo, nello spazio o in una combinazione di queste dimensioni. Ad esempio, un'indagine sul personale dei supermercati potrebbe esaminare la lunghezza della fila alla cassa in vari momenti, oppure uno studio sui pinguini in via di estinzione potrebbe mirare a comprendere il loro utilizzo di vari terreni di caccia nel tempo. Per la dimensione temporale, il focus può essere su periodi o occasioni discrete.

In altri casi, la 'popolazione' esaminata può essere anche meno tangibile. Ad esempio, Joseph Jagger ha studiato il comportamento delle ruote della roulette in un casinò di Monte Carlo e lo ha utilizzato per identificare una ruota distorta. In questo caso, la "popolazione" che Jagger voleva indagare era il comportamento complessivo della ruota (cioè la distribuzione di probabilità dei suoi risultati su un numero infinito di prove), mentre il suo "campione" era formato dai risultati osservati da quella ruota. Considerazioni simili sorgono quando si effettuano misurazioni ripetute di alcune caratteristiche fisiche come la conduttività elettrica del rame .

Questa situazione si verifica spesso quando si cerca la conoscenza del sistema di cause di cui la popolazione osservata è un risultato. In tali casi, la teoria del campionamento può trattare la popolazione osservata come un campione di una "superpopolazione" più ampia. Ad esempio, un ricercatore potrebbe studiare il tasso di successo di un nuovo programma "smettere di fumare" su un gruppo di prova di 100 pazienti, al fine di prevedere gli effetti del programma se fosse reso disponibile a livello nazionale. Qui la superpopolazione è "tutti nel paese, accesso a questo trattamento" - un gruppo che non esiste ancora, poiché il programma non è ancora disponibile per tutti.

La popolazione da cui è tratto il campione potrebbe non essere la stessa della popolazione su cui si desiderano informazioni. Spesso c'è una sovrapposizione ampia ma non completa tra questi due gruppi a causa di problemi di frame, ecc. (vedi sotto). A volte possono essere completamente separati: ad esempio, si potrebbero studiare i ratti per comprendere meglio la salute umana, o si potrebbero studiare i record di persone nate nel 2008 per fare previsioni su persone nate nel 2009.

Il tempo speso per rendere precisa la popolazione campionata e la popolazione interessata è spesso ben speso, perché solleva molti problemi, ambiguità e domande che altrimenti sarebbero state trascurate in questa fase.

Cornice di campionamento

Nel caso più semplice, come il campionamento di un lotto di materiale dalla produzione (campionamento di accettazione per lotti), sarebbe più desiderabile identificare e misurare ogni singolo elemento della popolazione e includerne uno nel nostro campione. Tuttavia, nel caso più generale questo non è solitamente possibile o pratico. Non c'è modo di identificare tutti i ratti nell'insieme di tutti i ratti. Laddove il voto non è obbligatorio, non è possibile identificare quali persone voteranno alle prossime elezioni (prima delle elezioni). Queste popolazioni imprecise non sono suscettibili di campionamento in nessuno dei modi seguenti e ai quali potremmo applicare la teoria statistica.

Come rimedio, cerchiamo una cornice di campionamento che abbia la proprietà di poter identificare ogni singolo elemento e includerne uno nel nostro campione. Il tipo più semplice di frame è un elenco di elementi della popolazione (preferibilmente l'intera popolazione) con informazioni di contatto appropriate. Ad esempio, in un sondaggio di opinione , i possibili frame di campionamento includono un registro elettorale e un elenco telefonico .

Un campione probabilistico è un campione in cui ogni unità della popolazione ha una probabilità (maggiore di zero) di essere selezionata nel campione e questa probabilità può essere determinata con precisione. La combinazione di questi tratti consente di produrre stime imparziali dei totali della popolazione, pesando le unità campionate in base alla loro probabilità di selezione.

Esempio: vogliamo stimare il reddito totale degli adulti che vivono in una determinata strada. Visitiamo ogni famiglia in quella strada, identifichiamo tutti gli adulti che vivono lì e selezioniamo casualmente un adulto da ogni famiglia. (Ad esempio, possiamo assegnare a ogni persona un numero casuale, generato da una distribuzione uniforme tra 0 e 1, e selezionare la persona con il numero più alto in ogni famiglia). Intervistiamo quindi la persona selezionata e troviamo il suo reddito.

Le persone che vivono da sole sono certe di essere selezionate, quindi aggiungiamo semplicemente il loro reddito alla nostra stima del totale. Ma una persona che vive in una famiglia di due adulti ha solo una possibilità di selezione su due. Per riflettere questo, quando arriviamo a una tale famiglia, conteremo il reddito della persona selezionata due volte nel totale. (La persona che viene selezionata da quella famiglia può essere vista vagamente come rappresentante anche della persona che non è stata selezionata.)

Nell'esempio sopra, non tutti hanno la stessa probabilità di selezione; ciò che lo rende un campione probabilistico è il fatto che la probabilità di ogni persona è nota. Quando ogni elemento della popolazione non ha la stessa probabilità di selezione, questo è noto come un 'uguale probabilità di selezione' (EPS) di progettazione. Tali disegni vengono anche definiti "autoponderati" perché a tutte le unità campionate viene assegnato lo stesso peso.

Campionamento probabilistico comprende: un campionamento casuale semplice , sistematico Campionamento , stratificato Campionamento , probabilità proporzionale alla dimensione di campionamento, e cluster o più stadi di campionamento . Questi vari metodi di campionamento probabilistico hanno due cose in comune:

  1. Ogni elemento ha una probabilità nota diversa da zero di essere campionato e
  2. implica una selezione casuale ad un certo punto.

Campionamento non probabilistico

Il campionamento non probabilistico è qualsiasi metodo di campionamento in cui alcuni elementi della popolazione non hanno possibilità di selezione (a volte vengono definiti "fuori copertura"/"sotto copertura") o in cui la probabilità di selezione non può essere determinata con precisione. Implica la selezione di elementi sulla base di assunzioni riguardanti la popolazione di interesse, che costituisce il criterio di selezione. Quindi, poiché la selezione degli elementi non è casuale, il campionamento non probabilistico non consente la stima degli errori di campionamento. Queste condizioni danno luogo a bias di esclusione , ponendo limiti alla quantità di informazioni che un campione può fornire sulla popolazione. Le informazioni sulla relazione tra campione e popolazione sono limitate, rendendo difficile l'estrapolazione dal campione alla popolazione.

Esempio: visitiamo ogni casa in una determinata strada e intervistiamo la prima persona che apre la porta. In ogni famiglia con più di un occupante, questo è un campione non probabilistico, perché è più probabile che alcune persone rispondano alla porta (ad esempio un disoccupato che trascorre la maggior parte del tempo a casa è più probabile che risponda rispetto a un coinquilino occupato che potrebbe essere al lavoro quando l'intervistatore chiama) e non è pratico calcolare queste probabilità.

I metodi di campionamento non probabilistico includono il campionamento di convenienza , il campionamento per quote e il campionamento intenzionale . Inoltre, gli effetti di mancata risposta possono trasformare qualsiasi progetto probabilistico in un progetto non probabilistico se le caratteristiche della mancata risposta non sono ben comprese, poiché la mancata risposta modifica efficacemente la probabilità di ciascun elemento di essere campionato.

Metodi di campionamento

All'interno di uno qualsiasi dei tipi di frame identificati sopra, è possibile impiegare una varietà di metodi di campionamento, individualmente o in combinazione. I fattori che comunemente influenzano la scelta tra questi design includono:

  • Natura e qualità del telaio
  • Disponibilità di informazioni ausiliarie sulle unità sul telaio
  • Requisiti di accuratezza e necessità di misurare l'accuratezza
  • Se è prevista un'analisi dettagliata del campione
  • Costi/preoccupazioni operative

Campionamento casuale semplice

Una rappresentazione visiva della selezione di un semplice campione casuale

In un campione casuale semplice (SRS) di una data dimensione, tutti i sottoinsiemi di un frame di campionamento hanno la stessa probabilità di essere selezionati. Ogni elemento del frame ha quindi un'uguale probabilità di selezione: il frame non è suddiviso o partizionato. Inoltre, ogni data coppia di elementi ha la stessa possibilità di selezione di qualsiasi altra coppia di questo tipo (e allo stesso modo per le triple e così via). Ciò riduce al minimo i bias e semplifica l'analisi dei risultati. In particolare, la varianza tra i singoli risultati all'interno del campione è un buon indicatore della varianza nella popolazione complessiva, il che rende relativamente facile stimare l'accuratezza dei risultati.

Il campionamento casuale semplice può essere vulnerabile all'errore di campionamento perché la casualità della selezione può risultare in un campione che non riflette la composizione della popolazione. Ad esempio, un semplice campione casuale di dieci persone provenienti da un dato paese produrrà in media cinque uomini e cinque donne, ma è probabile che ogni dato studio rappresenti più di un sesso e sottorappresenti l'altro. Tecniche sistematiche e stratificate tentano di superare questo problema "utilizzando informazioni sulla popolazione" per scegliere un campione più "rappresentativo".

Inoltre, il semplice campionamento casuale può essere ingombrante e noioso quando si campiona da una vasta popolazione target. In alcuni casi, i ricercatori sono interessati a domande di ricerca specifiche per sottogruppi della popolazione. Ad esempio, i ricercatori potrebbero essere interessati a esaminare se l'abilità cognitiva come predittore delle prestazioni lavorative sia ugualmente applicabile tra i gruppi razziali. Il campionamento casuale semplice non può soddisfare le esigenze dei ricercatori in questa situazione, perché non fornisce sottocampioni della popolazione e possono essere invece utilizzate altre strategie di campionamento, come il campionamento stratificato.

Campionamento sistematico

Una rappresentazione visiva della selezione di un campione casuale utilizzando la tecnica del campionamento sistematico

Il campionamento sistematico (noto anche come campionamento a intervalli) si basa sull'organizzazione della popolazione in studio secondo uno schema di ordinamento e quindi sulla selezione di elementi a intervalli regolari attraverso tale elenco ordinato. Il campionamento sistematico prevede un inizio casuale per poi procedere con la selezione di ogni k- esimo elemento da quel momento in poi. In questo caso, k =(dimensione della popolazione/dimensione del campione). È importante che il punto di partenza non sia automaticamente il primo della lista, ma sia invece scelto casualmente dal primo al k- esimo elemento della lista. Un semplice esempio potrebbe essere quello di selezionare ogni decimo nome dall'elenco telefonico (un campione 'ogni 10', indicato anche come 'campionamento con un salto di 10').

Finché il punto di partenza è randomizzato , il campionamento sistematico è un tipo di campionamento probabilistico . È di facile implementazione e la stratificazione indotta può renderlo efficiente, se la variabile con cui è ordinato l'elenco è correlata con la variabile di interesse. Il campionamento 'Ogni 10' è particolarmente utile per un campionamento efficiente dai database .

Ad esempio, supponiamo di voler campionare le persone di una lunga strada che inizia in una zona povera (casa n. 1) e finisce in un quartiere costoso (casa n. 1000). Una semplice selezione casuale di indirizzi da questa strada potrebbe facilmente finire con troppi dalla fascia alta e troppo pochi dalla fascia bassa (o viceversa), portando a un campione non rappresentativo. Selezionando (ad es.) ogni decimo numero civico lungo la strada si garantisce che il campione sia distribuito uniformemente lungo la lunghezza della strada, rappresentando tutti questi distretti. (Nota che se iniziamo sempre dalla casa #1 e finiamo alla #991, il campione è leggermente distorto verso la fascia bassa; selezionando casualmente l'inizio tra #1 e #10, questa distorsione viene eliminata.

Tuttavia, il campionamento sistematico è particolarmente vulnerabile alle periodicità nell'elenco. Se la periodicità è presente e il periodo è un multiplo o un fattore dell'intervallo utilizzato, è particolarmente probabile che il campione non sia rappresentativo della popolazione complessiva, rendendo lo schema meno accurato del semplice campionamento casuale.

Ad esempio, considera una strada in cui le case di numero dispari sono tutte sul lato nord (costoso) e le case di numero pari sono tutte sul lato sud (economico). Con lo schema di campionamento sopra riportato, è impossibile ottenere un campione rappresentativo; o le case campionate saranno tutte dal lato dispari, costoso, o saranno tutte dal numero pari, economico, a meno che il ricercatore non abbia una conoscenza precedente di questo pregiudizio e lo eviti utilizzando un salto che garantisce il salto tra i due lati (qualsiasi salto dispari).

Un altro svantaggio del campionamento sistematico è che anche negli scenari in cui è più accurato di SRS, le sue proprietà teoriche rendono difficile quantificare tale accuratezza. (Nei due esempi di campionamento sistematico forniti sopra, gran parte del potenziale errore di campionamento è dovuto alla variazione tra case vicine, ma poiché questo metodo non seleziona mai due case vicine, il campione non ci fornirà alcuna informazione su tale variazione.)

Come descritto sopra, il campionamento sistematico è un metodo EPS, perché tutti gli elementi hanno la stessa probabilità di selezione (nell'esempio dato, uno su dieci). E ' non è 'un campionamento casuale semplice' perché diversi sottoinsiemi della stessa dimensione hanno differenti probabilità di selezione - per esempio l'insieme {4,14,24, ..., 994} ha un uno su dieci probabilità di selezione, ma il set {4,13,24,34,...} ha probabilità di selezione zero.

Il campionamento sistematico può anche essere adattato a un approccio non EPS; per un esempio, vedere la discussione sugli esempi di PPS di seguito.

Campionamento stratificato

Una rappresentazione visiva della selezione di un campione casuale utilizzando la tecnica del campionamento stratificato

Quando la popolazione abbraccia un numero di categorie distinte, la cornice può essere organizzata da queste categorie in "strati" separati. Ogni strato viene quindi campionato come una sottopopolazione indipendente, dalla quale è possibile selezionare casualmente singoli elementi. Il rapporto tra la dimensione di questa selezione casuale (o campione) e la dimensione della popolazione è chiamata frazione campionaria . Ci sono diversi potenziali vantaggi per il campionamento stratificato.

Innanzitutto, dividere la popolazione in strati distinti e indipendenti può consentire ai ricercatori di trarre deduzioni su sottogruppi specifici che potrebbero andare persi in un campione casuale più generalizzato.

In secondo luogo, l'utilizzo di un metodo di campionamento stratificato può portare a stime statistiche più efficienti (a condizione che gli strati siano selezionati in base alla rilevanza per il criterio in questione, anziché alla disponibilità dei campioni). Anche se un approccio di campionamento stratificato non porta a una maggiore efficienza statistica, tale tattica non risulterà in una minore efficienza rispetto al semplice campionamento casuale, a condizione che ogni strato sia proporzionale alla dimensione del gruppo nella popolazione.

Terzo, a volte capita che i dati siano più facilmente disponibili per i singoli strati preesistenti all'interno di una popolazione che per la popolazione complessiva; in tali casi, l'utilizzo di un approccio di campionamento stratificato può essere più conveniente rispetto all'aggregazione dei dati tra gruppi (sebbene ciò possa essere potenzialmente in contrasto con l'importanza precedentemente nota dell'utilizzo di strati rilevanti per il criterio).

Infine, poiché ogni strato viene trattato come una popolazione indipendente, diversi approcci di campionamento possono essere applicati a diversi strati, consentendo potenzialmente ai ricercatori di utilizzare l'approccio più adatto (o più conveniente) per ciascun sottogruppo identificato all'interno della popolazione.

Ci sono, tuttavia, alcuni potenziali inconvenienti nell'utilizzo del campionamento stratificato. Innanzitutto, identificare gli strati e implementare un tale approccio può aumentare il costo e la complessità della selezione del campione, oltre a portare a una maggiore complessità delle stime della popolazione. In secondo luogo, quando si esaminano più criteri, le variabili di stratificazione possono essere correlate ad alcuni, ma non ad altri, complicando ulteriormente il disegno e potenzialmente riducendo l'utilità degli strati. Infine, in alcuni casi (come i disegni con un numero elevato di strati o quelli con una dimensione minima specificata del campione per gruppo), il campionamento stratificato può potenzialmente richiedere un campione più ampio rispetto ad altri metodi (sebbene nella maggior parte dei casi, la dimensione del campione richiesta non sarebbe più grande di quanto sarebbe richiesto per un semplice campionamento casuale).

Un approccio di campionamento stratificato è più efficace quando sono soddisfatte tre condizioni
  1. La variabilità all'interno degli strati è ridotta al minimo
  2. La variabilità tra gli strati è massimizzata
  3. Le variabili su cui è stratificata la popolazione sono fortemente correlate con la variabile dipendente desiderata.
Vantaggi rispetto ad altri metodi di campionamento
  1. Si concentra su sottopopolazioni importanti e ignora quelle irrilevanti.
  2. Consente l'uso di diverse tecniche di campionamento per diverse sottopopolazioni.
  3. Migliora l'accuratezza/efficienza della stima.
  4. Consente un maggiore bilanciamento della potenza statistica dei test delle differenze tra strati campionando numeri uguali da strati di dimensioni ampiamente variabili.
Svantaggi
  1. Richiede la selezione di variabili di stratificazione rilevanti che possono essere difficili.
  2. Non è utile quando non ci sono sottogruppi omogenei.
  3. Può essere costoso da implementare.
Poststratificazione

La stratificazione viene talvolta introdotta dopo la fase di campionamento in un processo chiamato "poststratificazione". Questo approccio è tipicamente implementato a causa di una mancanza di conoscenza preliminare di una variabile stratificante appropriata o quando lo sperimentatore non ha le informazioni necessarie per creare una variabile stratificante durante la fase di campionamento. Sebbene il metodo sia suscettibile alle insidie ​​degli approcci post hoc, può fornire numerosi vantaggi nella giusta situazione. L'implementazione di solito segue un semplice campione casuale. Oltre a consentire la stratificazione su una variabile ausiliaria, la poststratificazione può essere utilizzata per implementare la ponderazione, che può migliorare la precisione delle stime di un campione.

sovracampionamento

Il campionamento basato sulla scelta è una delle strategie di campionamento stratificato. Nel campionamento per scelta, i dati vengono stratificati sul target e da ogni strato viene prelevato un campione in modo che la classe target rara sia maggiormente rappresentata nel campione. Il modello è quindi costruito su questo campione distorto . Gli effetti delle variabili di input sul target sono spesso stimati con maggiore precisione con il campione basato sulla scelta anche quando viene presa una dimensione complessiva del campione più piccola, rispetto a un campione casuale. I risultati di solito devono essere regolati per correggere il sovracampionamento.

Campionamento proporzionale alla probabilità

In alcuni casi il progettista del campione ha accesso ad una "variabile ausiliaria" o "misura dimensionale", ritenuta correlata alla variabile di interesse, per ogni elemento della popolazione. Questi dati possono essere utilizzati per migliorare la precisione nella progettazione del campione. Un'opzione è utilizzare la variabile ausiliaria come base per la stratificazione, come discusso sopra.

Un'altra opzione è il campionamento della probabilità proporzionale alla dimensione ("PPS"), in cui la probabilità di selezione per ciascun elemento è impostata per essere proporzionale alla sua misura della dimensione, fino a un massimo di 1. In un semplice progetto PPS, queste probabilità di selezione possono quindi essere utilizzato come base per il campionamento di Poisson . Tuttavia, questo ha lo svantaggio della dimensione variabile del campione e diverse porzioni della popolazione possono ancora essere sovra o sottorappresentate a causa della variazione casuale nelle selezioni.

La teoria del campionamento sistematico può essere utilizzata per creare una probabilità proporzionale alla dimensione del campione. Questo viene fatto trattando ogni conteggio all'interno della variabile size come una singola unità di campionamento. I campioni vengono quindi identificati selezionando a intervalli regolari tra questi conteggi all'interno della variabile di dimensione. Questo metodo è talvolta chiamato campionamento sequenziale PPS o per unità monetaria nel caso di audit o campionamento forense.

Esempio: supponiamo di avere sei scuole con una popolazione di 150, 180, 200, 220, 260 e 490 studenti rispettivamente (totale 1500 studenti) e di voler utilizzare la popolazione studentesca come base per un campione PPS di dimensione tre. Per fare questo, potremmo assegnare alla prima scuola i numeri da 1 a 150, la seconda scuola da 151 a 330 (= 150 + 180), la terza scuola da 331 a 530, e così via fino all'ultima scuola (da 1011 a 1500). Quindi generiamo un inizio casuale tra 1 e 500 (uguale a 1500/3) e contiamo attraverso le popolazioni scolastiche per multipli di 500. Se il nostro inizio casuale fosse 137, selezioneremmo le scuole a cui sono stati assegnati i numeri 137, 637 e 1137, cioè la prima, la quarta e la sesta scuola.

L'approccio PPS può migliorare l'accuratezza per una data dimensione del campione concentrando il campione su elementi di grandi dimensioni che hanno il maggiore impatto sulle stime della popolazione. Il campionamento PPS è comunemente usato per sondaggi di aziende, in cui la dimensione degli elementi varia notevolmente e sono spesso disponibili informazioni ausiliarie: ad esempio, un sondaggio che tenti di misurare il numero di pernottamenti trascorsi negli hotel potrebbe utilizzare il numero di camere di ciascun hotel come variabile ausiliaria . In alcuni casi, una misurazione precedente della variabile di interesse può essere utilizzata come variabile ausiliaria quando si tenta di produrre stime più attuali.

Campionamento a grappolo

Una rappresentazione visiva della selezione di un campione casuale utilizzando la tecnica del campionamento a grappolo

A volte è più conveniente selezionare gli intervistati in gruppi ("cluster"). Il campionamento è spesso raggruppato per area geografica o per periodi di tempo. (Quasi tutti i campioni sono in un certo senso "raggruppati" nel tempo, sebbene ciò sia raramente preso in considerazione nell'analisi.) Ad esempio, se si rilevano le famiglie all'interno di una città, potremmo scegliere di selezionare 100 isolati e quindi intervistare ogni famiglia all'interno i blocchi selezionati.

Il clustering può ridurre i costi di viaggio e amministrativi. Nell'esempio sopra, un intervistatore può fare un unico viaggio per visitare più famiglie in un blocco, invece di dover guidare verso un blocco diverso per ogni famiglia.

Significa anche che non è necessario un frame di campionamento che elenchi tutti gli elementi nella popolazione target. Invece, i cluster possono essere scelti da un frame a livello di cluster, con un frame a livello di elemento creato solo per i cluster selezionati. Nell'esempio sopra, il campione richiede solo una mappa della città a livello di blocco per le selezioni iniziali, quindi una mappa a livello di abitazione dei 100 isolati selezionati, piuttosto che una mappa a livello di abitazione dell'intera città.

Il campionamento a grappolo (noto anche come campionamento a grappolo) generalmente aumenta la variabilità delle stime del campione al di sopra di quella del campionamento casuale semplice, a seconda di come i grappoli differiscono tra loro rispetto alla variazione all'interno del grappolo. Per questo motivo, il campionamento dei cluster richiede un campione più grande di SRS per ottenere lo stesso livello di accuratezza, ma i risparmi sui costi derivanti dal clustering potrebbero comunque rendere questa opzione più economica.

Il campionamento a grappolo è comunemente implementato come campionamento a più stadi . Questa è una forma complessa di campionamento a grappolo in cui due o più livelli di unità sono incorporati l'uno nell'altro. La prima fase consiste nella costruzione dei cluster che verranno utilizzati per il campionamento. Nella seconda fase, un campione di unità primarie viene selezionato casualmente da ciascun cluster (piuttosto che utilizzare tutte le unità contenute in tutti i cluster selezionati). Nelle fasi successive, in ciascuno di questi cluster selezionati, vengono selezionati ulteriori campioni di unità e così via. Vengono quindi rilevate tutte le unità finali (individui, ad esempio) selezionate nell'ultima fase di questa procedura. Questa tecnica, quindi, è essenzialmente il processo di prelievo di sottocampioni casuali di campioni casuali precedenti.

Il campionamento a più stadi può ridurre sostanzialmente i costi di campionamento, laddove sarebbe necessario costruire l'elenco completo della popolazione (prima di poter applicare altri metodi di campionamento). Eliminando il lavoro necessario per descrivere i cluster non selezionati, il campionamento a più stadi può ridurre i grandi costi associati al campionamento a cluster tradizionale. Tuttavia, ogni campione potrebbe non essere un rappresentante completo dell'intera popolazione.

Campionamento delle quote

Nel campionamento per quote , la popolazione viene prima segmentata in sottogruppi che si escludono a vicenda , proprio come nel campionamento stratificato . Quindi viene utilizzato il giudizio per selezionare i soggetti o le unità da ciascun segmento in base a una proporzione specificata. Ad esempio, a un intervistatore può essere detto di campionare 200 femmine e 300 maschi di età compresa tra 45 e 60 anni.

È questo secondo passaggio che rende la tecnica del campionamento non probabilistico. Nel campionamento per quote la selezione del campione è non casuale . Ad esempio, gli intervistatori potrebbero essere tentati di intervistare coloro che sembrano più utili. Il problema è che questi campioni possono essere distorti perché non tutti hanno la possibilità di essere selezionati. Questo elemento casuale è la sua più grande debolezza e la quota contro la probabilità è stata oggetto di controversia per diversi anni.

Campionamento minimo massimo

In set di dati sbilanciati, in cui il rapporto di campionamento non segue le statistiche della popolazione, è possibile ricampionare il set di dati in modo conservativo chiamato campionamento minimax . Il campionamento minimax ha la sua origine nel rapporto minimax di Anderson il cui valore è dimostrato essere 0,5: in una classificazione binaria, le dimensioni classe-campione dovrebbero essere scelte allo stesso modo. Questo rapporto può essere dimostrato come rapporto minimax solo assumendo il classificatore LDA con distribuzioni gaussiane. La nozione di campionamento minimax è stata recentemente sviluppata per una classe generale di regole di classificazione, chiamate classificatori intelligenti class-wise. In questo caso, il rapporto di campionamento delle classi viene selezionato in modo tale che l'errore di classificazione del caso peggiore su tutte le possibili statistiche della popolazione per le probabilità a priori di classe sia il migliore.

Campionamento accidentale

Campionamento accidentale (noto anche come afferrare , convenienza o campionamento opportunità ) è un tipo di campionamento nonprobability che comporta l'essere campione prelevato da quella parte della popolazione che è a portata di mano. Cioè, una popolazione viene selezionata perché è prontamente disponibile e conveniente. Può avvenire attraverso l'incontro con la persona o l'inclusione di una persona nel campione quando la si incontra o scelta trovandola attraverso mezzi tecnologici come internet o tramite telefono. Il ricercatore che utilizza un tale campione non può fare generalizzazioni scientifiche sulla popolazione totale di questo campione perché non sarebbe sufficientemente rappresentativo. Ad esempio, se l'intervistatore dovesse condurre un tale sondaggio in un centro commerciale la mattina presto di un dato giorno, le persone che potrebbe intervistare sarebbero limitate a quelle date lì in quel dato momento, il che non rappresenterebbe il opinioni di altri membri della società in tale area, se l'indagine dovesse essere condotta in diversi momenti della giornata e più volte alla settimana. Questo tipo di campionamento è molto utile per i test pilota. Diverse considerazioni importanti per i ricercatori che utilizzano campioni di convenienza includono:

  1. Esistono controlli all'interno del progetto di ricerca o dell'esperimento che possono servire a ridurre l'impatto di un campione di convenienza non casuale, garantendo così che i risultati siano più rappresentativi della popolazione?
  2. C'è una buona ragione per credere che un particolare campione di convenienza dovrebbe o dovrebbe rispondere o comportarsi in modo diverso da un campione casuale della stessa popolazione?
  3. La domanda posta dalla ricerca è quella a cui è possibile rispondere adeguatamente utilizzando un campione di convenienza?

Nella ricerca sulle scienze sociali, il campionamento a valanga è una tecnica simile, in cui i soggetti di studio esistenti vengono utilizzati per reclutare più soggetti nel campione. Alcune varianti del campionamento a valanga, come il campionamento guidato dal rispondente, consentono il calcolo delle probabilità di selezione e sono metodi di campionamento probabilistico in determinate condizioni.

Campionamento volontario

Il metodo di campionamento volontario è un tipo di campionamento non probabilistico. I volontari scelgono di completare un sondaggio.

I volontari possono essere invitati tramite annunci sui social media. La popolazione target per gli annunci pubblicitari può essere selezionata in base a caratteristiche come posizione, età, sesso, reddito, occupazione, istruzione o interessi utilizzando gli strumenti forniti dal social media. L'annuncio può includere un messaggio sulla ricerca e un collegamento a un sondaggio. Dopo aver seguito il link e completato il sondaggio il volontario invia i dati da inserire nella popolazione campione. Questo metodo può raggiungere una popolazione globale ma è limitato dal budget della campagna. Possono essere inclusi nel campione anche volontari al di fuori della popolazione invitata.

È difficile fare generalizzazioni da questo campione perché potrebbe non rappresentare la popolazione totale. Spesso i volontari hanno un forte interesse per l'argomento principale del sondaggio.

Campionamento a intercettazione di linea

Il campionamento dell'intercetta di linea è un metodo di campionamento degli elementi in una regione in base al quale un elemento viene campionato se un segmento di linea scelto, chiamato "transetto", interseca l'elemento.

Campionamento pannello

Il campionamento del pannello è il metodo per selezionare prima un gruppo di partecipanti attraverso un metodo di campionamento casuale e poi chiedere a quel gruppo informazioni (potenzialmente le stesse) più volte in un periodo di tempo. Pertanto, ogni partecipante viene intervistato in due o più momenti; ogni periodo di raccolta dei dati è chiamato "onda". Il metodo è stato sviluppato dal sociologo Paul Lazarsfeld nel 1938 come mezzo per studiare le campagne politiche . Questo metodo di campionamento longitudinale consente di stimare i cambiamenti nella popolazione, ad esempio per quanto riguarda le malattie croniche, lo stress da lavoro e le spese alimentari settimanali. Il campionamento del pannello può anche essere utilizzato per informare i ricercatori sui cambiamenti della salute all'interno della persona dovuti all'età o per aiutare a spiegare i cambiamenti nelle variabili dipendenti continue come l'interazione coniugale. Sono stati proposti diversi metodi per analizzare i dati panel , tra cui MANOVA , curve di crescita e modelli di equazioni strutturali con effetti ritardati.

Campionamento a palle di neve

Il campionamento a valanga implica la ricerca di un piccolo gruppo di intervistati iniziali e il loro utilizzo per reclutare più intervistati. È particolarmente utile nei casi in cui la popolazione è nascosta o difficile da enumerare.

Campionamento teorico

Il campionamento teorico si verifica quando i campioni vengono selezionati sulla base dei risultati dei dati raccolti finora con l'obiettivo di sviluppare una comprensione più profonda dell'area o sviluppare teorie. Casi estremi o molto specifici potrebbero essere selezionati per massimizzare la probabilità che un fenomeno sia effettivamente osservabile.

Sostituzione di unità selezionate

Gli schemi di campionamento possono essere senza sostituzione ("WOR" - nessun elemento può essere selezionato più di una volta nello stesso campione) o con sostituzione ("WR" - un elemento può apparire più volte in un campione). Ad esempio, se prendiamo i pesci, li misuriamo e li riportiamo immediatamente in acqua prima di continuare con il campione, questo è un disegno WR, perché potremmo finire per catturare e misurare lo stesso pesce più di una volta. Tuttavia, se non restituiamo il pesce nell'acqua o tagghiamo e rilasciamo ogni pesce dopo averlo catturato, questo diventa un progetto WOR.

Determinazione della dimensione del campione

Formule, tabelle e grafici della funzione di potenza sono approcci ben noti per determinare la dimensione del campione.

Passaggi per l'utilizzo delle tabelle delle dimensioni del campione

  1. Postulare la dimensione dell'effetto di interesse, α e .
  2. Controlla la tabella delle dimensioni del campione
    1. Seleziona la tabella corrispondente all'α . selezionato
    2. Individua la riga corrispondente alla potenza desiderata
    3. Individua la colonna corrispondente alla dimensione dell'effetto stimato.
    4. L'intersezione della colonna e della riga è la dimensione minima del campione richiesta.

Campionamento e raccolta dati

Una buona raccolta di dati comporta:

  • Seguendo il processo di campionamento definito
  • Mantenere i dati in ordine temporale
  • Annotare commenti e altri eventi contestuali
  • Registrazione delle mancate risposte

Applicazioni del campionamento

Il campionamento consente la selezione dei punti dati corretti all'interno del set di dati più ampio per stimare le caratteristiche dell'intera popolazione. Ad esempio, ogni giorno vengono prodotti circa 600 milioni di tweet. Non è necessario guardarli tutti per determinare gli argomenti che vengono discussi durante il giorno, né è necessario guardare tutti i tweet per determinare il sentimento su ciascuno degli argomenti. È stata sviluppata una formulazione teorica per campionare i dati di Twitter.

Nella produzione sono disponibili a brevi intervalli di tempo diversi tipi di dati sensoriali come l'acustica, le vibrazioni, la pressione, la corrente, la tensione e i dati del controller. Per prevedere i tempi di inattività potrebbe non essere necessario esaminare tutti i dati, ma potrebbe essere sufficiente un campione.

Errori nelle indagini a campione

I risultati del sondaggio sono in genere soggetti a qualche errore. Gli errori totali possono essere classificati in errori di campionamento ed errori non di campionamento. Il termine "errore" qui include sia errori sistematici che errori casuali.

Errori di campionamento e distorsioni

Errori di campionamento e distorsioni sono indotti dal disegno del campione. Loro includono:

  1. Bias di selezione : quando le vere probabilità di selezione differiscono da quelle assunte nel calcolo dei risultati.
  2. Errore di campionamento casuale : variazione casuale dei risultati dovuta alla selezione casuale degli elementi nel campione.

Errore di non campionamento

Gli errori non di campionamento sono altri errori che possono influire sulle stime finali del sondaggio, causati da problemi nella raccolta dei dati, nell'elaborazione o nella progettazione del campione. Tali errori possono includere:

  1. Sovracopertura : inclusione di dati esterni alla popolazione
  2. Sottocopertura : il quadro di campionamento non include elementi nella popolazione.
  3. Errore di misurazione : ad es. quando gli intervistati fraintendono una domanda o trovano difficile rispondere
  4. Errore di elaborazione : errori nella codifica dei dati
  5. Mancata risposta o bias di partecipazione : mancato ottenimento di dati completi da tutti gli individui selezionati

Dopo il campionamento, dovrebbe essere effettuata una revisione dell'esatto processo seguito nel campionamento, piuttosto che quello previsto, al fine di studiare eventuali effetti che eventuali divergenze potrebbero avere sull'analisi successiva.

Un problema particolare riguarda la mancata risposta . Esistono due tipi principali di mancata risposta:

  • mancata risposta dell'unità (mancato completamento di qualsiasi parte del sondaggio)
  • item mancata risposta (invio o partecipazione al sondaggio ma mancato completamento di uno o più componenti/domande del sondaggio)

Nel campionamento del sondaggio , molti degli individui identificati come parte del campione potrebbero non essere disposti a partecipare, non avere il tempo per partecipare (costo opportunità) o gli amministratori del sondaggio potrebbero non essere stati in grado di contattarli. In questo caso, esiste il rischio di differenze tra rispondenti e non rispondenti, che portano a stime distorte dei parametri della popolazione. Questo è spesso affrontato migliorando il design del sondaggio, offrendo incentivi e conducendo studi di follow-up che fanno un tentativo ripetuto di contattare chi non risponde e di caratterizzare le loro somiglianze e differenze con il resto del frame. Gli effetti possono anche essere mitigati ponderando i dati (quando sono disponibili i benchmark della popolazione) o imputando i dati sulla base delle risposte ad altre domande. La mancata risposta è particolarmente un problema nel campionamento Internet. Le ragioni di questo problema possono includere sondaggi progettati in modo improprio, sondaggi eccessivi (o affaticamento del sondaggio) e il fatto che i potenziali partecipanti potrebbero avere più indirizzi e-mail, che non usano più o non controllano regolarmente.

Pesi del sondaggio

In molte situazioni la frazione campionaria può essere variata per strato e i dati dovranno essere pesati per rappresentare correttamente la popolazione. Così, ad esempio, un semplice campione casuale di individui nel Regno Unito potrebbe non includerne alcuni nelle remote isole scozzesi che sarebbero eccessivamente costosi da campionare. Un metodo più economico sarebbe quello di utilizzare un campione stratificato con strati urbani e rurali. Il campione rurale potrebbe essere sottorappresentato nel campione, ma adeguatamente ponderato nell'analisi per compensare.

Più in generale, i dati dovrebbero essere generalmente ponderati se il disegno del campione non offre a ciascun individuo la stessa possibilità di essere selezionato. Ad esempio, quando le famiglie hanno uguali probabilità di selezione ma viene intervistata una persona all'interno di ciascuna famiglia, le persone provenienti da famiglie numerose hanno minori possibilità di essere intervistate. Questo può essere spiegato utilizzando i pesi del sondaggio. Allo stesso modo, le famiglie con più di una linea telefonica hanno maggiori possibilità di essere selezionate in un campione di composizione di cifre casuali e i pesi possono adattarsi a questo.

I pesi possono anche servire ad altri scopi, come aiutare a correggere la mancata risposta.

Metodi di produzione di campioni casuali

Storia

Il campionamento casuale utilizzando i lotti è una vecchia idea, menzionata più volte nella Bibbia. Nel 1786 Pierre Simon Laplace stimò la popolazione della Francia utilizzando un campione, insieme allo stimatore del rapporto . Ha anche calcolato stime probabilistiche dell'errore. Questi non erano espressi come moderni intervalli di confidenza ma come la dimensione del campione che sarebbe stata necessaria per raggiungere un particolare limite superiore sull'errore di campionamento con probabilità 1000/1001. Le sue stime usavano il teorema di Bayes con una probabilità a priori uniforme e presumevano che il suo campione fosse casuale. Alexander Ivanovich Chuprov ha introdotto le indagini campionarie nella Russia imperiale nel 1870.

Negli Stati Uniti la previsione del Literary Digest del 1936 di una vittoria repubblicana alle elezioni presidenziali andò male, a causa di gravi pregiudizi [1] . Più di due milioni di persone hanno risposto allo studio con i loro nomi ottenuti tramite elenchi di abbonamenti a riviste ed elenchi telefonici. Non è stato apprezzato il fatto che queste liste fossero fortemente sbilanciate verso i repubblicani e il campione risultante, sebbene molto ampio, era profondamente imperfetto.

Guarda anche

Appunti

Il libro di testo di Groves et alia fornisce una panoramica della metodologia di indagine, compresa la letteratura recente sullo sviluppo del questionario (informato dalla psicologia cognitiva ):

  • Robert Groves , e altri. Metodologia dell'indagine (2010 2a ed. [2004]) ISBN  0-471-48348-6 .

Gli altri libri si concentrano sulla teoria statistica del campionamento dei sondaggi e richiedono una certa conoscenza delle statistiche di base, come discusso nei seguenti libri di testo:

Il libro elementare di Scheaffer et alia usa equazioni quadratiche dell'algebra delle scuole superiori:

  • Scheaffer, Richard L., William Mendenhal e R. Lyman Ott. Campionamento di indagine elementare , quinta edizione. Belmont: Duxbury Press, 1996.

Sono necessarie più statistiche matematiche per Lohr, per Särndal et alia e per Cochran (classico):

I libri di importanza storica di Deming e Kish rimangono preziosa per approfondimenti per gli scienziati sociali (in particolare circa il censimento degli Stati Uniti e l' Istituto per la Ricerca Sociale presso l' Università del Michigan ):

Riferimenti

Ulteriori letture

Standard

ISO

  • Serie ISO 2859
  • Serie ISO 3951

ASTM

  • ASTM E105 Pratica standard per il campionamento di probabilità dei materiali
  • ASTM E122 Pratica standard per il calcolo della dimensione del campione per stimare, con un errore tollerabile specificato, la media per la caratteristica di un lotto o processo
  • ASTM E141 Pratica standard per l'accettazione dell'evidenza basata sui risultati del campionamento di probabilità
  • Terminologia standard ASTM E1402 relativa al campionamento
  • ASTM E1994 Pratica standard per l'uso di piani di campionamento AOQL e LTPD orientati al processo
  • ASTM E2234 Pratica standard per il campionamento di un flusso di prodotto per attributi indicizzati da AQL

ANSI, ASQ

  • ANSI/ASQ Z1.4

Standard federali e militari statunitensi

link esterno