Significato statistico - Statistical significance
Nella verifica dell'ipotesi statistica , un risultato ha un significato statistico quando è molto improbabile che si sia verificato data l' ipotesi nulla . Più precisamente, il livello di significatività definito di uno studio , indicato con , è la probabilità che lo studio rifiuti l'ipotesi nulla, dato che l'ipotesi nulla è stata assunta come vera; e il p -value di un risultato, , è la probabilità di ottenere un risultato almeno altrettanto estremo, dato che l'ipotesi nulla è vera. Il risultato è statisticamente significativo, per gli standard dello studio, quando . Il livello di significatività per uno studio viene scelto prima della raccolta dei dati ed è generalmente impostato al 5% o molto più basso, a seconda del campo di studio.
In qualsiasi esperimento o osservazione che comporti il prelievo di un campione da una popolazione , esiste sempre la possibilità che un effetto osservato si sia verificato a causa del solo errore di campionamento . Ma se il p -value di un effetto osservato è inferiore (o uguale al) livello di significatività, un ricercatore può concludere che l'effetto riflette le caratteristiche dell'intera popolazione, rigettando così l'ipotesi nulla.
Questa tecnica per testare la significatività statistica dei risultati è stata sviluppata all'inizio del XX secolo. Il termine significato non implica importanza qui, e il termine significatività statistica non è lo stesso di ricerca, significato teorico o pratico. Ad esempio, il termine significato clinico si riferisce all'importanza pratica di un effetto del trattamento.
Storia
La significatività statistica risale al 1700, nel lavoro di John Arbuthnot e Pierre-Simon Laplace , che calcolarono il p- value per il rapporto tra i sessi umani alla nascita, assumendo un'ipotesi nulla di uguale probabilità di nascite maschili e femminili; vedere p -value § Storia per i dettagli.
Nel 1925, Ronald Fisher avanzò l'idea del test di ipotesi statistica, che chiamò "test di significatività", nella sua pubblicazione Statistical Methods for Research Workers . Fisher ha suggerito una probabilità di uno su venti (0,05) come conveniente livello di cutoff per rifiutare l'ipotesi nulla. In un articolo del 1933, Jerzy Neyman ed Egon Pearson chiamarono questo limite il livello di significatività , che chiamarono . Hanno raccomandato di essere impostati in anticipo, prima di qualsiasi raccolta di dati.
Nonostante il suo suggerimento iniziale di 0,05 come livello di significatività, Fisher non intendeva fissare questo valore limite. Nella sua pubblicazione del 1956 Statistical Methods and Scientific Inference, raccomandò che i livelli di significatività fossero fissati in base a circostanze specifiche.
Concetti correlati
Il livello di significatività è la soglia al di sotto della quale l'ipotesi nulla viene respinta anche se per ipotesi fosse vera, e qualcos'altro sta succedendo. Ciò significa che è anche la probabilità di rifiutare erroneamente l'ipotesi nulla, se l'ipotesi nulla è vera. Questo è anche chiamato falso positivo ed errore di tipo I .
A volte i ricercatori parlano invece del livello di confidenza γ = (1 − α ) . Questa è la probabilità di non rifiutare l'ipotesi nulla dato che è vera. I livelli di confidenza e gli intervalli di confidenza furono introdotti da Neyman nel 1937.
Ruolo nella verifica delle ipotesi statistiche
La significatività statistica gioca un ruolo fondamentale nella verifica delle ipotesi statistiche. Viene utilizzato per determinare se l' ipotesi nulla deve essere rifiutata o mantenuta. L'ipotesi nulla è il presupposto predefinito che nulla sia accaduto o sia cambiato. Affinché l'ipotesi nulla venga rifiutata, un risultato osservato deve essere statisticamente significativo, ovvero il p- value osservato è inferiore al livello di significatività prestabilito .
Per determinare se un risultato è statisticamente significativo, un ricercatore calcola un p -value, che è la probabilità di osservare un effetto della stessa grandezza o più estremo dato che l'ipotesi nulla è vera. L'ipotesi nulla viene rifiutata se il p -value è minore di (o uguale a) un livello predeterminato, . è anche chiamato livello di significatività , ed è la probabilità di rifiutare l'ipotesi nulla dato che è vera (un errore di tipo I ). Di solito è impostato al 5% o al di sotto.
Ad esempio, quando è impostato su 5%, la probabilità condizionata di un errore di tipo I , dato che l'ipotesi nulla è vera , è 5% e un risultato statisticamente significativo è quello in cui il p- value osservato è inferiore a (o uguale a) 5%. Quando si prelevano dati da un campione, ciò significa che la regione di rifiuto comprende il 5% della distribuzione di campionamento . Questi 5% possono essere assegnati a un lato della distribuzione di campionamento, come in un test a una coda , o suddivisi su entrambi i lati della distribuzione, come in un test a due code , con ciascuna coda (o regione di rifiuto) contenente il 2,5% della distribuzione.
L'uso di un test a una coda dipende dal fatto che la domanda di ricerca o l' ipotesi alternativa specifichi una direzione, ad esempio se un gruppo di oggetti è più pesante o se le prestazioni degli studenti in una valutazione sono migliori . Un test a due code può ancora essere usato ma sarà meno potente di un test a una coda, perché la regione di rifiuto per un test a una coda è concentrata su un'estremità della distribuzione nulla ed è due volte la dimensione (5% vs. 2.5%) di ciascuna regione di rifiuto per un test a due code. Di conseguenza, l'ipotesi nulla può essere rifiutata con un risultato meno estremo se è stato utilizzato un test a una coda. Il test a una coda è più potente di un test a due code solo se la direzione specificata dell'ipotesi alternativa è corretta. Se è sbagliato, tuttavia, il test a una coda non ha alcun potere.
Soglie di significatività in campi specifici
In campi specifici come la fisica delle particelle e la produzione , la significatività statistica è spesso espressa in multipli della deviazione standard o sigma ( σ ) di una distribuzione normale , con soglie di significatività fissate a un livello molto più rigoroso (es. 5 σ ). Ad esempio, la certezza del bosone Higgs esistenza della particella era basata sul 5 σ criterio, che corrisponde ad una p -valore di circa 1 a 3,5 milioni.
In altri campi della ricerca scientifica come gli studi di associazione a livello di genoma , livelli di significatività bassi come5 × 10 -8 non sono rari, poiché il numero di test eseguiti è estremamente elevato.
Limitazioni
I ricercatori che si concentrano esclusivamente sul fatto che i loro risultati siano statisticamente significativi potrebbero riportare risultati che non sono sostanziali e non replicabili. C'è anche una differenza tra significatività statistica e significatività pratica. Uno studio che risulta statisticamente significativo potrebbe non essere necessariamente significativo.
Dimensione dell'effetto
La dimensione dell'effetto è una misura del significato pratico di uno studio. Un risultato statisticamente significativo può avere un effetto debole. Per valutare l'importanza della ricerca del loro risultato, i ricercatori sono incoraggiati a riportare sempre una dimensione dell'effetto insieme ai valori p . Una misura della dimensione dell'effetto quantifica la forza di un effetto, come la distanza tra due medie in unità di deviazione standard (cfr. d di Cohen ), il coefficiente di correlazione tra due variabili o il suo quadrato e altre misure.
Riproducibilità
Un risultato statisticamente significativo potrebbe non essere facile da riprodurre. In particolare, alcuni risultati statisticamente significativi saranno infatti falsi positivi. Ogni tentativo fallito di riprodurre un risultato aumenta la probabilità che il risultato sia un falso positivo.
Sfide
Uso eccessivo in alcune riviste
A partire dagli anni 2010, alcune riviste hanno iniziato a chiedersi se i test di significatività, e in particolare l'utilizzo di una soglia di α = 5%, fossero troppo utilizzati come misura primaria di validità di un'ipotesi. Alcune riviste hanno incoraggiato gli autori a fare analisi più dettagliate rispetto a un semplice test di significatività statistica. In psicologia sociale, la rivista Basic and Applied Social Psychology ha vietato del tutto l'uso di test di significatività dagli articoli pubblicati, richiedendo agli autori di utilizzare altre misure per valutare ipotesi e impatto.
Altri editori, commentando questo divieto, hanno notato: "Vietare la segnalazione dei valori p , come ha fatto recentemente la psicologia sociale di base e applicata, non risolverà il problema perché si tratta semplicemente di trattare un sintomo del problema. Non c'è niente di sbagliato con test di ipotesi e p -value di per sé, purché autori, revisori e redattori di azioni li utilizzino correttamente." Alcuni statistici preferiscono utilizzare misure di evidenza alternative, come rapporti di verosimiglianza o fattori di Bayes . L'utilizzo delle statistiche bayesiane può evitare livelli di confidenza, ma richiede anche la creazione di ulteriori ipotesi e potrebbe non necessariamente migliorare la pratica relativa ai test statistici.
Il diffuso abuso di significatività statistica rappresenta un importante argomento di ricerca in metascienza .
Ridefinire il significato
Nel 2016, l' American Statistical Association (ASA) ha pubblicato una dichiarazione sui valori p , affermando che "l'uso diffuso di 'significatività statistica' (generalmente interpretato come ' p ≤ 0,05') come licenza per rivendicare una scoperta scientifica (o verità implicita) porta a una notevole distorsione del processo scientifico". Nel 2017, un gruppo di 72 autori ha proposto di migliorare la riproducibilità modificando la soglia del valore p per la significatività statistica da 0,05 a 0,005. Altri ricercatori hanno risposto che imporre una soglia di significatività più rigorosa aggraverebbe problemi come il dragaggio dei dati ; proposte alternative sono quindi quella di selezionare e giustificare soglie di p- value flessibili prima di raccogliere dati, o di interpretare i p- value come indici continui, scartando così soglie e significatività statistica. Inoltre, la modifica a 0,005 aumenterebbe la probabilità di falsi negativi, per cui l'effetto studiato è reale, ma il test non lo mostra.
Nel 2019, oltre 800 statistici e scienziati hanno firmato un messaggio chiedendo l'abbandono del termine "significato statistico" nella scienza e l'American Statistical Association ha pubblicato un'ulteriore dichiarazione ufficiale che dichiara (pagina 2):
Concludiamo, sulla base della nostra revisione degli articoli in questo numero speciale e della letteratura più ampia, che è ora di smettere di usare del tutto il termine "statisticamente significativo". Né dovrebbero sopravvivere varianti come "significativamente diverso" , " ," e "non significativo", espresse in parole, da asterischi in una tabella o in qualche altro modo.
Guarda anche
- Test A/B , test ABX
- Statistiche di stima
- Metodo di Fisher per combinare test indipendenti di significatività
- Effetto sguardo altrove
- Problema di confronti multipli
- Misura di prova
- Fallacia del tiratore scelto del Texas (fornisce esempi di test in cui il livello di significatività è stato impostato troppo alto)
Riferimenti
Ulteriori letture
- Lydia Denworth, "Un problema significativo: i metodi scientifici standard sono sotto tiro. Cambierà qualcosa?", Scientific American , vol. 321, n. 4 (ottobre 2019), pp. 62-67. "L'uso dei valori p per quasi un secolo [dal 1925] per determinare la significatività statistica dei risultati sperimentali ha contribuito a creare un'illusione di certezza e [a] crisi di riproducibilità in molti campi scientifici . C'è una crescente determinazione a riformare l'analisi statistica... Alcuni [ricercatori] suggeriscono di cambiare i metodi statistici, mentre altri eliminerebbero una soglia per definire i risultati "significativi". (pag. 63.)
- Ziliak, Stephen e Deirdre McCloskey (2008), Il culto del significato statistico: come l'errore standard ci costa posti di lavoro, giustizia e vite . Ann Arbor, University of Michigan Press , 2009. ISBN 978-0-472-07007-7 . Recensioni e ricezione: (a cura di Ziliak)
- Thompson, Bruce (2004). "La crisi del "significato" in psicologia ed educazione". Giornale di Socio-Economia . 33 (5): 607-613. doi : 10.1016/j.socec.2004.09.034 .
- Chow, Siu L., (1996). Significato statistico: razionale, validità e utilità , volume 1 della serie Introducing Statistical Methods, Sage Publications Ltd, ISBN 978-0-7619-5205-3 – sostiene che la significatività statistica è utile in determinate circostanze.
- Kline, Rex, (2004). Oltre i test di significatività: riformare i metodi di analisi dei dati nella ricerca comportamentale Washington, DC: American Psychological Association.
- Nuzzo, Regina (2014). Metodo scientifico: errori statistici . Natura Vol. 506, pag. 150-152 (accesso libero). Evidenzia i malintesi comuni sul valore p.
- Cohen, Giuseppe (1994). [1] . La terra è rotonda (p<.05). Psicologa americana. Vol 49, pag. 997-1003. Rivede i problemi con il test statistico dell'ipotesi nulla.
- Amrhein, Valentin; Groenlandia, Sander; McShane, Blake (2019-03-20). "Gli scienziati insorgono contro la significatività statistica" . Natura . 567 (7748): 305-307. doi : 10.1038/d41586-019-00857-9 . PMID 30894741 .
link esterno
- L'articolo " Usi più antichi conosciuti di alcune parole della matematica (S) " contiene una voce sul significato che fornisce alcune informazioni storiche.
- " The Concept of Statistical Significance Testing " (febbraio 1994): articolo di Bruce Thompon ospitato dall'ERIC Clearinghouse on Assessment and Evaluation, Washington, DC
- " Cosa significa che un risultato è "statisticamente significativo"? " (nessuna data): un articolo del Statistical Assessment Service della George Mason University, Washington, DC