Tendenza centrale - Central tendency

In statistica , una tendenza centrale (o misura della tendenza centrale ) è un valore centrale o tipico per una distribuzione di probabilità . Può anche essere chiamato un centro o una posizione della distribuzione. Colloquialmente, le misure di tendenza centrale sono spesso chiamate medie . Il termine tendenza centrale risale alla fine degli anni '20.

Le misure più comuni di tendenza centrale sono la media aritmetica , la mediana e la moda . Una tendenza media può essere calcolata per un insieme finito di valori o per una distribuzione teorica, come la distribuzione normale . Occasionalmente gli autori usano la tendenza centrale per indicare "la tendenza dei dati quantitativi a raggrupparsi attorno a un valore centrale".

La tendenza centrale di una distribuzione è tipicamente contrastata con la sua dispersione o variabilità ; dispersione e tendenza centrale sono le proprietà spesso caratterizzate delle distribuzioni. L'analisi può giudicare se i dati hanno una tendenza centrale forte o debole in base alla loro dispersione.

Le misure

Quanto segue può essere applicato a dati unidimensionali. A seconda delle circostanze, può essere opportuno trasformare i dati prima di calcolare una tendenza centrale. Esempi sono la quadratura dei valori o l'assunzione di logaritmi. Se una trasformazione è appropriata e quale dovrebbe essere, dipende fortemente dai dati che vengono analizzati.

Media aritmetica o semplicemente, media
la somma di tutte le misurazioni divisa per il numero di osservazioni nel set di dati.
Mediano
il valore medio che separa la metà superiore dalla metà inferiore del set di dati. La mediana e la moda sono le uniche misure di tendenza centrale che possono essere utilizzate per i dati ordinali , in cui i valori sono classificati l'uno rispetto all'altro ma non sono misurati in modo assoluto.
Modalità
il valore più frequente nel set di dati. Questa è l'unica misura di tendenza centrale che può essere utilizzata con dati nominali , che hanno assegnazioni di categoria puramente qualitative.
Media geometrica
la radice n- esima del prodotto dei valori dei dati, dove sono n di questi. Questa misura è valida solo per i dati che sono misurati assolutamente su una scala strettamente positiva.
media armonica
il reciproco della media aritmetica dei reciproci dei valori dei dati. Anche questa misura è valida solo per dati che sono misurati assolutamente su una scala strettamente positiva.
Media aritmetica pesata
una media aritmetica che incorpora la ponderazione a determinati elementi di dati.
Troncato media o media troncata
la media aritmetica dei valori dei dati dopo che un certo numero o proporzione dei valori dei dati più alti e più bassi sono stati scartati.
media interquartile
una media troncata basata sui dati all'interno dell'intervallo interquartile .
Medio
la media aritmetica dei valori massimo e minimo di un insieme di dati.
Midhinge
la media aritmetica del primo e del terzo quartile .
trimeano
la media aritmetica pesata della mediana e dei due quartili.
Winsorized significa
una media aritmetica in cui i valori estremi sono sostituiti da valori più vicini alla mediana.

Uno qualsiasi dei precedenti può essere applicato a ciascuna dimensione dei dati multidimensionali, ma i risultati potrebbero non essere invarianti rispetto alle rotazioni dello spazio multidimensionale. Inoltre, ci sono i

mediana geometrica
che minimizza la somma delle distanze dai punti dati. Questo è lo stesso della mediana quando applicato a dati unidimensionali, ma non è lo stesso che prendere la mediana di ogni dimensione in modo indipendente. Non è invariante il diverso ridimensionamento delle diverse dimensioni.
Media quadratica (spesso nota come radice quadrata media )
utile in ingegneria, ma non spesso utilizzato in statistica. Questo perché non è un buon indicatore del centro della distribuzione quando la distribuzione include valori negativi.
Profondità semplice
la probabilità che un simplesso scelto a caso con vertici della distribuzione data contenga il centro dato
Tukey mediana
un punto con la proprietà che ogni semispazio che lo contiene contiene anche molti punti campione

Soluzioni a problemi variazionali

Diverse misure di tendenza centrale possono essere caratterizzate come la soluzione di un problema variazionale, nel senso del calcolo delle variazioni , vale a dire la minimizzazione della variazione dal centro. Cioè, data una misura di dispersione statistica , si chiede una misura di tendenza centrale che minimizzi la variazione: tale che la variazione dal centro sia minima tra tutte le scelte di centro. In una battuta, "la dispersione precede la posizione". Queste misure sono inizialmente definite in una dimensione, ma possono essere generalizzate a più dimensioni. Questo centro può o non può essere unico. Nel senso di L p spazi , la corrispondenza è:

L p dispersione tendenza centrale
L 0 rapporto di variazione modalità
L 1 deviazione media assoluta mediana ( mediana geometrica )
L 2 deviazione standard media ( centroide )
L deviazione massima fascia media

Le funzioni associate sono chiamate p -norm : rispettivamente 0-"norm", 1-norm, 2-norm, e ∞-norm. La funzione corrispondente allo spazio L 0 non è una norma, ed è quindi spesso indicata tra virgolette: 0-"norma".

Nelle equazioni, per un dato insieme di dati (finito) X , pensato come un vettore x = ( x 1 ,…, x n ) , la dispersione attorno a un punto c è la "distanza" da x al vettore costante c = ( c ,…, c ) nella norma p (normalizzata per il numero di punti n ):

Per p = 0 e p = ∞ queste funzioni sono definite prendendo dei limiti, rispettivamente come p → 0 e p → ∞ . Per p = 0 i valori limite sono 0 0 = 0 e a 0 = 0 o a ≠ 0 , quindi la differenza diventa semplicemente uguaglianza, quindi la norma 0 conta il numero di punti disuguali . Per p = ∞ domina il numero più grande, e quindi la norma ∞ è la differenza massima.

Unicità

La media ( L 2 centro) e la gamma media ( L centro) sono uniche (quando esistono), mentre la mediana ( L 1 centro) e la moda ( L 0 centro) non sono in generale uniche. Questo può essere inteso in termini di convessità delle funzioni associate ( funzioni coercitive ).

La 2-norma e la -norma sono strettamente convesse e quindi (per ottimizzazione convessa) il minimo è unico (se esiste), ed esiste per distribuzioni limitate. Quindi la deviazione standard sulla media è inferiore alla deviazione standard su qualsiasi altro punto e la deviazione massima sulla gamma media è inferiore alla deviazione massima su qualsiasi altro punto.

La norma 1 non è strettamente convessa, mentre è necessaria una convessità rigorosa per garantire l'unicità del minimo. Corrispondentemente, la mediana (in questo senso di minimizzazione) non è in generale unica, e infatti qualsiasi punto tra i due punti centrali di una distribuzione discreta minimizza la deviazione assoluta media.

La "norma" 0 non è convessa (quindi non è una norma). Di conseguenza, la modalità non è univoca: ad esempio, in una distribuzione uniforme qualsiasi punto è la moda.

Raggruppamento

Invece di un unico punto centrale, si possono richiedere più punti in modo tale che la variazione da questi punti sia minimizzata. Questo porta all'analisi dei cluster , in cui ogni punto del set di dati è raggruppato con il "centro" più vicino. Più comunemente, l'uso della norma 2- genera la media al clustering k- means , mentre l'utilizzo della norma 1 generalizza la mediana (geometrica) al clustering k- medians . L'uso della norma 0 generalizza semplicemente la modalità (valore più comune) all'uso dei k valori più comuni come centri.

A differenza delle statistiche unicentriche, questo clustering multicentrico non può in generale essere calcolato in un'espressione in forma chiusa e deve invece essere calcolato o approssimato con un metodo iterativo ; un approccio generale è rappresentato dagli algoritmi di massimizzazione delle aspettative .

Geometria informativa

La nozione di "centro" come variazione minimizzante può essere generalizzata nella geometria dell'informazione come una distribuzione che minimizza la divergenza (una distanza generalizzata) da un insieme di dati. Il caso più comune è la stima della massima verosimiglianza , dove la stima della massima verosimiglianza (MLE) massimizza la verosimiglianza (minimizza la sorpresa attesa ), che può essere interpretata geometricamente utilizzando l' entropia per misurare la variazione: la MLE minimizza l' entropia incrociata (equivalentemente entropia relativa , Kullback– divergenza di Leibler).

Un semplice esempio di ciò è per il centro dei dati nominali: invece di usare la moda (l'unico "centro" a valore singolo), spesso si usa la misura empirica (la distribuzione di frequenza divisa per la dimensione del campione ) come "centro" . Ad esempio, dati dati binari , diciamo testa o croce, se un set di dati è composto da 2 teste e 1 croce, allora la modalità è "testa", ma la misura empirica è 2/3 teste, 1/3 croce, che minimizza il entropia incrociata (sorpresa totale) dal set di dati. Questa prospettiva è utilizzata anche nell'analisi di regressione , dove i minimi quadrati trovano la soluzione che minimizza le distanze da essa, e analogamente nella regressione logistica , una stima di massima verosimiglianza minimizza la sorpresa (distanza di informazione).

Relazioni tra media, mediana e moda

Per le distribuzioni unimodali sono noti e sono taglienti i seguenti limiti:

dove μ è la media, ν è la mediana, θ è la modalità, e σ è la deviazione standard.

Per ogni distribuzione,

Guarda anche

Appunti

Riferimenti