Maledizione della dimensionalità - Curse of dimensionality

La maledizione della dimensionalità si riferisce a vari fenomeni che sorgono quando si analizzano e organizzano i dati in spazi ad alta dimensionalità che non si verificano in ambienti a bassa dimensionalità come lo spazio fisico tridimensionale dell'esperienza quotidiana. L'espressione è stata coniata da Richard E. Bellman quando si considerano problemi di programmazione dinamica .

Fenomeni dimensionalmente maledetti si verificano in domini come l'analisi numerica , il campionamento , la combinatoria , l'apprendimento automatico , il data mining ei database . Il tema comune di questi problemi è che quando la dimensionalità aumenta, il volume dello spazio aumenta così velocemente che i dati disponibili diventano scarsi. Questa scarsità è problematica per qualsiasi metodo che richiede significatività statistica . Al fine di ottenere un risultato statisticamente valido e affidabile, la quantità di dati necessari per supportare il risultato spesso cresce esponenzialmente con la dimensionalità. Inoltre, l'organizzazione e la ricerca dei dati si basa spesso sul rilevamento di aree in cui gli oggetti formano gruppi con proprietà simili; nei dati ad alta dimensionalità, tuttavia, tutti gli oggetti sembrano essere sparsi e dissimili in molti modi, il che impedisce l'efficienza delle strategie comuni di organizzazione dei dati.

Domini

Combinatoria

In alcuni problemi, ogni variabile può assumere uno dei diversi valori discreti, oppure l'intervallo di valori possibili viene diviso per fornire un numero finito di possibilità. Prendendo insieme le variabili, è necessario considerare un numero enorme di combinazioni di valori. Questo effetto è noto anche come esplosione combinatoria . Anche nel caso più semplice di variabili binarie, il numero di combinazioni possibili è già , esponenziale nella dimensionalità. Ingenuamente, ogni dimensione aggiuntiva raddoppia lo sforzo necessario per provare tutte le combinazioni. $d$ $2^{d}$

Campionamento

C'è un aumento esponenziale del volume associato all'aggiunta di dimensioni extra a uno spazio matematico . Ad esempio, 10 ² = 100 punti campione equidistanti sono sufficienti per campionare un intervallo unitario (un "cubo unidimensionale") con non più di 10 ^-2 = 0,01 di distanza tra i punti; un campionamento equivalente di un ipercubo a 10 dimensioni con un reticolo che ha una spaziatura di 10 ⁻² = 0,01 tra punti adiacenti richiederebbe 10 ²⁰ = [(10 ² ) ¹⁰ ] punti campione. In generale, con una distanza di 10 ^{− n} l'ipercubo 10-dimensionale sembra essere un fattore di 10 ^{n (10−1)} = [(10 ⁿ ) ¹⁰ /(10 ⁿ )] "più grande" dell'1-dimensionale ipercubo, che è l'intervallo unitario. Nell'esempio sopra n = 2: quando si utilizza una distanza di campionamento di 0,01, l'ipercubo a 10 dimensioni sembra essere 10 ¹⁸ "più grande" dell'intervallo unitario. Questo effetto è una combinazione dei problemi combinatori sopra e dei problemi della funzione distanza spiegati di seguito.

Ottimizzazione

Quando si risolvono problemi di ottimizzazione dinamica mediante induzione numerica all'indietro , la funzione obiettivo deve essere calcolata per ogni combinazione di valori. Questo è un ostacolo significativo quando la dimensione della "variabile di stato" è grande.

Apprendimento automatico

Nei problemi di apprendimento automatico che implicano l'apprendimento di uno "stato di natura" da un numero finito di campioni di dati in uno spazio di funzionalità ad alta dimensionalità con ciascuna caratteristica con un intervallo di valori possibili, in genere è necessaria un'enorme quantità di dati di addestramento per garantire che ci sono diversi campioni con ogni combinazione di valori.

Una tipica regola pratica è che ci dovrebbero essere almeno 5 esempi di formazione per ogni dimensione nella rappresentazione. Nell'apprendimento automatico e per quanto riguarda le prestazioni predittive, la maledizione della dimensionalità viene utilizzata in modo intercambiabile con il fenomeno del picco , noto anche come fenomeno di Hughes . Questo fenomeno afferma che con un numero fisso di campioni di addestramento, il potere predittivo medio (atteso) di un classificatore o regressore aumenta dapprima all'aumentare del numero di dimensioni o funzionalità utilizzate, ma oltre una certa dimensionalità inizia a deteriorarsi invece di migliorare costantemente.

Tuttavia, nel contesto di un semplice classificatore ( analisi discriminante lineare nel modello gaussiano multivariato sotto l'assunzione di una comune matrice di covarianza nota) Zollanvari et al. ha mostrato sia analiticamente che empiricamente che finché l'efficacia cumulativa relativa di un insieme di caratteristiche aggiuntive (rispetto alle caratteristiche che fanno già parte del classificatore) è maggiore (o minore) della dimensione di questo insieme di caratteristiche aggiuntive, l'errore atteso di il classificatore costruito utilizzando queste funzionalità aggiuntive sarà minore (o maggiore) dell'errore previsto del classificatore costruito senza di esse. In altre parole, sia la dimensione delle caratteristiche aggiuntive che il loro effetto discriminatorio cumulativo (relativo) sono importanti nell'osservare una diminuzione o un aumento del potere predittivo medio.

Funzioni di distanza

Quando una misura come una distanza euclidea è definita usando molte coordinate, c'è poca differenza nelle distanze tra diverse coppie di campioni.

Un modo per illustrare la "vastà" dello spazio euclideo ad alta dimensione è confrontare la proporzione di un'ipersfera inscritta con raggio e dimensione , a quella di un ipercubo con bordi di lunghezza Il volume di tale sfera è , dov'è la funzione gamma , mentre il volume del cubo è . All'aumentare della dimensione dello spazio, l'ipersfera diventa un volume insignificante rispetto a quello dell'ipercubo. Questo può essere visto chiaramente confrontando le proporzioni mentre la dimensione va all'infinito: $r$ $d$ $2r.$ ${\frac {2r^{d}\pi ^{d/2}}{d\;\Gamma (d/2)}}$ $\Gamma$ $(2r)^{d}$ $d$ $d$

{\frac {V_{\mathrm {ipersfera} }}{V_{\mathrm {ipercubo} }}}={\frac {\pi ^{d/2}}{d2^{d-1}\ Gamma (d/2)}}\rightarrow 0

come .

d\rightarrow \infty

Inoltre, la distanza tra il centro e gli angoli è , che aumenta senza limiti per r fisso. In questo senso, quasi tutto lo spazio ad alta dimensione è "lontano" dal centro. In dimensioni elevate, il volume dell'ipercubo di unità d- dimensionale (con coordinate dei vertici ) è concentrato vicino a una sfera con il raggio per la grande dimensione d . Infatti, per ogni coordinata il valore medio di nel cubo è $r{\sqrt {d}}$ $\pm 1$ ${\sqrt {d}}/{\sqrt {3}}$ $x_{i}$ $x_{i}^{2}$

\langle x_{i}^{2}\rangle ={\frac {1}{2}}\int _{-1}^{1}x^{2}dx={\frac {1} {3}}

.

La varianza di per la distribuzione uniforme nel cubo è $x_{i}^{2}$

{\frac {1}{2}}\int _{-1}^{1}x^{4}dx-\langle x_{i}^{2}\rangle ^{2}={\ frac {4}{45}}

Pertanto, la distanza al quadrato dall'origine, ha valore medio d /3 e varianza 4 d /45. Per d grande , la distribuzione di è vicina alla distribuzione normale con la media 1/3 e la deviazione standard secondo il teorema del limite centrale . Così, in dimensioni elevate, sia il "centro" dell'ipercubo, sia gli angoli sono vuoti, e tutto il volume è concentrato in prossimità di una sfera di raggio "intermedio" . $r^{2}=\sum _{i}x_{i}^{2}$ $r^{2}/d$ ${\frac {2}{\sqrt {45d}}}$ ${\sqrt {d/3}}$

Questo aiuta anche a capire la distribuzione del chi quadrato . Infatti, la distribuzione del chi quadrato (non centrale) associata a un punto casuale nell'intervallo [-1, 1] è la stessa della distribuzione della lunghezza al quadrato di un punto casuale nel d- cubo. Per la legge dei grandi numeri, questa distribuzione si concentra in una banda stretta intorno a d volte la deviazione standard al quadrato (σ ² ) della derivazione originale. Questo illumina la distribuzione del chi quadrato e illustra anche che la maggior parte del volume del d- cubo si concentra vicino alla superficie di una sfera di raggio . $\sigma {\sqrt {d}}$

Un ulteriore sviluppo di questo fenomeno è il seguente. Qualsiasi distribuzione fissa sui numeri reali induce una distribuzione del prodotto sui punti in ^d . Per ogni n fissato , risulta che la distanza minima e massima tra un punto di riferimento casuale Q e una lista di n punti dati casuali P ₁ ,..., P _n diventano indiscernibili rispetto alla distanza minima:

\lim _{d\to \infty }E\left({\frac {\operatorname {dist} _{\max }(d)-\operatorname {dist} _{\min }(d)}{ \operatorname {dist} _{\min }(d)}}\right)\to 0

.

Questo è spesso citato come funzioni di distanza che perdono la loro utilità (per il criterio del vicino più prossimo negli algoritmi di confronto delle caratteristiche, ad esempio) in dimensioni elevate. Tuttavia, recenti ricerche hanno dimostrato che ciò vale solo nello scenario artificiale quando le distribuzioni unidimensionali sono indipendenti e distribuite identicamente . Quando gli attributi sono correlati, i dati possono diventare più semplici e fornire un contrasto di distanza più elevato e il rapporto segnale-rumore è risultato giocare un ruolo importante, quindi dovrebbe essere utilizzata la selezione delle caratteristiche .

Ricerca del vicino più vicino

L'effetto complica la ricerca del vicino più prossimo nello spazio ad alta dimensione. Non è possibile rifiutare rapidamente i candidati utilizzando la differenza in una coordinata come limite inferiore per una distanza basata su tutte le dimensioni.

Tuttavia, è stato recentemente osservato che il solo numero di dimensioni non comporta necessariamente difficoltà, poiché anche dimensioni aggiuntive rilevanti possono aumentare il contrasto. Inoltre, per la classifica risultante rimane utile distinguere vicini vicini e lontani. Dimensioni irrilevanti ("rumore"), tuttavia, riducono il contrasto nel modo sopra descritto. Nell'analisi delle serie temporali , in cui i dati sono intrinsecamente ad alta dimensionalità, anche le funzioni di distanza funzionano in modo affidabile finché il rapporto segnale-rumore è sufficientemente alto.

k -classificazione del vicino più vicino

Un altro effetto dell'alta dimensionalità sulle funzioni di distanza preoccupazioni k -Città più vicino ( k -NN) grafici di costruito da un insieme di dati utilizzando una funzione distanza. Con l'aumento delle dimensioni, l'indegree distribuzione del k -NN digramma diventa asimmetrica con un picco a destra a causa della comparsa di un numero sproporzionato di hub , cioè, punti di dati che appaiono in molti altri k -NN liste di altri punti dati rispetto alla media. Questo fenomeno può avere un impatto considerevole su varie tecniche di classificazione (incluso il classificatore k- NN ), apprendimento semi-supervisionato e clustering , e colpisce anche il recupero delle informazioni .

Rilevamento anomalie

In un sondaggio del 2012, Zimek et al. ha identificato i seguenti problemi durante la ricerca di anomalie nei dati ad alta dimensionalità:

Concentrazione di punteggi e distanze: i valori derivati come le distanze diventano numericamente simili
Attributi irrilevanti: in dati ad alta dimensionalità, un numero significativo di attributi può essere irrilevante
Definizione di insiemi di riferimento: per i metodi locali, gli insiemi di riferimento sono spesso basati sul vicino più prossimo
Punteggi incomparabili per differenti dimensionalità: differenti sottospazi producono punteggi incomparabili
Interpretabilità dei punteggi: i punteggi spesso non trasmettono più un significato semantico
Spazio di ricerca esponenziale: lo spazio di ricerca non può più essere scansionato sistematicamente
Bias di snooping dei dati : dato l'ampio spazio di ricerca, per ogni significato desiderato si può trovare un'ipotesi
Hubness: alcuni oggetti si verificano più frequentemente negli elenchi dei vicini rispetto ad altri.

Molti dei metodi specializzati analizzati affrontano l'uno o l'altro di questi problemi, ma rimangono molte domande di ricerca aperte.

Benedizione della dimensionalità

Sorprendentemente e nonostante le attese difficoltà della "maledizione della dimensionalità", l'euristica di buon senso basata sui metodi più diretti "può produrre risultati che sono quasi sicuramente ottimali" per problemi ad alta dimensionalità. Il termine "benedizione della dimensionalità" è stato introdotto alla fine degli anni '90. Donoho nel suo "manifesto del millennio" ha spiegato chiaramente perché la "benedizione della dimensionalità" costituirà una base per il futuro data mining. Gli effetti della benedizione della dimensionalità sono stati scoperti in molte applicazioni e hanno trovato il loro fondamento nella concentrazione dei fenomeni di misura . Un esempio della benedizione del fenomeno della dimensionalità è la separabilità lineare di un punto casuale da un grande insieme casuale finito con alta probabilità anche se questo insieme è esponenzialmente grande: il numero di elementi in questo insieme casuale può crescere esponenzialmente con la dimensione. Inoltre, questo funzionale lineare può essere selezionato nella forma del più semplice discriminante lineare di Fisher . Questo teorema di separabilità è stato dimostrato per un'ampia classe di distribuzioni di probabilità: distribuzioni generali uniformemente log-concave, distribuzioni di prodotto in un cubo e molte altre famiglie (recensite di recente in ).

"La benedizione della dimensionalità e la maledizione della dimensionalità sono due facce della stessa medaglia". Ad esempio, la proprietà tipica delle distribuzioni di probabilità essenzialmente ad alta dimensionalità in uno spazio ad alta dimensionalità è: la distanza al quadrato di punti casuali da un punto selezionato è, con alta probabilità, vicina alla distanza al quadrato media (o mediana). Questa proprietà semplifica notevolmente la geometria attesa dei dati e l'indicizzazione dei dati ad alta dimensione (blessing), ma, allo stesso tempo, rende difficile e persino inutile la ricerca di similarità in dimensioni elevate (maledizione).

Zimek et al. ha osservato che mentre le formalità tipiche della maledizione della dimensionalità influenzano i dati iid , avere dati separati in ciascun attributo diventa più facile anche in dimensioni elevate e ha sostenuto che il rapporto segnale-rumore è importante: i dati diventano più facili con ogni attributo che aggiunge segnale e più difficile con attributi che aggiungono solo rumore (errore irrilevante) ai dati. In particolare per l'analisi dei dati non supervisionata questo effetto è noto come swamping.

Languages

In other projects