Riduzione dei dati - Data reduction

La riduzione dei dati è la trasformazione di informazioni digitali numeriche o alfabetiche derivate empiricamente o sperimentalmente in una forma corretta, ordinata e semplificata. Lo scopo della riduzione dei dati può essere duplice: ridurre il numero di record di dati eliminando i dati non validi o produrre dati di riepilogo e statistiche a diversi livelli di aggregazione per varie applicazioni.

Quando l'informazione è derivata dalle letture dello strumento, può verificarsi anche una trasformazione dalla forma analogica a quella digitale . Quando i dati sono già in formato digitale, la "riduzione" dei dati in genere comporta alcune modifiche, ridimensionamenti , codifica , ordinamento , fascicolazione e produzione di riepiloghi tabulari. Quando le osservazioni sono discrete ma il fenomeno sottostante è continuo, spesso sono necessarie operazioni di livellamento e interpolazione . La riduzione dei dati viene spesso effettuata in presenza di errori di lettura o di misura . È necessaria un'idea della natura di questi errori prima di poter determinare il valore più probabile.

Un esempio in astronomia è la riduzione dei dati nel satellite Kepler . Questo satellite registra immagini da 95 megapixel una volta ogni sei secondi, generando dozzine di megabyte di dati al secondo, ovvero ordini di grandezza superiori alla larghezza di banda del downlink di 550 KBps. La riduzione dei dati a bordo comprende la co-aggiunta dei frame grezzi per trenta minuti, riducendo la larghezza di banda di un fattore 300. Inoltre, vengono preselezionati obiettivi interessanti e vengono elaborati solo i relativi pixel, che rappresentano il 6% del totale. Questi dati ridotti vengono quindi inviati alla Terra dove vengono ulteriormente elaborati.

È stata inoltre condotta una ricerca sull'uso della riduzione dei dati nei dispositivi indossabili (wireless) per applicazioni di monitoraggio e diagnosi della salute. Ad esempio, nel contesto della diagnosi dell'epilessia , la riduzione dei dati è stata utilizzata per aumentare la durata della batteria di un dispositivo EEG indossabile selezionando e trasmettendo solo dati EEG rilevanti per la diagnosi e scartando l'attività di fondo.

Tipi di riduzione dei dati

Riduzione della dimensionalità

Quando la dimensionalità aumenta, i dati diventano sempre più sparsi mentre la densità e la distanza tra i punti, fondamentali per il clustering e l'analisi anomala, diventano meno significative. La riduzione della dimensionalità aiuta a ridurre il rumore nei dati e consente una visualizzazione più semplice, come nell'esempio seguente in cui i dati tridimensionali vengono trasformati in 2 dimensioni per mostrare le parti nascoste. Un metodo di riduzione della dimensionalità è la trasformata wavelet , in cui i dati vengono trasformati per preservare la distanza relativa tra gli oggetti a diversi livelli di risoluzione, e viene spesso utilizzata per la compressione delle immagini .

Un esempio di riduzione della dimensionalità.

Riduzione della numerosità

Questo metodo di riduzione dei dati riduce il volume dei dati scegliendo forme alternative e più piccole di rappresentazione dei dati. La riduzione della numerosità può essere suddivisa in 2 gruppi: metodi parametrici e non parametrici. I metodi parametrici (ad esempio la regressione) presuppongono che i dati si adattino a un modello, stimano i parametri del modello, memorizzano solo i parametri e scartano i dati. Un esempio di ciò è nell'immagine sottostante, dove il volume dei dati da elaborare viene ridotto in base a criteri più specifici. Un altro esempio potrebbe essere un modello log-lineare , ottenendo un valore in un punto dello spazio mD come prodotto su opportuni sottospazi marginali. I metodi non parametrici non assumono modelli, alcuni esempi sono istogrammi, clustering, campionamento, ecc.

Un esempio di riduzione dei dati tramite riduzione della numerosità

Modellazione statistica

La riduzione dei dati può essere ottenuta assumendo un modello statistico per i dati. I principi classici della riduzione dei dati includono la sufficienza , la verosimiglianza , la condizionalità e l' equivarianza .

Migliori pratiche

Queste sono tecniche comuni utilizzate nella riduzione dei dati.

  • Ordina per qualche aspetto delle dimensioni.
  • Diagonalizzazione delle tabelle , per cui righe e colonne delle tabelle vengono riorganizzate per rendere i modelli più facili da vedere (fare riferimento al diagramma).
  • Arrotonda drasticamente a una o al massimo due cifre effettive (le cifre effettive sono quelle che variano in quella parte dei dati).
  • Usa le medie per fornire un focus visivo e un riepilogo.
  • Usa il layout e l'etichettatura per guidare l'occhio.
  • Rimuovi i file spazzatura , come immagini e linee.
  • Fai un breve riassunto verbale.

Guarda anche

Riferimenti

Ulteriori letture