Analisi predittiva - Predictive analytics

L'analisi predittiva comprende una varietà di tecniche statistiche di data mining , modellazione predittiva e apprendimento automatico che analizzano i fatti attuali e storici per fare previsioni su eventi futuri o altrimenti sconosciuti.

Negli affari, i modelli predittivi sfruttano i modelli trovati nei dati storici e transazionali per identificare rischi e opportunità. I modelli catturano le relazioni tra molti fattori per consentire la valutazione del rischio o del potenziale associato a un particolare insieme di condizioni, guidando il processo decisionale per le transazioni candidate.

L'effetto funzionale che definisce questi approcci tecnici è che l'analisi predittiva fornisce un punteggio predittivo (probabilità) per ogni individuo (cliente, dipendente, paziente sanitario, SKU del prodotto, veicolo, componente, macchina o altra unità organizzativa) al fine di determinare, informare o influenzare i processi organizzativi che riguardano un gran numero di individui, come nel marketing, nella valutazione del rischio di credito, nel rilevamento delle frodi, nella produzione, nell'assistenza sanitaria e nelle operazioni governative, comprese le forze dell'ordine.

L'analisi predittiva viene utilizzata in scienze attuariali , marketing , gestione aziendale , sport/ fantasport , assicurazioni , polizia , telecomunicazioni , vendita al dettaglio , viaggi , mobilità , assistenza sanitaria , protezione dei bambini , prodotti farmaceutici , pianificazione delle capacità , social network e altri campi.

Una delle applicazioni più note è il credit scoring , che viene utilizzato in tutta la gestione aziendale . I modelli di punteggio elaborano la storia creditizia di un cliente , la domanda di prestito , i dati del cliente, ecc., al fine di classificare gli individui in base alla loro probabilità di effettuare pagamenti futuri del credito in tempo.

Definizione

L'analisi predittiva è un'area delle statistiche che si occupa di estrarre informazioni dai dati e utilizzarle per prevedere tendenze e modelli di comportamento. Il miglioramento dell'analisi web predittiva calcola le probabilità statistiche di eventi futuri online. Le tecniche statistiche di analisi predittiva includono modellazione dei dati , apprendimento automatico , intelligenza artificiale , algoritmi di deep learning e data mining . Spesso l'evento sconosciuto di interesse è nel futuro, ma l'analisi predittiva può essere applicata a qualsiasi tipo di sconosciuto, che sia passato, presente o futuro. Ad esempio, identificare i sospetti dopo che è stato commesso un reato o quando si verifica una frode con carta di credito. Il nucleo dell'analisi predittiva si basa sull'acquisizione delle relazioni tra le variabili esplicative e le variabili previste da eventi passati e il loro sfruttamento per prevedere il risultato sconosciuto. È importante notare, tuttavia, che l'accuratezza e l'usabilità dei risultati dipenderanno molto dal livello di analisi dei dati e dalla qualità delle ipotesi.

L'analisi predittiva è spesso definita come la previsione a un livello di granularità più dettagliato, ovvero la generazione di punteggi predittivi (probabilità) per ogni singolo elemento organizzativo. Questo lo distingue dalla previsione . Ad esempio, "Analisi predittiva: tecnologia che apprende dall'esperienza (dati) per prevedere il comportamento futuro degli individui al fine di prendere decisioni migliori". Nei futuri sistemi industriali, il valore dell'analisi predittiva sarà quello di prevedere e prevenire potenziali problemi per raggiungere un guasto prossimo allo zero ed essere ulteriormente integrato nell'analisi prescrittiva per l'ottimizzazione delle decisioni.

tipi

In genere, il termine analisi predittiva viene utilizzato per indicare modellazione predittiva , "punteggio" dei dati con modelli predittivi e previsione . Tuttavia, le persone utilizzano sempre più il termine per riferirsi a discipline analitiche correlate, come la modellazione descrittiva e la modellazione o ottimizzazione delle decisioni. Queste discipline implicano anche una rigorosa analisi dei dati e sono ampiamente utilizzate negli affari per la segmentazione e il processo decisionale, ma hanno scopi diversi e le tecniche statistiche sottostanti variano.

Modelli predittivi

La modellazione predittiva utilizza modelli predittivi per analizzare la relazione tra le prestazioni specifiche di un'unità in un campione e uno o più attributi o caratteristiche noti di tale unità. L'obiettivo del modello è valutare la probabilità che un'unità simile in un campione diverso mostri la performance specifica. Questa categoria comprende modelli in molte aree, come il marketing, in cui cercano modelli di dati sottili per rispondere a domande sulle prestazioni dei clienti o modelli di rilevamento delle frodi. I modelli predittivi spesso eseguono calcoli durante le transazioni in tempo reale, ad esempio per valutare il rischio o l'opportunità di un determinato cliente o transazione, al fine di guidare una decisione. Con i progressi nella velocità di calcolo, i sistemi di modellazione dei singoli agenti sono diventati in grado di simulare il comportamento umano o le reazioni a determinati stimoli o scenari.

Le unità campione disponibili con attributi noti e prestazioni note sono indicate come "campione di addestramento". Le unità in altri campioni, con attributi noti ma prestazioni sconosciute, sono indicate come unità "fuori dal campione [di addestramento]". Le unità fuori campione non hanno necessariamente una relazione cronologica con le unità campione di addestramento. Ad esempio, il campione di formazione può essere costituito da attributi letterari di scritti di autori vittoriani, con attribuzione nota, e l'unità fuori campione può essere una scrittura ritrovata di recente con paternità sconosciuta; un modello predittivo può aiutare nell'attribuire un'opera a un autore noto. Un altro esempio è dato dall'analisi di schizzi di sangue in scene del crimine simulate in cui l'unità fuori campione è il modello di schizzi di sangue reale da una scena del crimine. L'unità fuori campione può essere della stessa epoca delle unità di addestramento, di un'ora precedente o di un'ora futura.

Modelli descrittivi

I modelli descrittivi quantificano le relazioni nei dati in un modo spesso utilizzato per classificare i clienti o potenziali clienti in gruppi. A differenza dei modelli predittivi che si concentrano sulla previsione del comportamento di un singolo cliente (come il rischio di credito), i modelli descrittivi identificano molte relazioni diverse tra clienti o prodotti. I modelli descrittivi non classificano i clienti in base alla loro probabilità di intraprendere una determinata azione come fanno i modelli predittivi. Invece, i modelli descrittivi possono essere utilizzati, ad esempio, per classificare i clienti in base alle loro preferenze sui prodotti e alla fase di vita. Gli strumenti di modellazione descrittiva possono essere utilizzati per sviluppare ulteriori modelli in grado di simulare un gran numero di agenti individualizzati e fare previsioni.

Modelli decisionali

I modelli decisionali descrivono la relazione tra tutti gli elementi di una decisione, i dati noti (inclusi i risultati dei modelli predittivi), la decisione e i risultati previsti della decisione, al fine di prevedere i risultati delle decisioni che coinvolgono molte variabili. Questi modelli possono essere utilizzati nell'ottimizzazione, massimizzando determinati risultati e minimizzandone altri. I modelli decisionali vengono generalmente utilizzati per sviluppare una logica decisionale o un insieme di regole aziendali che produrranno l'azione desiderata per ogni cliente o circostanza.

Applicazioni

Sebbene l'analisi predittiva possa essere utilizzata in molte applicazioni, descriviamo alcuni esempi in cui l'analisi predittiva ha mostrato un impatto positivo negli ultimi anni.

Attività commerciale

La gestione analitica delle relazioni con i clienti (CRM) è un'applicazione commerciale frequente dell'analisi predittiva. I metodi di analisi predittiva vengono applicati ai dati del cliente per costruire una visione olistica del cliente. Il CRM utilizza l'analisi predittiva nelle applicazioni per campagne di marketing, vendite e servizi ai clienti. Il CRM analitico può essere applicato durante tutto il ciclo di vita dei clienti ( acquisizione , crescita delle relazioni , fidelizzazione e riconquista).

Spesso le organizzazioni aziendali raccolgono e conservano dati abbondanti, come i record dei clienti o le transazioni di vendita. In questi casi, l'analisi predittiva può aiutare ad analizzare la spesa, l'utilizzo e altri comportamenti dei clienti, portando a vendite incrociate efficienti o alla vendita di prodotti aggiuntivi ai clienti attuali.

La corretta applicazione dell'analisi predittiva può portare a strategie di conservazione più proattive ed efficaci. Attraverso un esame frequente dell'utilizzo passato del servizio da parte di un cliente, delle prestazioni del servizio, della spesa e di altri modelli di comportamento, i modelli predittivi possono determinare la probabilità che un cliente interrompa il servizio in tempi brevi. Un intervento con offerte ad alto valore percepito può aumentare le possibilità di conversione o fidelizzazione del cliente. L'analisi predittiva può anche prevedere l'attrito silenzioso, il comportamento di un cliente per ridurre lentamente ma costantemente l'utilizzo.

Protezione dei bambini

Alcune agenzie per l'assistenza all'infanzia hanno iniziato a utilizzare l'analisi predittiva per segnalare i casi ad alto rischio. Ad esempio, nella contea di Hillsborough, in Florida , l'uso da parte dell'agenzia per il benessere dei bambini di uno strumento di modellazione predittiva ha impedito la morte di bambini dovuta ad abusi nella popolazione target.

Sistemi di supporto alle decisioni cliniche

L'analisi predittiva ha trovato impiego nell'assistenza sanitaria principalmente per determinare quali pazienti sono a rischio di sviluppare condizioni come diabete, asma o malattie cardiache. Inoltre, sofisticati sistemi di supporto alle decisioni cliniche incorporano l'analisi predittiva per supportare il processo decisionale medico.

Uno studio del 2016 sui disturbi neurodegenerativi fornisce un potente esempio di piattaforma CDS per diagnosticare, tracciare, prevedere e monitorare la progressione della malattia di Parkinson .

Previsione degli esiti delle decisioni legali

La previsione dell'esito delle decisioni giuridiche può essere effettuata dai programmi di IA. Questi programmi possono essere utilizzati come strumenti di supporto per le professioni in questo settore.

Previsione a livello di portafoglio, prodotto o economia

Spesso il focus dell'analisi non è il consumatore ma il prodotto, il portafoglio, l'azienda, l'industria o anche l'economia. Ad esempio, un rivenditore potrebbe essere interessato a prevedere la domanda a livello di negozio ai fini della gestione dell'inventario. Oppure il Federal Reserve Board potrebbe essere interessato a prevedere il tasso di disoccupazione per il prossimo anno. Questi tipi di problemi possono essere affrontati con l'analisi predittiva utilizzando tecniche di serie temporali (vedi sotto). Possono anche essere affrontati tramite approcci di apprendimento automatico che trasformano le serie temporali originali in uno spazio vettoriale di funzionalità, in cui l'algoritmo di apprendimento trova modelli che hanno potere predittivo.

Sottoscrizione

Molte aziende devono tenere conto dell'esposizione al rischio dovuta ai loro diversi servizi e determinare i costi necessari per coprire il rischio. L'analisi predittiva può aiutare a sottoscrivere queste quantità prevedendo le possibilità di malattia, default , bancarotta , ecc. L'analisi predittiva può semplificare il processo di acquisizione dei clienti prevedendo il comportamento di rischio futuro di un cliente utilizzando i dati a livello di applicazione. L'analisi predittiva sotto forma di punteggi di credito ha ridotto il tempo necessario per l'approvazione dei prestiti, soprattutto nel mercato dei mutui. Una corretta analisi predittiva può portare a decisioni di prezzo adeguate, che possono aiutare a mitigare il rischio futuro di insolvenza.

La tecnologia e le influenze dei big data

I big data sono una raccolta di set di dati così grandi e complessi che diventa difficile lavorare con gli strumenti di gestione dei database tradizionali . Il volume, la varietà e la velocità dei big data hanno introdotto sfide su tutta la linea per l'acquisizione, l'archiviazione, la ricerca, la condivisione, l'analisi e la visualizzazione. Esempi di fonti di big data includono log web , RFID , dati di sensori , social network , indicizzazione di ricerche su Internet, record di dettagli delle chiamate, sorveglianza militare e dati complessi in scienze astronomiche, biogeochimiche, genomiche e atmosferiche. I Big Data sono il fulcro della maggior parte dei servizi di analisi predittiva offerti dalle organizzazioni IT. Grazie ai progressi tecnologici in hardware più veloce del computer CPU, memoria più conveniente, e MPP architetture-e nuove tecnologie come Hadoop , MapReduce , e in-database e analisi del testo per l'elaborazione di dati di grandi dimensioni, è ora fattibile per raccogliere, analizzare, e la mia enormi quantità di dati strutturati e non strutturati per nuove intuizioni. È anche possibile eseguire algoritmi predittivi sui dati in streaming. Oggi, esplorare i big data e utilizzare l'analisi predittiva è alla portata di un numero mai visto di organizzazioni e vengono proposti nuovi metodi in grado di gestire tali set di dati.

Tecniche analitiche

Gli approcci e le tecniche utilizzati per condurre l'analisi predittiva possono essere ampiamente raggruppati in tecniche di regressione e tecniche di apprendimento automatico.

Tecniche di regressione

I modelli di regressione sono il cardine dell'analisi predittiva. L'obiettivo è stabilire un'equazione matematica come modello per rappresentare le interazioni tra le diverse variabili in esame. A seconda della situazione, esiste un'ampia varietà di modelli che possono essere applicati durante l'esecuzione dell'analisi predittiva. Alcuni di essi sono brevemente discussi di seguito.

Modello di regressione lineare

Il modello di regressione lineare prevede la variabile di risposta come funzione lineare dei parametri con coefficienti sconosciuti. Questi parametri vengono regolati in modo da ottimizzare una misura di adattamento. Gran parte dello sforzo nell'adattamento del modello è focalizzato sulla minimizzazione della dimensione del residuo, oltre a garantire che sia distribuito casualmente rispetto alle previsioni del modello.

L'obiettivo della regressione è selezionare i parametri del modello in modo da minimizzare la somma dei quadrati dei residui. Questa è indicata come stima dei minimi quadrati ordinari (OLS).

Modelli a scelta discreta

La regressione multipla (sopra) viene generalmente utilizzata quando la variabile di risposta è continua e ha un intervallo illimitato. Spesso la variabile di risposta può non essere continua ma piuttosto discreta. Mentre matematicamente è possibile applicare la regressione multipla a variabili dipendenti ordinate discrete, alcune delle ipotesi alla base della teoria della regressione lineare multipla non sono più valide e ci sono altre tecniche come i modelli a scelta discreta che sono più adatti per questo tipo di analisi. Se la variabile dipendente è discreta, alcuni di questi metodi superiori sono modelli di regressione logistica , logit multinomiale e probit . I modelli di regressione logistica e probit vengono utilizzati quando la variabile dipendente è binaria .

Regressione logistica

In un contesto di classificazione, l'assegnazione delle probabilità di risultato alle osservazioni può essere ottenuta attraverso l'uso di un modello logistico (chiamato anche modello logico), che trasforma le informazioni sulla variabile dipendente binaria in una variabile continua illimitata e stima un modello multivariato regolare.

Il test di Wald e del rapporto di verosimiglianza vengono utilizzati per testare la significatività statistica di ciascun coefficiente b nel modello (analogo ai test t utilizzati nella regressione OLS; vedere sopra). Un test che valuta la bontà di adattamento di un modello di classificazione è la "percentuale correttamente prevista".

Probit regressione

I modelli Probit offrono un'alternativa alla regressione logistica per la modellazione di variabili dipendenti categoriali.

Regressione logistica multinomiale

Un'estensione del modello logit binario ai casi in cui la variabile dipendente ha più di 2 categorie è il modello logit multinomiale . In tali casi, il collasso dei dati in due categorie potrebbe non avere senso o potrebbe comportare una perdita di ricchezza dei dati. Il modello logit multinomiale è la tecnica appropriata in questi casi, soprattutto quando le categorie di variabili dipendenti non sono ordinate (ad esempio colori come rosso, blu, verde). Alcuni autori hanno esteso la regressione multinomiale per includere metodi di selezione/importanza delle caratteristiche come logit multinomiale casuale .

Logit contro probit

Le due regressioni tendono a comportarsi in modo simile, tranne per il fatto che la distribuzione logistica tende ad essere leggermente più piatta. I coefficienti ottenuti dal modello logit e probit sono generalmente ravvicinati. Tuttavia, l' odds ratio è più facile da interpretare nel modello logit.

Le ragioni pratiche per scegliere il modello probit rispetto al modello logistico potrebbero includere:

  • C'è una forte convinzione che la distribuzione sottostante sia normale
  • L'evento effettivo non è un risultato binario ( es . stato di fallimento) ma una proporzione ( es . proporzione della popolazione a diversi livelli di debito).

Modelli di serie temporali

I modelli di serie temporali vengono utilizzati per prevedere o prevedere il comportamento futuro delle variabili. Questi modelli tengono conto del fatto che i punti dati presi nel tempo possono avere una struttura interna (come l'autocorrelazione, la tendenza o la variazione stagionale) che dovrebbe essere presa in considerazione. Di conseguenza, le tecniche di regressione standard non possono essere applicate ai dati delle serie temporali e la metodologia è stata sviluppata per scomporre la componente trend, stagionale e ciclica della serie.

I modelli di serie temporali stimano equazioni alle differenze contenenti componenti stocastiche. Due forme comunemente usate di questi modelli sono i modelli autoregressivi (AR) e i modelli a media mobile (MA). La metodologia Box-Jenkins combina i modelli AR e MA per produrre il modello ARMA (media mobile autoregressiva), che è la pietra angolare dell'analisi delle serie temporali stazionarie. ARIMA (modelli di media mobile integrata autoregressiva), invece, sono utilizzati per descrivere serie temporali non stazionarie.

Negli ultimi anni i modelli di serie temporali sono diventati più sofisticati e tentano di modellare l'eteroschedasticità condizionale. Tali modelli includono il modello ARCH ( eteroschedasticità condizionale autoregressiva ) e il modello GARCH (eteroschedasticità condizionale autoregressiva generalizzata), entrambi frequentemente utilizzati per le serie temporali finanziarie.

Analisi della sopravvivenza o della durata

L'analisi di sopravvivenza è un altro nome per l' analisi time-to-event. Queste tecniche sono state sviluppate principalmente nelle scienze mediche e biologiche, ma sono anche ampiamente utilizzate nelle scienze sociali come l'economia e l'ingegneria.

La censura e la non normalità, che sono caratteristiche dei dati di sopravvivenza, generano difficoltà quando si tenta di analizzare i dati utilizzando modelli statistici convenzionali come la regressione lineare multipla . La distribuzione normale , essendo una distribuzione simmetrica, assume valori sia positivi che negativi, ma la durata per sua stessa natura non può essere negativa e quindi la normalità non può essere assunta quando si tratta di dati di durata/sopravvivenza.

I modelli di durata possono essere parametrici, non parametrici o semiparametrici. Alcuni dei modelli comunemente usati sono il modello di rischio proporzionale di Kaplan-Meier e di Cox (non parametrico).

Alberi di classificazione e regressione (CART)

Gli alberi di classificazione e regressione (CART) sono una tecnica di apprendimento dell'albero decisionale non parametrico che produce alberi di classificazione o di regressione, a seconda che la variabile dipendente sia rispettivamente categoriale o numerica.

Gli alberi decisionali sono formati da una raccolta di regole basate su variabili nel set di dati di modellazione:

  • Le regole basate sui valori delle variabili sono selezionate per ottenere la migliore suddivisione per differenziare le osservazioni in base alla variabile dipendente
  • Una volta che una regola è selezionata e divide un nodo in due, lo stesso processo viene applicato a ciascun nodo "figlio" (cioè è una procedura ricorsiva)
  • La suddivisione si interrompe quando CART rileva che non è possibile ottenere ulteriori guadagni o che vengono soddisfatte alcune regole di arresto preimpostate. (In alternativa, i dati vengono divisi il più possibile e quindi l'albero viene successivamente potato .)

Ogni ramo dell'albero termina in un nodo terminale. Ogni osservazione rientra in uno ed esattamente un nodo terminale e ciascun nodo terminale è definito in modo univoco da un insieme di regole.

Un metodo molto popolare per l'analisi predittiva sono le foreste casuali .

Spline di regressione adattativa multivariata

Le spline di regressione adattiva multivariata (MARS) sono una tecnica non parametrica che costruisce modelli flessibili adattando regressioni lineari a tratti .

Multivariata e adattiva regressione approccio spline deliberatamente overfits il modello e poi pota arrivare al modello ottimale. L'algoritmo è computazionalmente molto intensivo e in pratica viene specificato un limite superiore al numero di funzioni di base.

Tecniche di apprendimento automatico

L'apprendimento automatico include una serie di metodi statistici avanzati per la regressione e la classificazione e trova applicazione in un'ampia varietà di campi tra cui diagnostica medica , rilevamento di frodi con carte di credito , riconoscimento facciale e vocale e analisi del mercato azionario .

Utensili

Storicamente, l'utilizzo di strumenti di analisi predittiva e la comprensione dei risultati ottenuti richiedevano competenze avanzate. Tuttavia, i moderni strumenti di analisi predittiva non sono più limitati agli specialisti IT. Man mano che sempre più organizzazioni adottano l'analisi predittiva nei processi decisionali e la integrano nelle loro operazioni, stanno creando uno spostamento nel mercato verso gli utenti aziendali come i principali consumatori delle informazioni. Gli utenti aziendali desiderano strumenti che possono utilizzare da soli. I fornitori stanno rispondendo creando un nuovo software che rimuove la complessità matematica, fornisce interfacce grafiche user-friendly e/o costruisce scorciatoie che possono, ad esempio, riconoscere il tipo di dati disponibili e suggerire un modello predittivo appropriato. Gli strumenti di analisi predittiva sono diventati abbastanza sofisticati da presentare e analizzare adeguatamente i problemi dei dati, in modo che qualsiasi lavoratore esperto di dati possa utilizzarli per analizzare i dati e recuperare risultati utili e significativi. Ad esempio, gli strumenti moderni presentano i risultati utilizzando semplici grafici, grafici e punteggi che indicano la probabilità di possibili risultati.

Ci sono numerosi strumenti disponibili sul mercato che aiutano con l'esecuzione di analisi predittive. Questi vanno da quelli che richiedono pochissima sofisticatezza da parte dell'utente a quelli progettati per il professionista esperto. La differenza tra questi strumenti è spesso nel livello di personalizzazione e nel pesante sollevamento di dati consentito.

PMML

Il Predictive Model Markup Language (PMML) è stato proposto per il linguaggio standard per l'espressione di modelli predittivi. Tale linguaggio basato su XML fornisce ai diversi strumenti un modo per definire modelli predittivi e condividerli. PMML 4.0 è stato rilasciato nel giugno 2009.

Critica

Ci sono molti scettici quando si tratta delle capacità dei computer e degli algoritmi di prevedere il futuro, tra cui Gary King , professore dell'Università di Harvard e direttore dell'Institute for Quantitative Social Science. Le persone sono influenzate dal loro ambiente in innumerevoli modi. Prevedere perfettamente ciò che le persone faranno dopo richiede che tutte le variabili influenti siano conosciute e misurate con precisione. "Gli ambienti delle persone cambiano ancora più rapidamente di quanto non facciano loro stesse. Tutto, dal tempo al rapporto con la madre, può cambiare il modo in cui le persone pensano e agiscono. Tutte queste variabili sono imprevedibili. L'impatto che avranno su una persona è ancora meno prevedibile. Se messi nella stessa identica situazione domani, potrebbero prendere una decisione completamente diversa. Ciò significa che una previsione statistica è valida solo in condizioni di laboratorio sterili, che improvvisamente non sono così utili come sembravano prima".

In uno studio su 1072 articoli pubblicati su Information Systems Research e MIS Quarterly tra il 1990 e il 2006, solo 52 articoli empirici hanno tentato affermazioni predittive, di cui solo 7 hanno effettuato modelli o test predittivi adeguati.

Guarda anche

Riferimenti

Ulteriori letture

  • Agresti, Alan (2002). Analisi dei dati categorici . Hoboken: John Wiley e figli. ISBN 0-471-36093-7.
  • Coggeshall, Stephen, Davies, John, Jones, Roger. e Schutzer, Daniel, "Sistemi di sicurezza intelligenti", in Freedman, Roy S., Flein, Robert A., e Lederman, Jess, editori (1995). Intelligenza artificiale nei mercati dei capitali . Chicago: Irwin. ISBN 1-55738-811-3.CS1 maint: più nomi: elenco autori ( link )
  • L. Devroye; L. Györfi; G. Lugosi (1996). Una teoria probabilistica del riconoscimento dei modelli . New York: Springer-Verlag. ISBN 9781461207115.
  • Enders, Walter (2004). Econometria applicata delle serie temporali . Hoboken: John Wiley e figli. ISBN 0-521-83919-X.
  • Greene, William (2012). Analisi econometrica, 7a ed . Londra: Prentice Hall. ISBN 978-0-13-139538-1.
  • Guidere, Mathieu; Howard N, Sh. Argamo (2009). Analisi linguistica ricca per l'antiterrorismo . Berlino, Londra, New York: Springer-Verlag. ISBN 978-3-642-01140-5.
  • Mitchell, Tom (1997). Apprendimento automatico . New York: McGraw-Hill. ISBN 0-07-042807-7.
  • Siegel, Eric (2016). Analisi predittiva: il potere di prevedere chi farà clic, acquisterà, mentirà o morirà . John Wiley. ISBN 978-119145677.
  • Tukey, John (1977). Analisi esplorativa dei dati . New York: Addison-Wesley. ISBN 0-201-07616-0.
  • Finlay, Steven (2014). Analisi predittiva, data mining e big data. Miti, idee sbagliate e metodi . Basingstoke: Palgrave Macmillan. ISBN 978-1-137-37927-6.
  • Coker, Frank (2014). Pulse: comprendere i segni vitali della tua attività . Bellevue, WA: Pubblicazione di luce ambientale. ISBN 978-0-9893086-0-1.