Recupero delle informazioni - Information retrieval

Il recupero delle informazioni ( IR ) è il processo per ottenere risorse del sistema informativo che sono rilevanti per un bisogno di informazioni da una raccolta di tali risorse. Le ricerche possono essere basate sull'indicizzazione full-text o su altri contenuti. Il recupero delle informazioni è la scienza della ricerca di informazioni in un documento, della ricerca dei documenti stessi e anche della ricerca dei metadati che descrivono i dati e dei database di testi, immagini o suoni.

I sistemi automatizzati di recupero delle informazioni vengono utilizzati per ridurre quello che è stato chiamato sovraccarico di informazioni . Un sistema IR è un sistema software che fornisce l'accesso a libri, riviste e altri documenti; archivia e gestisce tali documenti. I motori di ricerca Web sono le applicazioni IR più visibili.

Panoramica

Un processo di recupero delle informazioni inizia quando un utente inserisce una query nel sistema. Le query sono dichiarazioni formali di esigenze informative, ad esempio stringhe di ricerca nei motori di ricerca web. Nel recupero delle informazioni una query non identifica in modo univoco un singolo oggetto nella raccolta. Al contrario, diversi oggetti possono corrispondere alla query, magari con diversi gradi di pertinenza .

Un oggetto è un'entità rappresentata da informazioni in una raccolta di contenuti o in un database . Le query dell'utente vengono confrontate con le informazioni del database. Tuttavia, a differenza delle classiche query SQL di un database, nel recupero delle informazioni i risultati restituiti possono o meno corrispondere alla query, quindi i risultati vengono generalmente classificati. Questa classifica dei risultati è una differenza fondamentale della ricerca nel recupero delle informazioni rispetto alla ricerca nel database.

A seconda dell'applicazione, gli oggetti dati possono essere, ad esempio, documenti di testo, immagini, audio, mappe mentali o video. Spesso i documenti stessi non sono conservati o archiviati direttamente nel sistema IR, ma sono invece rappresentati nel sistema da surrogati di documenti o metadati .

La maggior parte dei sistemi IR calcola un punteggio numerico su quanto bene ogni oggetto nel database corrisponde alla query e classifica gli oggetti in base a questo valore. Gli oggetti in cima alla classifica vengono quindi mostrati all'utente. Il processo può quindi essere ripetuto se l'utente desidera perfezionare la query.

Storia

c'è ... una macchina chiamata Univac ... per cui lettere e cifre sono codificate come uno schema di punti magnetici su un lungo nastro d'acciaio. In questo modo il testo di un documento, preceduto dal simbolo del codice soggetto, può essere registrato ... la macchina ... seleziona e digita automaticamente quei riferimenti che sono stati codificati nel modo desiderato alla velocità di 120 parole al minuto

— JE Holmstrom, 1948

L'idea di utilizzare i computer per cercare informazioni rilevanti è stata resa popolare nell'articolo As We May Think di Vannevar Bush nel 1945. Sembrerebbe che Bush sia stato ispirato dai brevetti per una "macchina statistica" - depositati da Emanuel Goldberg negli anni '20 e anni '30 - che cercavano documenti archiviati su pellicola. La prima descrizione di un computer alla ricerca di informazioni è stata descritta da Holmstrom nel 1948, con una prima menzione del computer Univac . Negli anni '50 furono introdotti i sistemi di recupero automatico delle informazioni: uno anche nella commedia romantica del 1957, Desk Set . Negli anni '60, il primo grande gruppo di ricerca sul recupero delle informazioni fu formato da Gerard Salton alla Cornell. Negli anni '70 diverse tecniche di recupero avevano dimostrato di funzionare bene su piccoli corpora di testo come la collezione Cranfield (diverse migliaia di documenti). I sistemi di recupero su larga scala, come il sistema Lockheed Dialog, sono entrati in uso all'inizio degli anni '70.

Nel 1992, il Dipartimento della Difesa degli Stati Uniti insieme al National Institute of Standards and Technology (NIST), ha co-sponsorizzato la Text Retrieval Conference (TREC) come parte del programma di testo TIPSTER. Lo scopo era quello di esaminare la comunità del recupero delle informazioni fornendo l'infrastruttura necessaria per la valutazione delle metodologie di recupero del testo su una raccolta di testi molto ampia. Questo ha catalizzato la ricerca su metodi che si adattano a enormi corpora. L'introduzione dei motori di ricerca web ha aumentato ulteriormente la necessità di sistemi di recupero su larga scala.

Applicazioni

Le aree in cui vengono impiegate le tecniche di recupero delle informazioni includono (le voci sono in ordine alfabetico all'interno di ciascuna categoria):

Applicazioni generali

Biblioteche digitali
Filtraggio delle informazioni
- Sistemi di raccomandazione
Ricerca multimediale
- Ricerca nel blog
- Recupero immagini
- Recupero 3D
- Recupero della musica
- Ricerca di notizie
- Recupero del parlato
- Recupero video
Motori di ricerca

Applicazioni specifiche del dominio

Ricerca di esperti
Recupero di informazioni genomiche
Recupero delle informazioni geografiche
Recupero di informazioni per strutture chimiche
Recupero delle informazioni nell'ingegneria del software
Recupero delle informazioni legali
Ricerca verticale

Altri metodi di recupero

I metodi/tecniche in cui vengono impiegate le tecniche di recupero delle informazioni includono:

Tipi di modello

Categorizzazione dei modelli IR (tradotto dalla voce tedesca , fonte originale Dominik Kuropka ).

Per recuperare efficacemente i documenti rilevanti mediante strategie IR, i documenti vengono tipicamente trasformati in una rappresentazione adeguata. Ogni strategia di recupero incorpora un modello specifico per i suoi scopi di rappresentazione del documento. L'immagine a destra illustra la relazione di alcuni modelli comuni. Nella foto, i modelli sono classificati in base a due dimensioni: la base matematica e le proprietà del modello.

Prima dimensione: basi matematiche

I modelli della teoria degli insiemi rappresentano i documenti come insiemi
di parole o frasi. Le somiglianze sono di solito derivate da operazioni di teoria degli insiemi su quegli insiemi. I modelli comuni sono:
I modelli algebrici rappresentano documenti e query solitamente come vettori, matrici o tuple. La somiglianza tra il vettore della query e il vettore del documento è rappresentata come un valore scalare.
I modelli probabilistici trattano il processo di recupero dei documenti come un'inferenza probabilistica. Le somiglianze sono calcolate come probabilità che un documento sia rilevante per una data query. Teoremi probabilistici come il teorema di Bayes sono spesso usati in questi modelli.
- Modello di indipendenza binaria
- Modello di rilevanza probabilistica su cui si basa la funzione di pertinenza okapi (BM25)
- Inferenza incerta
- Modelli linguistici
- Modello di divergenza dalla casualità
- Allocazione di Dirichlet latente
I modelli di recupero basati sulle caratteristiche visualizzano i documenti come vettori di valori delle funzioni delle caratteristiche (o semplicemente caratteristiche ) e cercano il modo migliore per combinare queste caratteristiche in un unico punteggio di pertinenza, in genere imparando a classificare i metodi. Le funzioni di funzionalità sono funzioni arbitrarie di documento e query e, in quanto tali, possono facilmente incorporare quasi tutti gli altri modelli di recupero come un'altra funzionalità.

Seconda dimensione: proprietà del modello

I modelli senza interdipendenze tra termini trattano termini/parole diversi come indipendenti. Questo fatto è solitamente rappresentato nei modelli di spazio vettoriale dall'assunzione di ortogonalità dei vettori di termine o nei modelli probabilistici da un'assunzione di indipendenza per le variabili di termine.
I modelli con interdipendenze immanenti dei termini consentono una rappresentazione delle interdipendenze tra i termini. Tuttavia il grado di interdipendenza tra due termini è definito dal modello stesso. Di solito è derivato direttamente o indirettamente (ad es. per riduzione dimensionale ) dalla co-occorrenza di tali termini nell'intero insieme di documenti.
I modelli con interdipendenze tra i termini trascendenti consentono una rappresentazione delle interdipendenze tra i termini, ma non affermano come sia definita l'interdipendenza tra due termini. Si affidano a una fonte esterna per il grado di interdipendenza tra due termini. (Ad esempio, un umano o algoritmi sofisticati.)

Misure di performance e correttezza

La valutazione di un sistema di recupero delle informazioni è il processo di valutazione della capacità di un sistema di soddisfare le esigenze di informazione dei suoi utenti. In generale, la misurazione considera una raccolta di documenti da ricercare e una query di ricerca. Le metriche di valutazione tradizionali, progettate per il recupero booleano o il recupero top-k, includono precisione e richiamo . Tutte le misure presuppongono una nozione di pertinenza di verità fondamentale : è noto che ogni documento è pertinente o non pertinente a una particolare query. In pratica, le query possono essere mal poste e possono esserci diverse sfumature di pertinenza.

Sequenza temporale

Prima del 1900

1801 : Joseph Marie Jacquard inventa il telaio Jacquard , la prima macchina ad utilizzare schede perforate per controllare una sequenza di operazioni.

1880 : Herman Hollerith inventa un tabulatore di dati elettromeccanico utilizzando schede perforate come supporto leggibile da una macchina.

Schede Hollerith del 1890 , chiavi perforatrici e tabulatori utilizzati per elaborare i dati del censimento degli Stati Uniti del 1890 .
1920-1930
Emanuel Goldberg presenta i brevetti per la sua "Macchina statistica", un motore di ricerca di documenti che utilizzava cellule fotoelettriche e riconoscimento di modelli per cercare i metadati su rotoli di documenti microfilmati.
1940-1950

fine degli anni '40 : l'esercito americano ha dovuto affrontare problemi di indicizzazione e recupero di documenti di ricerca scientifica in tempo di guerra catturati dai tedeschi.

1945 : As We May Think di Vannevar Bush è apparso sull'Atlantic Monthly .

1947 : Hans Peter Luhn (ingegnere di ricerca presso IBM dal 1941) inizia a lavorare su un sistema meccanizzato basato su schede perforate per la ricerca di composti chimici.

Anni '50 : La crescente preoccupazione negli Stati Uniti per un "divario scientifico" con l'URSS motivava, incoraggiava i finanziamenti e forniva uno sfondo per i sistemi di ricerca meccanizzata della letteratura ( Allen Kent et al. ) e l'invenzione dell'indice di citazione di Eugene Garfield .

1950 : Il termine "recupero delle informazioni" è stato coniato da Calvin Mooers .

1951 : Philip Bagley condusse il primo esperimento di recupero computerizzato di documenti in una tesi di laurea al MIT .

1955 : Allen Kent entra a far parte della Case Western Reserve University e alla fine diventa direttore associato del Center for Documentation and Communications Research. Nello stesso anno, Kent e colleghi pubblicarono un articolo su American Documentation che descriveva le misure di precisione e di richiamo e descriveva in dettaglio un "quadro" proposto per la valutazione di un sistema IR che includeva metodi di campionamento statistico per determinare il numero di documenti rilevanti non recuperati.

1958 : Conferenza Internazionale sull'Informazione Scientifica di Washington DC ha incluso la considerazione dei sistemi IR come soluzione ai problemi identificati. Vedi: Atti della Conferenza Internazionale sull'Informazione Scientifica, 1958 (National Academy of Sciences, Washington, DC, 1959)

1959 : Hans Peter Luhn pubblica "Codifica automatica dei documenti per il recupero delle informazioni".
anni '60 :
primi anni '60 : Gerard Salton iniziò a lavorare sull'IR ad Harvard, poi si trasferì a Cornell.

1960 : Melvin Earl Maron e John Lary Kuhns pubblicano "Sull'importanza, l'indicizzazione probabilistica e il recupero delle informazioni" nel Journal of the ACM 7(3):216–244, luglio 1960.
1962 :
- Cyril W. Cleverdon ha pubblicato i primi risultati degli studi di Cranfield, sviluppando un modello per la valutazione del sistema IR. Vedi: Cyril W. Cleverdon, "Rapporto sui test e l'analisi di un'indagine sull'efficienza comparativa dei sistemi di indicizzazione". Cranfield Collection of Aeronautics, Cranfield, Inghilterra, 1962.
- Kent ha pubblicato Analisi e recupero delle informazioni .
1963 :
- Il rapporto di Weinberg "Scienza, governo e informazione" ha dato un'articolazione completa dell'idea di una "crisi dell'informazione scientifica". Il rapporto prende il nome dal Dr. Alvin Weinberg .
- Joseph Becker e Robert M. Hayes hanno pubblicato un testo sul recupero delle informazioni. Becker, Giuseppe; Hayes, Robert Mayo. Archiviazione e recupero delle informazioni: strumenti, elementi, teorie . New York, Wiley (1963).
1964 :
- Karen Spärck Jones ha terminato la sua tesi a Cambridge, Synonymy and Semantic Classification e ha continuato a lavorare sulla linguistica computazionale applicata all'IR.
- Il National Bureau of Standards ha sponsorizzato un simposio intitolato "Metodi dell'associazione statistica per la documentazione meccanizzata". Diversi documenti altamente significativi, incluso il primo riferimento pubblicato di G. Salton (crediamo) al sistema SMART .
metà degli anni '60 :
La National Library of Medicine ha sviluppato MEDLARS Medical Literature Analysis and Retrieval System, il primo grande database leggibile dalla macchina e sistema di recupero batch.

Progetto Intrex al MIT.
1965 : JCR Licklider pubblica Biblioteche del futuro .

1966 : Don Swanson è stato coinvolto in studi presso l'Università di Chicago sui requisiti per i cataloghi futuri.
fine anni '60 : F. Wilfrid Lancaster completa gli studi di valutazione del sistema MEDLARS e pubblica la prima edizione del suo testo sul recupero delle informazioni.
1968 :
- Gerard Salton ha pubblicato l' Organizzazione e il recupero automatico delle informazioni .
- Il rapporto RADC Tech di John W. Sammon, Jr. "Some Mathematics of Information Storage and Retrieval..." ha delineato il modello vettoriale.
1969 : " Una mappatura non lineare per l'analisi della struttura dei dati " (IEEE Transactions on Computers) di Sammon è stata la prima proposta di interfaccia di visualizzazione per un sistema IR.
anni '70
primi anni '70 :
Primi sistemi online: AIM-TWX di NLM, MEDLINE; il dialogo di Lockheed; ORBITA DELLA DSC.

Theodor Nelson promuove il concetto di ipertesto , pubblica Computer Lib/Dream Machines .
1971 : Nicholas Jardine e Cornelis J. van Rijsbergen pubblicano "L'uso del raggruppamento gerarchico nel recupero delle informazioni", che articola l'"ipotesi del cluster".
1975 : Tre pubblicazioni altamente influenti di Salton hanno articolato completamente la sua struttura di elaborazione vettoriale e il modello di discriminazione dei termini :
Una teoria dell'indicizzazione (Società per la matematica industriale e applicata)

Una teoria dell'importanza dei termini nell'analisi automatica del testo ( JASIS v. 26)

Un modello spaziale vettoriale per l'indicizzazione automatica ( CACM 18:11)
1978 : Primo convegno ACM SIGIR .

1979 : CJ van Rijsbergen pubblica Information Retrieval (Butterworths). Grande enfasi sui modelli probabilistici.

1979 : Tamas Doszkocs ha implementato l' interfaccia utente in linguaggio naturale CITE per MEDLINE presso la National Library of Medicine. Il sistema CITE supportava l'input di query in forma libera, l'output classificato e il feedback sulla pertinenza.
anni '80

1980 : Prima conferenza internazionale ACM SIGIR, congiunta con il gruppo IR della British Computer Society a Cambridge.

1982 : Nicholas J. Belkin , Robert N. Oddy e Helen M. Brooks hanno proposto il punto di vista ASK (Anomalous State of Knowledge) per il recupero delle informazioni. Questo era un concetto importante, anche se il loro strumento di analisi automatizzata si è rivelato alla fine deludente.

1983 : Salton (e Michael J. McGill) pubblicano Introduction to Modern Information Retrieval (McGraw-Hill), con forte enfasi sui modelli vettoriali.

1985 : David Blair e Bill Maron pubblicano: An Evaluation of Retrieval Effectiveness for a Full-Text Document-Retreval System

metà degli anni '80 : sforzi per sviluppare versioni per utenti finali di sistemi IR commerciali.

1985-1993 : articoli chiave e sistemi sperimentali per interfacce di visualizzazione.

Opera di Donald B. Crouch , Robert R. Korfhage , Matthew Chalmers, Anselm Spoerri e altri.

1989 : Prime proposte del World Wide Web di Tim Berners-Lee al CERN .
anni '90

1992 : Prima conferenza TREC .

1997 : Pubblicazione di Korfhage 's Information Storage and Retrieval con enfasi sulla visualizzazione e sui sistemi di punti di riferimento multipli.

1999 : Pubblicazione del Modern Information Retrieval di Ricardo Baeza-Yates e Berthier Ribeiro-Neto di Addison Wesley, il primo libro che tenta di coprire tutte le IR.

fine degli anni '90 : implementazione dei motori di ricerca Web di molte funzionalità precedentemente presenti solo nei sistemi IR sperimentali. I motori di ricerca diventano la più comune e forse la migliore istanza dei modelli IR.

Grandi conferenze

Premi in campo

Guarda anche

Recupero delle informazioni in contraddittorio – Strategie di recupero delle informazioni nei set di dati
Memoria del computer : dispositivo utilizzato su un computer per la memorizzazione dei dati
Vocabolario controllato
Recupero di informazioni in più lingue
Data mining – Processo di estrazione e scoperta di modelli in grandi set di dati
Scuola estiva europea nel recupero delle informazioni
Recupero di informazioni uomo-computer (HCIR)
Estrazione di informazioni: estrazione automatica di informazioni strutturate da documenti leggibili da una macchina non strutturati o semi-strutturati, come testi in linguaggio umano
Ricerca di informazioni – Processo o attività di tentativo di ottenere informazioni in contesti sia umani che tecnologici
- Ricerca di informazioni § Rispetto al recupero di informazioni
- Ricerca collaborativa di informazioni
- Ricerca di informazioni sociali
Funzione di recupero delle informazioni
Visualizzazione della conoscenza
Recupero di informazioni multimediali
Gestione delle informazioni personali
Comprensione della query
Rilevanza (recupero delle informazioni)
Feedback sulla pertinenza
Classificazione Rocchio
Indicizzazione sui motori di ricerca
Gruppo di interesse speciale sul recupero delle informazioni
Indicizzazione per soggetto
Recupero di informazioni temporali
tf–idf – numero che riflette l'importanza di una parola per un documento in un corpus
Recupero XML
Estrazione web

Riferimenti

Ulteriori letture

Ricardo Baeza-Yates, Berthier Ribeiro-Neto. Recupero delle informazioni moderne: i concetti e la tecnologia alla base della ricerca (seconda edizione) . Addison-Wesley, Regno Unito, 2011.
Stefan Büttcher, Charles LA Clarke e Gordon V. Cormack. Recupero delle informazioni: implementazione e valutazione dei motori di ricerca . MIT Press, Cambridge, Massachusetts, 2010.
"Sistema di recupero delle informazioni" . Biblioteca e rete di scienza dell'informazione . 24 aprile 2015.
Christopher D. Manning, Prabhakar Raghavan e Hinrich Schütze. Introduzione al recupero delle informazioni . Cambridge University Press, 2008.

Languages

In other projects