Recupero delle informazioni - Information retrieval

Il recupero delle informazioni ( IR ) è il processo per ottenere risorse del sistema informativo che sono rilevanti per un bisogno di informazioni da una raccolta di tali risorse. Le ricerche possono essere basate sull'indicizzazione full-text o su altri contenuti. Il recupero delle informazioni è la scienza della ricerca di informazioni in un documento, della ricerca dei documenti stessi e anche della ricerca dei metadati che descrivono i dati e dei database di testi, immagini o suoni.

I sistemi automatizzati di recupero delle informazioni vengono utilizzati per ridurre quello che è stato chiamato sovraccarico di informazioni . Un sistema IR è un sistema software che fornisce l'accesso a libri, riviste e altri documenti; archivia e gestisce tali documenti. I motori di ricerca Web sono le applicazioni IR più visibili.

Panoramica

Un processo di recupero delle informazioni inizia quando un utente inserisce una query nel sistema. Le query sono dichiarazioni formali di esigenze informative, ad esempio stringhe di ricerca nei motori di ricerca web. Nel recupero delle informazioni una query non identifica in modo univoco un singolo oggetto nella raccolta. Al contrario, diversi oggetti possono corrispondere alla query, magari con diversi gradi di pertinenza .

Un oggetto è un'entità rappresentata da informazioni in una raccolta di contenuti o in un database . Le query dell'utente vengono confrontate con le informazioni del database. Tuttavia, a differenza delle classiche query SQL di un database, nel recupero delle informazioni i risultati restituiti possono o meno corrispondere alla query, quindi i risultati vengono generalmente classificati. Questa classifica dei risultati è una differenza fondamentale della ricerca nel recupero delle informazioni rispetto alla ricerca nel database.

A seconda dell'applicazione, gli oggetti dati possono essere, ad esempio, documenti di testo, immagini, audio, mappe mentali o video. Spesso i documenti stessi non sono conservati o archiviati direttamente nel sistema IR, ma sono invece rappresentati nel sistema da surrogati di documenti o metadati .

La maggior parte dei sistemi IR calcola un punteggio numerico su quanto bene ogni oggetto nel database corrisponde alla query e classifica gli oggetti in base a questo valore. Gli oggetti in cima alla classifica vengono quindi mostrati all'utente. Il processo può quindi essere ripetuto se l'utente desidera perfezionare la query.

Storia

c'è ... una macchina chiamata Univac ... per cui lettere e cifre sono codificate come uno schema di punti magnetici su un lungo nastro d'acciaio. In questo modo il testo di un documento, preceduto dal simbolo del codice soggetto, può essere registrato ... la macchina ... seleziona e digita automaticamente quei riferimenti che sono stati codificati nel modo desiderato alla velocità di 120 parole al minuto

—  JE Holmstrom, 1948

L'idea di utilizzare i computer per cercare informazioni rilevanti è stata resa popolare nell'articolo As We May Think di Vannevar Bush nel 1945. Sembrerebbe che Bush sia stato ispirato dai brevetti per una "macchina statistica" - depositati da Emanuel Goldberg negli anni '20 e anni '30 - che cercavano documenti archiviati su pellicola. La prima descrizione di un computer alla ricerca di informazioni è stata descritta da Holmstrom nel 1948, con una prima menzione del computer Univac . Negli anni '50 furono introdotti i sistemi di recupero automatico delle informazioni: uno anche nella commedia romantica del 1957, Desk Set . Negli anni '60, il primo grande gruppo di ricerca sul recupero delle informazioni fu formato da Gerard Salton alla Cornell. Negli anni '70 diverse tecniche di recupero avevano dimostrato di funzionare bene su piccoli corpora di testo come la collezione Cranfield (diverse migliaia di documenti). I sistemi di recupero su larga scala, come il sistema Lockheed Dialog, sono entrati in uso all'inizio degli anni '70.

Nel 1992, il Dipartimento della Difesa degli Stati Uniti insieme al National Institute of Standards and Technology (NIST), ha co-sponsorizzato la Text Retrieval Conference (TREC) come parte del programma di testo TIPSTER. Lo scopo era quello di esaminare la comunità del recupero delle informazioni fornendo l'infrastruttura necessaria per la valutazione delle metodologie di recupero del testo su una raccolta di testi molto ampia. Questo ha catalizzato la ricerca su metodi che si adattano a enormi corpora. L'introduzione dei motori di ricerca web ha aumentato ulteriormente la necessità di sistemi di recupero su larga scala.

Applicazioni

Le aree in cui vengono impiegate le tecniche di recupero delle informazioni includono (le voci sono in ordine alfabetico all'interno di ciascuna categoria):

Applicazioni generali

Applicazioni specifiche del dominio

Altri metodi di recupero

I metodi/tecniche in cui vengono impiegate le tecniche di recupero delle informazioni includono:

Tipi di modello

Categorizzazione dei modelli IR (tradotto dalla voce tedesca , fonte originale Dominik Kuropka ).

Per recuperare efficacemente i documenti rilevanti mediante strategie IR, i documenti vengono tipicamente trasformati in una rappresentazione adeguata. Ogni strategia di recupero incorpora un modello specifico per i suoi scopi di rappresentazione del documento. L'immagine a destra illustra la relazione di alcuni modelli comuni. Nella foto, i modelli sono classificati in base a due dimensioni: la base matematica e le proprietà del modello.

Prima dimensione: basi matematiche

Seconda dimensione: proprietà del modello

  • I modelli senza interdipendenze tra termini trattano termini/parole diversi come indipendenti. Questo fatto è solitamente rappresentato nei modelli di spazio vettoriale dall'assunzione di ortogonalità dei vettori di termine o nei modelli probabilistici da un'assunzione di indipendenza per le variabili di termine.
  • I modelli con interdipendenze immanenti dei termini consentono una rappresentazione delle interdipendenze tra i termini. Tuttavia il grado di interdipendenza tra due termini è definito dal modello stesso. Di solito è derivato direttamente o indirettamente (ad es. per riduzione dimensionale ) dalla co-occorrenza di tali termini nell'intero insieme di documenti.
  • I modelli con interdipendenze tra i termini trascendenti consentono una rappresentazione delle interdipendenze tra i termini, ma non affermano come sia definita l'interdipendenza tra due termini. Si affidano a una fonte esterna per il grado di interdipendenza tra due termini. (Ad esempio, un umano o algoritmi sofisticati.)

Misure di performance e correttezza

La valutazione di un sistema di recupero delle informazioni è il processo di valutazione della capacità di un sistema di soddisfare le esigenze di informazione dei suoi utenti. In generale, la misurazione considera una raccolta di documenti da ricercare e una query di ricerca. Le metriche di valutazione tradizionali, progettate per il recupero booleano o il recupero top-k, includono precisione e richiamo . Tutte le misure presuppongono una nozione di pertinenza di verità fondamentale : è noto che ogni documento è pertinente o non pertinente a una particolare query. In pratica, le query possono essere mal poste e possono esserci diverse sfumature di pertinenza.

Sequenza temporale

  • Prima del 1900
    1801 : Joseph Marie Jacquard inventa il telaio Jacquard , la prima macchina ad utilizzare schede perforate per controllare una sequenza di operazioni.
    1880 : Herman Hollerith inventa un tabulatore di dati elettromeccanico utilizzando schede perforate come supporto leggibile da una macchina.
    Schede Hollerith del 1890 , chiavi perforatrici e tabulatori utilizzati per elaborare i dati del censimento degli Stati Uniti del 1890 .
  • 1920-1930
    Emanuel Goldberg presenta i brevetti per la sua "Macchina statistica", un motore di ricerca di documenti che utilizzava cellule fotoelettriche e riconoscimento di modelli per cercare i metadati su rotoli di documenti microfilmati.
  • 1940-1950
    fine degli anni '40 : l'esercito americano ha dovuto affrontare problemi di indicizzazione e recupero di documenti di ricerca scientifica in tempo di guerra catturati dai tedeschi.
    1945 : As We May Think di Vannevar Bush è apparso sull'Atlantic Monthly .
    1947 : Hans Peter Luhn (ingegnere di ricerca presso IBM dal 1941) inizia a lavorare su un sistema meccanizzato basato su schede perforate per la ricerca di composti chimici.
    Anni '50 : La crescente preoccupazione negli Stati Uniti per un "divario scientifico" con l'URSS motivava, incoraggiava i finanziamenti e forniva uno sfondo per i sistemi di ricerca meccanizzata della letteratura ( Allen Kent et al. ) e l'invenzione dell'indice di citazione di Eugene Garfield .
    1950 : Il termine "recupero delle informazioni" è stato coniato da Calvin Mooers .
    1951 : Philip Bagley condusse il primo esperimento di recupero computerizzato di documenti in una tesi di laurea al MIT .
    1955 : Allen Kent entra a far parte della Case Western Reserve University e alla fine diventa direttore associato del Center for Documentation and Communications Research. Nello stesso anno, Kent e colleghi pubblicarono un articolo su American Documentation che descriveva le misure di precisione e di richiamo e descriveva in dettaglio un "quadro" proposto per la valutazione di un sistema IR che includeva metodi di campionamento statistico per determinare il numero di documenti rilevanti non recuperati.
    1958 : Conferenza Internazionale sull'Informazione Scientifica di Washington DC ha incluso la considerazione dei sistemi IR come soluzione ai problemi identificati. Vedi: Atti della Conferenza Internazionale sull'Informazione Scientifica, 1958 (National Academy of Sciences, Washington, DC, 1959)
    1959 : Hans Peter Luhn pubblica "Codifica automatica dei documenti per il recupero delle informazioni".
  • anni '60 :
    primi anni '60 : Gerard Salton iniziò a lavorare sull'IR ad Harvard, poi si trasferì a Cornell.
    1960 : Melvin Earl Maron e John Lary Kuhns pubblicano "Sull'importanza, l'indicizzazione probabilistica e il recupero delle informazioni" nel Journal of the ACM 7(3):216–244, luglio 1960.
    1962 :
    • Cyril W. Cleverdon ha pubblicato i primi risultati degli studi di Cranfield, sviluppando un modello per la valutazione del sistema IR. Vedi: Cyril W. Cleverdon, "Rapporto sui test e l'analisi di un'indagine sull'efficienza comparativa dei sistemi di indicizzazione". Cranfield Collection of Aeronautics, Cranfield, Inghilterra, 1962.
    • Kent ha pubblicato Analisi e recupero delle informazioni .
    1963 :
    • Il rapporto di Weinberg "Scienza, governo e informazione" ha dato un'articolazione completa dell'idea di una "crisi dell'informazione scientifica". Il rapporto prende il nome dal Dr. Alvin Weinberg .
    • Joseph Becker e Robert M. Hayes hanno pubblicato un testo sul recupero delle informazioni. Becker, Giuseppe; Hayes, Robert Mayo. Archiviazione e recupero delle informazioni: strumenti, elementi, teorie . New York, Wiley (1963).
    1964 :
    • Karen Spärck Jones ha terminato la sua tesi a Cambridge, Synonymy and Semantic Classification e ha continuato a lavorare sulla linguistica computazionale applicata all'IR.
    • Il National Bureau of Standards ha sponsorizzato un simposio intitolato "Metodi dell'associazione statistica per la documentazione meccanizzata". Diversi documenti altamente significativi, incluso il primo riferimento pubblicato di G. Salton (crediamo) al sistema SMART .
    metà degli anni '60 :
    • La National Library of Medicine ha sviluppato MEDLARS Medical Literature Analysis and Retrieval System, il primo grande database leggibile dalla macchina e sistema di recupero batch.
    • Progetto Intrex al MIT.
    1965 : JCR Licklider pubblica Biblioteche del futuro .
    1966 : Don Swanson è stato coinvolto in studi presso l'Università di Chicago sui requisiti per i cataloghi futuri.
    fine anni '60 : F. Wilfrid Lancaster completa gli studi di valutazione del sistema MEDLARS e pubblica la prima edizione del suo testo sul recupero delle informazioni.
    1968 :
    • Gerard Salton ha pubblicato l' Organizzazione e il recupero automatico delle informazioni .
    • Il rapporto RADC Tech di John W. Sammon, Jr. "Some Mathematics of Information Storage and Retrieval..." ha delineato il modello vettoriale.
    1969 : " Una mappatura non lineare per l'analisi della struttura dei dati " (IEEE Transactions on Computers) di Sammon è stata la prima proposta di interfaccia di visualizzazione per un sistema IR.
  • anni '70
    primi anni '70 :
    • Primi sistemi online: AIM-TWX di NLM, MEDLINE; il dialogo di Lockheed; ORBITA DELLA DSC.
    • Theodor Nelson promuove il concetto di ipertesto , pubblica Computer Lib/Dream Machines .
    1971 : Nicholas Jardine e Cornelis J. van Rijsbergen pubblicano "L'uso del raggruppamento gerarchico nel recupero delle informazioni", che articola l'"ipotesi del cluster".
    1975 : Tre pubblicazioni altamente influenti di Salton hanno articolato completamente la sua struttura di elaborazione vettoriale e il modello di discriminazione dei termini :
    • Una teoria dell'indicizzazione (Società per la matematica industriale e applicata)
    • Una teoria dell'importanza dei termini nell'analisi automatica del testo ( JASIS v. 26)
    • Un modello spaziale vettoriale per l'indicizzazione automatica ( CACM 18:11)
    1978 : Primo convegno ACM SIGIR .
    1979 : CJ van Rijsbergen pubblica Information Retrieval (Butterworths). Grande enfasi sui modelli probabilistici.
    1979 : Tamas Doszkocs ha implementato l' interfaccia utente in linguaggio naturale CITE per MEDLINE presso la National Library of Medicine. Il sistema CITE supportava l'input di query in forma libera, l'output classificato e il feedback sulla pertinenza.
  • anni '80
    1980 : Prima conferenza internazionale ACM SIGIR, congiunta con il gruppo IR della British Computer Society a Cambridge.
    1982 : Nicholas J. Belkin , Robert N. Oddy e Helen M. Brooks hanno proposto il punto di vista ASK (Anomalous State of Knowledge) per il recupero delle informazioni. Questo era un concetto importante, anche se il loro strumento di analisi automatizzata si è rivelato alla fine deludente.
    1983 : Salton (e Michael J. McGill) pubblicano Introduction to Modern Information Retrieval (McGraw-Hill), con forte enfasi sui modelli vettoriali.
    1985 : David Blair e Bill Maron pubblicano: An Evaluation of Retrieval Effectiveness for a Full-Text Document-Retreval System
    metà degli anni '80 : sforzi per sviluppare versioni per utenti finali di sistemi IR commerciali.
    1985-1993 : articoli chiave e sistemi sperimentali per interfacce di visualizzazione.
    Opera di Donald B. Crouch , Robert R. Korfhage , Matthew Chalmers, Anselm Spoerri e altri.
    1989 : Prime proposte del World Wide Web di Tim Berners-Lee al CERN .
  • anni '90
    1992 : Prima conferenza TREC .
    1997 : Pubblicazione di Korfhage 's Information Storage and Retrieval con enfasi sulla visualizzazione e sui sistemi di punti di riferimento multipli.
    1999 : Pubblicazione del Modern Information Retrieval di Ricardo Baeza-Yates e Berthier Ribeiro-Neto di Addison Wesley, il primo libro che tenta di coprire tutte le IR.
    fine degli anni '90 : implementazione dei motori di ricerca Web di molte funzionalità precedentemente presenti solo nei sistemi IR sperimentali. I motori di ricerca diventano la più comune e forse la migliore istanza dei modelli IR.

Grandi conferenze

Premi in campo

Guarda anche

Riferimenti

Ulteriori letture

link esterno