Pagina 2 di 4

Re: Corso di information retrieval

MessaggioInviato: 05 mag 2008, 21:47
di diegofio
grassie

Re: Corso di information retrieval

MessaggioInviato: 10 mag 2008, 13:34
di diegofio
LEZIONE #3: INDICIZZAZIONE

Dopo aver introdotto i concetti principali vediamo come funziona un sistema di reperimento dell'informazione. Abbiamo detto sinora che i documenti sono spesso veramente tanti, contengono una valanga di informazione e che l'utente non sempre si comporta nel modo che noi vogliamo. Dobbiamo perciò trovare un modo per far interagire sistema automatico e persona in breve tempo e con la massima efficacia.

Risulta evidente che come appena accennato sarebbe impossibile ricercare in tempi brevi l'informazione all'interno di migliaia e più documenti, urge trovare un metodo valido. Il primo che probabilmente vi verrà in mente è quello corretto: si fa una sorta di riassunto del contenuto informativo di ciascun documento della collezione. Come è possibile fare questo riassunto? Semplicemente per ciascun documento si prendono le parole chiave, quelle che meglio identificano quale informazione porta il documento. Ad esempo in un documento che parlerà degli interessi di snakeita probabilmente la parola second life rivestirà un ruolo importante e ben descriverà il contenuto informativo del documento (sempre che possa esistere un documento del genere :lol: ).
Va da se' che questa fase, chiamata indicizzazione riveste un ruolo fondamentale, anzi diciamo pure che è quella più importante: se scegliete male le parole chiave, probabilmente documenti che sarebbero rilevanti per la ricerca dell'utente non verrebbero nemmeno reperiti perchè associati a descrittori (le parole chiave, appunto) che male identificano ciò che il documento contiene.

Il risultato dell'indicizzazione come potete intuire è un indice, ovvero una particolare struttura che per ogni parola chiave associa tutti i documenti che in qualche modo c'entrano con essa. Come un descrittore può essere associato a uno o più documenti, ovviamente ad un documento saranno associati uno o più descittori (in un documento su snake avremo second life, schede video, gn***a, pc, giochi, eccetera).

Questo indice deve essere realizzato in modo che la ricerca in esso sia estremamente veloce, il tempo di accesso al descrittore deve essere più fulmineo possibile. Per chi ha dimestichezza, si usano in questo caso alberi e tabelle hash e il tutto (non la collezione ovviamente) sta in memoria centrale (la RAM): questo vale sicuramente per i singoli descrittori, mentre le liste che ad ognuno associano i vari documenti spesso sono su disco assieme ai documenti stessi, per problemi di spazio.

Re: Corso di information retrieval

MessaggioInviato: 10 mag 2008, 14:29
di Ibanez89
interessante... quindi gli indici vengono contenuti in ram? Non ho ben capito quest'ultimo passaggio

Re: Corso di information retrieval

MessaggioInviato: 10 mag 2008, 15:26
di diegofio
i descrittori, ovvero le singole parole chiave vengono tenute in ram. la struttura che li collega ai documenti (praticamente vedilo come un array per ogni descrittore in cui ad ogni cella corrisponde un documento che contiene quel descrittore) viene mantenuto nella maggior parte dei casi su disco.
con indice si intende tutta la struttura, quindi per rispondere alla tua domanda una parte sta in ram l'altra su disco

Re: Corso di information retrieval

MessaggioInviato: 10 mag 2008, 16:07
di Ibanez89
grazie mille...

Re: Corso di information retrieval

MessaggioInviato: 11 mag 2008, 20:27
di Galai
ero rimasto un po' indietro... molto molto interessante diego :D

Re: Corso di information retrieval

MessaggioInviato: 16 mag 2008, 16:00
di diegofio
LEZIONE #4: L'INTERROGAZIONE DELL'UTENTE

Abbiamo visto che per ricercare all'interno di grandi quantità di dati sono necessarie delle strutture che raccolgano le informazioni fondamentali contenuti all'interno della collezione. Queste strutture sono chiamate indici che contengono le parole chiave denominate descrittori.

Avrete probabilmente intuito che esiste una sorta di simmetria in un sistema di reperimento dell'informazione tra utente e macchina o meglio, tra client e server: da una parte l'utente che ricerca informazioni (il client) dall'altro il sistema che cerca di scovarle in breve tempo e in modo efficace (il server). Dopo aver riassunto cosa accade a lato server vediamo ora che processi esistono a lato cliente.
L'utente come ovvio si assume (sempre in informatica occorre studiare il caso peggiore) non sappia una mazza: formulerà la sua richiesta (interrogazione) nel modo che a lui è più consono, ovvero nel suo linguaggio naturale. Da questa il sistema deve essere in grado di effettuare una interpretazione e di conseguenza ricavare le informazioni.

Capite bene che il compito è molto difficile, pensate ad esempio agli errori di ortografia, alla gestione dei sinonimi o alla polisemia (stessa parola più significati), cose che si differenziano a loro volta per ogni diversa lingua del pianeta. Se uno cerca "Ibanez" si rivolge all'ambito musicale o al noto utente di amdplanet? Boh!
Quello che si fa in sostanza è lo stesso procedimento che è attuato sulla collezione, ovvero si divide la frase inserita dall'utente in tanti termini (ad esempio le parole che la compongono, ma anche combinazioni di più parole). Quello che se ne fa è molto semplice: ottenuti i termini, basterà confrontarli con i descrittori presenti nel nostro indice (e ricordiamo estrapolati dalla collezione); sappiamo che ad ogni descrittore abbiamo la lista dei documenti che lo contengono. Bene, se il descrittore appare anche nell'interrogazione dell'utete inviamo come risultato i documenti che fanno parte di quella lista.
Questo è un primo scheletro del funzionamento di un sistema di reperimento dell'informazione, il tutto come vedremo potrà essere raffinato in funzione di ottenere una maggiore efficacia. Infatti per quello che abbiamo visto sinora se un utente invia l'interrogazione "Golf" gli verranno restituiti dal sistema tutti i documenti che contengono il descrittore "Golf": posso ottenere documenti della collezione che trattano dello sport, ma anche della nota automobile, dell'abbigliamento.... insomma non un mostro di efficacia.

Lo so che stai provando a cercare "Golf" su google :lol:

Re: Corso di information retrieval

MessaggioInviato: 16 mag 2008, 16:02
di diegofio
se non capite qualcosa chiedete mi pare sia tutto molto semplice come avevo scritto prima di iniziare ;)

Re: Corso di information retrieval

MessaggioInviato: 16 mag 2008, 22:19
di Ibanez89
bella :p aspettiamo le prossime :)

Re: Corso di information retrieval

MessaggioInviato: 17 mag 2008, 10:02
di Galai
si si.. tutto chiaro e semplice..

Re: Corso di information retrieval

MessaggioInviato: 17 mag 2008, 22:37
di jed
grande !! grazie alle tue lezioni diverse cose adesso sono molto piu' chiare :D :D molto interessante ed istruttivo.... bravo =D> =D>

Re: Corso di information retrieval

MessaggioInviato: 18 mag 2008, 22:59
di diegofio
esagerato..grazie

Re: Corso di information retrieval

MessaggioInviato: 24 mag 2008, 12:05
di diegofio
LEZIONE #5: VISIONE DI INSIEME

Allora spero la prof non sia iscritta ad amdplanet perchè inserisco una immagine del suo libro:
0006.jpeg
Schema del processo di reperimento dell'informazione
0006.jpeg (26.45 KIB) Osservato 25432 volte

scusate la qualità ma così resta leggera.
Quello che vedete sopra è per l'appunto lo schema di un sistema di reperimento, in questo modo possiamo riassumere quanto detto sinora: come vedete e come detto in precedenza tra utente (a sinistra) e sistema (a destra) la struttura è simmetrica, infatti questo schema viene detto "ad U".
A sinistra vediamo un utente che presenta una esigenza informativa, ovvero vuole ricercare qualcosa all'interno di una collezione di documenti che si trovano dall'altro lato della figura. Attraverso l'ormai noto processo di indicizzazione viene prodotto un indice che rappresenta il contenuto informativo di tutta la collezione (bene o male, questo dipende da come viene fatta l'indicizzazione): come sappiamo il risultato è una serie di termini (descrittori) collegate mediante una struttura dati ai documenti che li contengono.
Dall'altra parte abbiamo il processo simmetrico che agisce sulla stringa di testo inserita dall'utente: viene analizzata e su di essa si ricavano altri descrittori; a questo punto rimane da fare il confronto tra i descrittori presenti nell'indice della collezione e quelli ricavati dall'interrogazione dell'utente, se ne vengono trovati di uguali, il sistema reperisce i documenti ad essi associati e li restituisce all'utente.

Altra immagine di bassa qualità [bigsmile] :
0007.jpeg
Elementi e processi del reperimento dell'informazione
0007.jpeg (18.75 KIB) Osservato 25431 volte

dovete fare un piccolo sforzo perchè in questa immagine che come al solito presenta una simmetria, l'utente sta a destra e il server a sinistra, a differenza di quella precedente dove avveniva il contrario.
Prima di spiegare in breve cosa significhi quella roba vi dico due tre cosette: con materializzazione si intende il processo per il quale l'informazione (contenuta poi nei documenti della collezione) e l'esigenza informativa (dell'utente) sono espresse rispettivamente in documenti ed interrogazioni. Niente paura tutto al solito molto semplice: da una parte, al server, abbiamo una certa quantità di informazione che deve essere posta in "formato documento", ad esempio se il sistema è automatico i documenti dovranno essere in forma digitale. In sostanza il sistema deve essere ovviamente in grado di reperire questa informazione e il pc che legge la carta non mi pare molto comodo. Dall'altra parte abbiamo il povero utente che ha una esigenza informativa: bene la materializzazone in sto caso è il processo che lo stesso utente fa per convertire la sua esigenza che si trova nella sua mente in una interrogazione al sistema. Dovrebbe essere chiaro, come vedete il risultato della materializzazione è un documento da una parte (elaborabile dal pc) e una interrogazione dall'altra (anch'essa necessaria perchè il pc non può certo elaborare la mente dell'utente).
Dai documenti come sappiamo ricaviamo i descrittori, così come dall'interrogazione dell'utente e questi dovranno essere confrontati al fine di reperire i documenti più rilevanti.
La roba al centro: come già detto qualche tempo fa è impossibile stabilire con precisione assoluta per un sistema automatico la reale rilevanza dei documenti restituiti per l'utente, proprio perchè non possiamo entrare nella sua testa e perchè la rilevanza dei documenti cambia nel tempo, un utente può giudicare a mezzogiorno rilevante una cosa e alle 15 no, questo perchè in quelle tre ore probabilmente ha migliorato le sue conoscenze, e il documento non gli porta alcuna informazione in più, cosa che poteva avvenire a mezzogiorno. Quindi in sostanza la rilevanza non è facile da trovare, ma si trova, con una certa incertezza, altrimenti saremmo messi molto male.

Re: Corso di information retrieval

MessaggioInviato: 31 mag 2008, 21:15
di diegofio
devo interrompere fino a quando non mi ritorna la multifunzione dall'assistenza scusate

Re: Corso di information retrieval

MessaggioInviato: 31 mag 2008, 22:02
di Ibanez89
diegofio ha scritto:devo interrompere fino a quando non mi ritorna la multifunzione dall'assistenza scusate


:asd: copione

scherzo... dai, nn vediamo l'ora di continuare :D