Deep Web: il lato ignoto di Internet

Giovedì 26 Febbraio 2009 - 08:20

di Nicola Ferrari

Motori di ricerca

La definizione di “Deep Web” ricorda un po’ certi film di serie B ma esprime pienamente il concetto: c’è una parte (più o meno grande) della Rete che non è indicizzata e quindi risulta di fatto inaccessibile.

L’articolo del Sole 24 ore dedicato all’argomento segnala che attualmente i motori di ricerca hanno “esaminato” solo l’1% dei dati online (fonte: Brightt), una porzione davvero minima.

E il rimanente 99%? Ignoto appunto: sono pagine simili a quelle che clicchiamo ogni giorno ma non sono segnalate né da Google né dai suoi colleghi. Un paradosso che ha il suo fascino e che i nuovi crawler cercheranno di “violare”, tentando di andare sempre di più in profondità.

Ma se “la mappa non è il territorio”, e questo vale anche per il Web, tali sforzi possono risultare eccessivi o poco utili: nella quantità di informazioni ospitate in Rete, trovo molto più significativo lavorare su strumenti che ci aiutino a selezionare su criteri qualitativi piuttosto che ad aumentare le dimensioni quantitative.

Sono molto più interessato a trovare la miglior risposta per la mia domanda piuttosto che un elenco (infinito) di risposte: voi che ne pensate?

Tags:

Categoria: Motori di ricerca | Permalink

Commenti

1

beh concordo..
ma immagino la filosofia sia sempre che, come motore di ricerca, più pagine posso indicizzare e più il risultato della query sarà completo e preciso, a quel punto potrò andare a dettagliare per poterti fornire una risposta di qualità.

in fondo una statistica su 100 persone è molto meno attendibile di una che ne interroghi 10.000.

# - postato da phynx - 26 Febbraio 2009 - 09:48

2

La risposta puo’ essere giusta, sono i presupposti che sono errati.

Motivo semplice:
- se la risposta che cerchi e’ nei dati che il motore di ricerca non ha… e’ inutile migliorare l’algoritmo di ranking

Motivo tecnico:
- qualita’ e quantita’ non si escludono a vicenza, anzi vanno di pari passo. Quest’anno ho avuto la fortuna di seguire un corso sui motori di ricerca in una delle universita’ migliori al mondo in questo campo e, senza scendere troppo nei tecnicismi, ricordo una lezione proprio su quest’argomento.
Il professore (un ricercatore in questo campo) ci dimostro’ che il modo piu’ semplice di migliorare i risultati e’ “semplicemente” raddoppiare il numero delle pagine che si hanno in memoria. Il motivo e’ troppo lungo e tecnico per essere discusso qua (e dovrei riguardare i miei appunti) ma il punto era proprio questo. Aumentare “la base di ricerca” non annacqua i risultati se l’algoritmo e’ buono (e non credo che qualcuno qui dubiti della bonta’ dell’algoritmo di google :-) )

# - postato da Giacomo - 26 Febbraio 2009 - 11:26

3

Mi piacerebbe avere modo di dare un occhio a quegli appunti, Giacomo. Se tu riuscissi a digitalizzarli (magari non proprio scansionandoli, ma se non hai alternative…) e poi che università? che ricercatore?

A noi qui piacciono tanto i dettagli che rendono la tua risposta + vera (non che non ti creda, ma dato che la cosa mi interessa, mi piacerebbe approfondire, e solo i dettagli mi permetteranno di farlo ;)

# - postato da Gio - 26 Febbraio 2009 - 12:52

4

@Gio
I miei appunti era un concetto generico per indicare tutto il materiale del corso, in realtà io non prendo molti appunti a mano =P
Se cerchi “Dr. Victor P. Lavrenko” su google il primo risultato è la pagina del docente. Da li puoi risalire ai suoi lavori, all’università, ai corsi che segue e (forse) agli appunti del corso di Text Technologies. Dico forse perchè i video delle lezioni credo siano visibili solo dalla rete dell’università, le slide del corso non lo so.
Però sono appunti, non so quanto siano comprensibili senza un docente che li spiega o senza un libro =P
Le slide rilevanti con questa discussione dovrebbero essere da Evaluation in poi.

# - postato da Giacomo - 26 Febbraio 2009 - 14:05

5

Sono molto più interessato a trovare la miglior risposta per la mia domanda piuttosto che un elenco (infinito) di risposte

Concordo pienamente, ed è infatti quello a cui stanno puntando i maggiori motori di ricerca come Google.

# - postato da Marco - 26 Febbraio 2009 - 14:19

6

Non credete veramente che solamente 1% del web è indicizzato? Google trova un dominio nuovo anche prima che io ricevo un link da un altro sito. Su certi siti che conosco ed ho accesso alle statistiche posso dire che google indicizza su 70-90% del contenuto. E chiaro che puoi ci sono i siti interamente in flash compatti che google li vede come una sola pagina ecc, ma non credo assolutamente che il google db contiene 1% del web, questi dati statistici secondo me sono falsi, ed una risposta la può dare solamente Google, Yahoo o Microsoft, avrei creduto un percentuale tipo 50-70% ma 1% e molto lontano della realtà.

# - postato da Daniel Avasilcai - 26 Febbraio 2009 - 20:33

7

@Daniel
I siti flash sono una minuscola, forse irrilevante, parte del deep web. Una delle più grandi scogliere del web sono i form.
Esempio semplicissimo: google. Google è un esempio di deep web perchè i dati indicizzati sono accessibili praticamente solo effetuando ricerche. Questo significa che per un altro motore di ricerca è impossibile indicizzare google. La stessa cosa vale per tutti quei siti che espongono (una parte) i contenuti solo tramite form (ad esempio corriere.it.. a meno che non ci sia un elenco di tutti gli articoli passati l’unico modo per indicizzarli è acchiappare i link quando sono in homepage). E’ virtualmente impossibile indicizzarli in maniera sistematica.

A questo aggiungi tutti i contenuti a pagamento (e qua c’è una grossa fetta di web, basta pensare a tutti i siti internet che vendono servizi ed informazioni) O a tutti i contenuti gratuiti per cui è necessario registrarsi.

Questo è il deep web.

# - postato da Giacomo - 26 Febbraio 2009 - 23:03

8

Sono molto più interessato a trovare la miglior risposta per la mia domanda piuttosto che un elenco (infinito) di risposte: voi che ne pensate?

IMHO la migliore risposta alla tua domanda è il Web semantico.

Dati inaccessibili? Overload di informazioni?
Il web semantico nasce per far “comprendere” i dati alle macchine, offrire risultati molto più accurati alle queries di ricerca e aumentare la reperibilità (findability) delle informazioni, far sì che non si perda tutto nel marasma infinito. Migliorare gli algoritmi dei motori di ricerca è utile, ma non può bastare da sola come soluzione all’overloading. Bisogna agire anche in un’altra direzione, descrivere le informazioni, attuare il web semantico affinchè si perda sempre meno roba in futuro.

# - postato da Cheope - 27 Febbraio 2009 - 01:06

9

Ma la “migliore risposta alla mia domanda” presuppone un intervento umano però, cosa ormai impossibile. Una macchina, per quanto la pagina indicizzata abbia codice corretto, sia semanticamente giusta etc etc, non potrà mai capire cosa effettivamente c’è scritto e se quei dati sono corretti o meno.

# - postato da Delio - 27 Febbraio 2009 - 09:39

10

Ma dai, nessuno davvero crede che l’1% sia il totale delle pagine indicizzate da google & co.
Io vedo in G. dei siti appena pubblicati… e per quanto riguarda i form, come dici tu, esiste sempre la possibilità di far indicizzare i contenuti no? Per i contenuti a pagamento, il discorso è differente, ma si tratta di pochissimo in percentuale..

# - postato da fmortara - 27 Febbraio 2009 - 12:00

11

Che il 99% non sia indicizzato mi sembra un po esageratello…
Anche io ho visto tantissimi siti e sitarelli “micraniosi”, è sono indicizzati…
Certo se uno si setta a cavolo il “robots” sono affari suoi, ma il crawler passa eccome…

# - postato da Roy - 27 Febbraio 2009 - 14:22

12

Solo 1%, mi sembra un po pochino! Ma……..

# - postato da marco - 10 Marzo 2009 - 20:32

Inserisci il tuo commento:





(puoi usare i seguenti tag HTML per formattare il testo -
a href, b, i, br/, p, strong, em, ul, ol, li, blockquote, pre):

 

Anteprima del commento