I segreti nascosti dei log
Mercoledì 12 Aprile 2006 - 11:20
di Simone Carletti

Fin da quando ho avuto a che fare con lo sviluppo di un programma di statistiche ho sempre trovato particolarmente curioso analizzare e sviscerare manualmente i log dei server a cui avevo accesso. IIS o Apache poco importa, i contenuti sono quasi standard ma le scoperte alcune volte sorprendenti.
Alcuni esempi? Prendiamo Google. Qualche settimana prima che lo stesso staff del motore di ricerca lo annunciasse, nei log si poteva notare il misterioso passaggio di Google FeedFetcher, un bot dal comportamento anarchico che senza curarsi delle direttive del robots.txt faceva pesanti scorpacciate dei feed sui nostri siti.
FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)
E cosa dire del più recente Googlebot Mobile del quale pochi hanno parlato in Italia, un po’ di più in America nei forum SEO internazionali. Di cosa si tratta? Difficile a dirsi poiché da marzo, data della prima apparizione, ad oggi, nessuno ha ancora confermato nulla. Difficile pensare che possano essere dipendenti di Google in fase di testing di un nuovo telefonino Nokia, altrettanto difficile prevedere l’entità di questo crawler.
Nokia6820/2.0 (4.83) Profile/MIDP-1.0 Configuration/CLDC-1.0 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)
Spostandosi nel mondo dei feed mi viene da citare il caso Microsoft/MSN, dove mesi prima che il colosso informatico lo confermasse ufficialmente c’erano già voci che commentavano la presenza di uno spider dedicato ai feed. Cosa dire invece di Bloglines che da qualche mese si presenta con una user agent particolarmente curiosa, accompagnata da una sigla altrettanto misteriosa.
Bloglines/3.0-rho (http://www.bloglines.com; x subscribers)
Ma i log non sono solo una ricca fonte di indiscrezioni sui bot. Sono un utilissimo archivio di comportamenti degli utenti umani e non. Analizzare lo spostamento di un utente tracciato nei log è spesso fondamentale per chi si occupa di marketing ad alto livello, ancora più delicata l’analisi del passaggio dei bot dei motori di ricerca.
E voi cosa ne pensate dell’analisi (manuale?) dei log? Interessante esperimento o insana perdita di tempo?
Categoria: Motori di ricerca | Permalink
Commenti
1
Io ho sempre pensato che l’analisi dei log sia fondamentale. Il problema a volte è il tempo. Mettersi a studiare migliaia di righe, se divertente, è comunque costoso.
Finisce, quindi, che lo faccio quando sto cercando qualcosa o quando ho un cliente che mi paga per farlo.
Dunque, vediamo… 4 ore dormo, una tra pasti vari, 8 ore lavoro, 3 ore e mezza tra viaggi e simili, un paio d’ore per i miei siti, un’oretta o due per un paio di lavoretti, il “cazzeggio” online….. uffa, voglio giornate di 50 ore!
2
Ma scusate, i file di log, non possono venire letti da appositi software? perchè farlo a manina?? Io per esempio uso phpstats, anche se magari non analizzo tutto ciò che il server mi fornisce come dato…
3
phpstats non è un log analyzer, è un software di tracciamento statistiche.
Sì, è possibile leggere i log con un software, ma leggerli grezzi o con un software base fornisce dati maggiormente interessanti da elaborare.
# - postato da Simone Carletti - 13 Aprile 2006 - 09:45
4
Simone, forse allora potrebbe essere utile conoscere qualche log analyzer con un esempio pratico di cosa riesce a desumere dal dato grezzo :)
5
ciao!
Qualcuno sa dirmi se gli spider danno priorità a certi domini piuttosto che ad altri?
Ovvero tra, per esmepio, www.chiara.it e www.chiara.tv può eserci differenza nella reperibilità da parte delgi spider?grazie!# - postato da chiara - 20 Aprile 2006 - 13:15







