Come funziona Google: scansione, indicizzazione catalogazione dei risultati

 Come funziona Google: scansione, indicizzazione catalogazione dei risultati

Scansione Googlebot

Comprendere questi processi è la base per chi vuole fare seo e imparare l’arte dell’ottimizzazione per i motori di ricerca.

Google è un universo composto da centinaia di server e crawler sparsi in tutto il pianeta. Ognuno di questi spider, scansiona sistematicamente il web alla ricerca di pagine nuove o aggiornamenti al fine di raccoglierli in indici all’interno dei tanti data center sparsi sulla terra. Ciò significa che Google non ha una sola unità centrale, ma è un’insieme di tecnologie utili a trasformare e trasportare in un nanosecondo, il contenuto acquisito ad ogni singolo utente. La prima volta che un bot di Google scansiona una risorsa, questa viene aggiunta nei server e considerata come “pagina nota”.

Il motore di ricerca può scoprire pagine nuove anche riscansionando le pagine ad esso note, che nel frattempo sono state arricchite con nuovi collegamenti a pagine nuove. Per il motore di ricerca, scansionare il web a comparti, e trovare nuove pagine web anche riscansionando quelle già note presenti in un sito web, è un vantaggio economico non indifferente. Oltre a questo è anche un vantaggio per l’utente, in quanto, così facendo il motore di ricerca può restituire più velocemente delle serp pertinenti in base a freschezza dei contenuti e geolocalizzazione.

Per la scansione e per la conservazione dei dati, Google negli ultimi anni ha investito miliardi di dollari, in tecnologie come cavi sottomarini, che collegano i data center in tutto il mondo.

Il motore di ricerca ha bisogno di trovare ogni giorno informazioni nuove, migliori da restituire agli utenti. Di conseguenza, in assenza di direttive i crawler scansionano in modo indiscriminato tutte le pagine web che sono comprese nel dominio e che risultano raggiungibili. Ovviamente, per questione di privacy e anche di sicurezza, è bene non consentire a Google l’intera scansione del sito web. Una delle best practice da seguire in questo caso, è bloccare la scansione con delle direttive inserite nel file robots.txt.

Indicizzazione e catalogazione su Google

Dopo che i crawler hanno scansionato le risorse e fatto il download, i link e i contenuti vengono inseriti negli indici per essere valutati, compresi, selezionati, smistati. Nel corso degli anni, con i vari update algoritmici, da Caffeine a penguin e successivi, questa fase ha acquisito maggiore importanza per consentire la restituzione di contenuti sempre più pertinenti e in modo veloce. E’ in questa fase infatti che dopo aver aggiunto pagine note al link graph, Google analizza le stesse con diversi scopi, tra cui verificare l’autorevolezza della pagina rispetto ad altre, verificare la similitudine per evitare spam link, verificare i contenuti al fine di catalogarli correttamente da un lato nei motori di ricerca verticali di Google universal research, e dall’altro per catalogarli semanticamente meglio.

DMCA.com Protection Status