googlebot scansione indicizzazione e catalogazione

Googlebot: Scansione indicizzazione e catalogazione del crawler di Google

Scansione

Google è un universo composto da centinaia di server e spider sparsi in tutto il pianeta. Ognuno di questi crawler, scansiona sistematicamente il web alla ricerca di pagine nuove o aggiornamenti al fine di raccoglierli in indici all’interno dei tanti data center sparsi sulla terra. Ciò significa che Google non ha una sola unità centrale, ma è un’insieme di tecnologie utili a trasformare e trasportare in un nanosecondo, il contenuto acquisito ad ogni singolo utente. La prima volta che un bot di Google scansiona una risorsa, questa viene aggiunta nei server e considerata come “pagina nota”.

Il motore di ricerca può scoprire pagine nuove anche riscansionando le pagine ad esso note, che nel frattempo sono state arricchite con nuovi collegamenti a pagine nuove. Per il motore di ricerca, scansionare il web a comparti, e trovare nuove pagine web anche riscansionando quelle già note ad esso, è un vantaggio economico non indifferente. Oltre a questo è anche un vantaggio per l’utente, in quanto, così facendo il motore di ricerca può restituire più velocemente delle serp pertinenti in base a freschezza dei contenuti e geolocalizzazione.

Per la scansione e per la conservazione dei dati, Google negli ultimi anni ha investito miliardi di dollari, in tecnologie come cavi sottomarini, che collegano i data center in tutto il mondo.

Il motore di ricerca ha bisogno di trovare ogni giorno informazioni nuove, migliori da restituire agli utenti. Di conseguenza, in assenza di direttive i crawler scansionano in modo indiscriminato tutte le pagine web che sono comprese nel dominio e che risultano raggiungibili. Ovviamente, per questione di privacy e anche di sicurezza, è bene non consentire a Google l’intera scansione del sito web. Una delle best practice da seguire in questo caso, è bloccare la scansione con delle direttive inserite nel file robots.txt.

Indicizzazione e catalogazione su Google

Dopo che i crawler hanno scansionato le risorse e fatto il download, i link e i contenuti vengono inseriti negli indici per essere valutati, compresi, selezionati, smistati. Nel corso degli anni, con i vari update algoritmici, da Caffeine a penguin e successivi, questa fase ha acquisito maggiore importanza per consentire la restituzione di contenuti sempre più pertinenti e in modo veloce. E’ in questa fase infatti che dopo aver aggiunto pagine note al link graph, Google analizza le stesse con diversi scopi, tra cui verificare l’autorevolezza della pagina rispetto ad altre, verificare la similitudine per evitare spam link, verificare i contenuti al fine di catalogarli correttamente da un lato nei motori di ricerca verticali di Google universal research, e dall’altro per catalogarli semanticamente meglio.

Condividi

Condividi su facebook
Condividi su linkedin
Condividi su twitter
Condividi su email

Iscriviti alla newsletter

Rimani aggiornato

Leggi altri articoli

DMCA.com Protection Status