File Robots.txt: cos’è a cosa serve esempi e utilizzo

di Geremia Lisolo

Robots.txt: Cos’è e a cosa serve

Il file robots.txt è un file di testo che viene inserito nella root di un sito web, e contiene il protocollo di esclusione robot che sono regole e direttive che il webmaster vuole fornire ai crawler che visitano il sito web. Con le direttive inserite nel file robots.txt, si può consentire o impedire l’accesso dei crawler in una cartella o in tutto il sito web.

In pratica, grazie all’utilizzo del file robots.txt, si può comunicare ad uno specifico spider, ad esempio Googlebot, di non effettuare la scansione di cartelle contenenti file riservati e che non si vuole vedere indicizzati nel motore di ricerca Google.

Oltre a dare direttive ai motori di ricerca i file robots.txt servono ad evitare la scansione degli ormai milioni di spider di tool di terze parti.

Robots Exclusion Standard

Il protocollo di esclusione robot (in inglese Robots Exclusion Standard) indica, nel gergo di internet e più in generale del web, le regole indicate dai gestori di un sito web ai crawler che lo visitano, chiedendo di applicare restrizioni di analisi sulle pagine del sito. Esse sono contenute nel file robots.txt, ideato nel giugno 1994 con il consenso dei membri della robots mailing list (robots-request@nexor.co.uk). In questo momento non esiste un vero e proprio standard per il protocollo robots.

Robots.txt esempio

Il file di testo usato come robots.txt ha una composizione semplice che consente di indicare il robots al quale deve essere applicata una specifica direttiva, quale direttiva fornire e quali file, pagine o cartelle del sito devono essere scansionate o meno.

Per scrivere delle regole nel file robots bisogna inserire un record per ogni riga, come nell’esempio seguente:

1° record User-agent: *
2° record Disallow: /cartella_da_non_indicizzare/
3° record Disallow: /file_da_non_indicizzare

Con il record User-agent si definisce se la direttiva deve essere valida per tutti i crawler, in questo caso si utilizza l’asterisco. O se deve essere valida solo per un bot, esempio Googlebot.

Con il record Disallow si definisce quale cartella, file, pagina del sito web è oggetto della direttiva e dunque che il bot specificato nell’ User-agent non deve scansionare.

Un’altro record spesso utilizzato nel file robots.txt è la direttiva allow, che spesso torna utile quando bisogna consentire di scansionare un’unico file contenuto in una cartella per la quale si vuole invece bloccare la scansione.

Utilizzi comuni del file robots.txt

Mettiamo il caso che bisogna bloccare la scansione di tutto il sito web a tutti i robots che scansionano il web. La direttiva da utilizzare dovrebbe essere come segue:

User-agent: *
Disallow: /

Volendo invece escludere solo un robots potrei eliminare il simbolo / dalla direttiva Disallow, e aggiungere altri record successivi che specificano l’user-agent che voglio bloccare.

Ovvero:

User-Agent: *
Disallow:

User-agent: Botacaso
Disallow: /

Al contrario, se volessi ammettere la scansione di un solo spider, dovrei fare il contrario. Ovvero, ripristinare il simbolo / dopo la direttiva disallow nell’user-agent generico (quello con l’asterisco), e eliminarlo dalla direttiva per il bot specifico:

User-Agent: *
Disallow: /

User-agent: botacaso
Disallow:

Uno degli utilizzi combinati, ovvero, quando si vuole bloccare un’intera cartella ma lasciare libera la scansione di un singolo elemento incluso in quella cartella è il seguente:

Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Praticamente questa formattazione del file robots.txt dice ai bot che scansionano il web di non scansionare la cartella /wp-admin/ ma di poterlo fare invece per il file compreso nella sottocartella /wp-admin/admin-ajax.php

Robots.txt e seo

Essendo non obbligatorio l’inserimento del file robots nella rott principale di un sito web, ci sono moltissimi siti web che ne sono privi.

Conoscere, inserire e utilizzare il file robots.txt può essere un valido aiuto nell’ottimizzazione per i motori di ricerca. Ad esempio, può essere sicuramente utile bloccare determinati percorsi inibendo la scansione ai crawler dei motori di ricerca di parametri, filtri, paginazioni.

Nella vecchia versione della Search Console, i parametri potevano essere individuati e bloccati, oggi tale operazione sembra non funzionare nella nuova console di Google, e dunque bloccare la scansione di alcuni parametri con l’utilizzo del file robots.txt diventa obbligatorio per un corretto posizionamento nel motore di ricerca.

Robots.txt ecommerce

file robots.txt

Ad esempio in un’ecommerce, potrebbero generarsi categorizzazioni multiple, simili, prive di prodotti, che non farebbero altro che dare in pasto al crawler di Google pagine inutili da scansionare.

Ad esempio, spesso le categorie degli ecommerce sono composte di parametri che l’utente può impostare manualmente, che circoscrivono, ordinano, limitano i contenuti della pagina. Uno di questi parametri è “limit”, che consente di scegliere la quantità di prodotti da visualizzare (12, 24, 36, 48 etc etc).

Ognuna di queste numerazioni genera una categorizzazione simile e di conseguenza offre al motore di ricerca che scansiona, la possibilità errata di scansionare 2 pagine molto simili tra loro.

Come se non bastasse, tale pagina può essere ulteriormente modificata da un’altro parametro, che indica ad esempio la direzione ascendente o discendente. Tutto ciò, porta a che vengano generati in modo consequenziale url come segue:

miosito.it/categoria1

miosito.it/categoria1/limit12

miosito.it/categoria1/limit24

miosito.it/categoria1/limit=12+dir=asc

miosito.it/categoria1/limit=24+dir=asc

Nulla vieta gestire questi parametri con l’uso di meta noindex, canonical o evitando proprio che vengano generati. Ma visto che ciò spesso non accade, e di conseguenza il crawler potrebbe gia aver scansionato e indicizzato tali url, è bene porre tali parametri in noindex e successivamente inserire le seguenti direttive nel robots.txt:

Disallow: /?limit=all

Disallow: /?dir=desc

Disallow: /?dir=asc

Queste accortenze, serviranno ad utilizzare il robots.txt affinchè il crawl budget del sito web non ne risenta per la scansione di troppe pagine inutili.

0 Condivisioni