Robots.txt

    Il file robots.txt è un file di testo che viene inserito nella root di un sito web, e contiene il protocollo di esclusione robot che sono regole e direttive che il webmaster vuole fornire ai crawler che visitano il sito web. Con le direttive inserite nel file robots.txt, si può consentire o impedire l’accesso dei crawler in una cartella o in tutto il sito web.

    In pratica, grazie all’utilizzo del file robots.txt, si può comunicare ad uno specifico spider, ad esempio Googlebot, di non effettuare la scansione di cartelle contenenti file riservati e che non si vuole vedere indicizzati nel motore di ricerca Google.

    Oltre a dare direttive ai motori di ricerca i file robots.txt servono ad evitare la scansione degli ormai milioni di spider di tool di terze parti.

    DMCA.com Protection Status