Questo articolo è stato aggiornato in data:

Guida al file robots.txt, che ti spiega che cos’è e come si usa, e la sua importanza per la SEO. Guida aggiornata al 2015.

Hai mai sentito parlare del file robots.txt? Sai come crearlo ed utilizzarlo per il tuo sito web? In questa guida troverai tutte le informazioni che cerchi, più numerosi comandi ed esempi su come utilizzare questa preziosa risorsa. Partiamo subito!

Guida al file robots.txt

Che cos’è il file robots.txt?

l file robots.txt è un file di testo utilizzato per impostare particolari restrizioni ai Bot (chiamati anche spider o crawler, dei Motori di ricerca) per l’indicizzazione e l’analisi di un determinato sito web. Il file contiene precise istruzioni che possono impedire a tutti o solo alcuni crawler, il prelievo di alcune o tutte le pagine di un sito. Ecco dunque, l’importanza di una guida al file robots.txt, in modo da comprendere come e perchè utilizzarlo.

Perchè utilizzare questo file? A cosa serve?

Prima di tutto, è indispensabile chiarire i motivi del perchè utilizzare questo file. Lo scopo fondamentale è quello di inserire nel file robots una lista di pagine e directory che gli spider NON possono prelevare.

Cosa significa questo? Che non esiste alcun comando del tipo “Preleva o indicizza questo pagine”, ma esistono solo comandi per fare l’esatto contrario! Ovvero, “Non prelevare questa pagina”.

Quindi, per tutti coloro che non hanno la necessità di impedire ai motodi ricerca di prelevare alcune (o tutte) pagine del vostro sito, utilizzare il file robots.txt non serve a nulla.

Come creare e dove mettere il file?

Creare il file robots.txt è semplicissimo. Puoi infatti utilizzare un qualsiasi editor di testo, come il Notepad o Wordpad per Windows, e salvarlo in formato “txt”, rinominandolo in robotx.txt.

Una volta creato, lo stesso andrà posto nella directory principale del nostro sito, diventando raggiungibile all’indirizzo:

  • http://www.nomesito.it/robots.txt

Da quel momento, tutti gli Spider che accederanno al sito web, per prima cosa andranno a cercare nella directory principale il suddetto file e, se lo troveranno, seguiranno le direttive contenute all’interno.

La struttura del file robots.txt

La struttura di questo file è molto semplice, in quanto è diviso in vari blocchi di istruzioni, ognuno dei quali specifica due comandi:

  1. User-agent: il nome dello spider di riferimento (qui ne trovate una lista completa);
  2. Disallow: il file o la directory, che non deve essere scansionata;
  3. Allow: utilizzato per consentire l’accesso ai contenuti ed impostare delle eccezioni;

Le voci disallow possono essere anche più di una, per ogni blocca; l’importante è specificare lo spider a cui ci stiamo riferendo.

Esempio:

User-agent: Googlebot
Disallow: /file-da-escludere.html
Disallow: /directory-da-escludere/

Configurazioni avanzate del file

Dopo avervi mostrato le basi di utilizzo ed i comandi fondamentali, passiamo ora alle configurazioni avanzate. E’ possibile infatti, utilizzare il file robots in molti altri scenari che ti sto per mostrare.

Blocco completo del sito (non indicizzato su Google)

Se possiede un sito web a cui stai lavorando e preferisci fare degli esperimenti online, è bene evitare che venga indicizzato su Google, prima che sia completo. Ecco un utile scenario in cui l’utilizzo del file robots.txt è molto usato. Puoi mantenere il tuo sito invisibile ai motori di ricerca utilizzando il comando:

Disallow: /

Questo comando, messo nella “root” principale del tuo sito, evita l’indicizzazione di tutto il contenuto. Nel caso tu abbia dei sottodomini, devi creare un altro file robots e piazzarlo nella root del sottodominio; ovviamente inserendo con lo stesso comando all’interno.

Blocco di un determinato spider

Se non hai piacere che il tuo sito sia scansionato da determinati spider, puoi bloccarne l’accesso specifica il nome del bot in questione. Ecco un esempio:

User-agent: nome-user-agent
Disallow:

In questo modo il crawler nome-user-agent verrà bloccato e non potrà accedere ai contenuti del tuo sito.

Blocco di una pagina web specifica

Se invece desideri bloccare l’accesso ad una pagina specifica, puoi utilizzare questo codice:

User-agent: *
Disallow: /nome-file.html

Chiaramente, se il file non è nella root principale del sito, dove si trova il file robots.txt, dovrai specifica il percorso esatto. Se si trova all’interno della cartella web, allora dovrai inserire “web/nome-file.html”.

Blocco di una directory ed i file contenuti in essa

Ecco invece come bloccare una directory e tutti i file contenuti in essa. Il codice sarà:

User-agent: *
Disallow: /nome-directory/

 Blocco delle immagini per Google Immagini

Se vuoi evitare l’indicizzazione delle tue immagini, affinchè siano presenti nel servizio di Google, Google Immagini, puoi usare il seguente codice:

User-agent: Googlebot-Image
Disallow: /

Blocco di un particolare tipo di file

Se vuoi, è possibile anche bloccare determinate tipologie di file tramite il file robots.txt. Se ad esempi, preferisci bloccare tutti i file php, puoi utilizzare il comando:

User-agent: *
Disallow: /*.php$

Blocco con eccezione

Grazie al comando “Allow” è possibile impostare delle eccezioni nei blocchi. L’esempio più frequente, è quello dove si bloccano tutti gli spider per la cartella A, ad eccezione del file B, contenuto in essa. Per fare una cosa del genere, puoi utilizzare il codice mostrato poco più in basso, ricordandoti sempre di inserire il comando Allow prima del Disallow.

User-agent: *
Allow: /directory-a/file-b.html
Disallow: /directory-a/

Il file robots.txt e la SEO: Alcune buone pratiche da seguire

E’ chiara dunque, l’importanza che riveste la configurazione di questo file. Vediamo allora, alcune buone pratiche SEO da seguire:

  1. Non sottovalutate l’utilizzo di questo file; è un strumento molto potente, ma di cui non si parla tanto;
  2. Attenzione a quando usate le regole “disallow”; esse negano la scansioni agli spider, pertanto non confondetevi quando le usate!;
  3. I blocchi alle URL impostati nel robots.txt, non garantiscono al 100% che i risultati non compariranno nei risultati di Google;
  4. Vi consigliamo di aggiungere alla fine del file, anche un richiamo per la la sitemap del vostro sito, utilizzando la sintassi:

Sitemap: http://wwwilmiosito.it/sitemap.xml

Conclusioni:

E’ tutto, abbiamo visto in questo articolo che cos’è e come creare un file robots.txt per il tuo sito. Non dimenticarti di crearlo ed utilizzarlo, per qualsiasi problema e/o dubbio non esitare a contattarci. A presto!