Uno dei modi migliori per controllare e decidere quali pagine far indicizzare e/o escludere di un sito web è senz'altro quello di utilizzare il file Robots.txt nella root del server.

Questo file di testo, a seconda di come viene configurato, permette di impostare particolari restrizioni per i Bot (detti anche Spider) dei Motori di Ricerca, Google, Bing, Yahoo, etc.

Il file infatti, contiene al suo interno precise istruzioni che possono impedire a tutti o solo alcuni spider, il prelievo di alcune o tutte le pagine di un sito.

Già in precedenza, pochi mesi fa, colsi l'occasione per scrivere una guida su come impostare il file Robots.txt.

Nell'articolo di oggi, vi propongo un file Robots.txt consigliato ed ottimizzato per WordPress, per evitare che delle cartelle del famoso CMS vengano inutilmente indicizzate e che dei contenuti duplicati (pagine, categorie, tag) possano col il passare del tempo procurare delle penalizzazioni per il vostro sito.

Robots.txt Ottimizzato per WordPress

[php]

User-agent: Googlebot
Disallow: /wp-content/
Disallow: /trackback/
Disallow: /wp-admin/
Disallow: /feed/
Disallow: /archives/
Disallow: /index.php
Disallow: /*?
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: */feed/
Disallow: */trackback/
Disallow: /tag/
Disallow: /category/

[/php]

(Il seguente blocco di codice blocca l'indicizzazione di tutte le cartelle elencate; wp-content, wp-admin, dei tag e delle categorie, etc)

[php]

User-agent: Googlebot-Image
Disallow: /wp-includes/
Allow: /wp-content/uploads/

[/php]

(Permette al bot di Google di indicizzare le immagini)

[php]

User-agent: Mediapartners-Google*
Disallow:

User-agent: ia_archiver
Disallow: /

User-agent: duggmirror
Disallow: /

[/php]

(Blocca l'indicizzazione da parte dei bot ia_archiver e duggmirror)

Sitemap: http://www.iltuositoweb.it/sitemap.xml

(Fornisce il link di dove è localizzata la Sitemap del vostro Blog)

Per qualsiasi problema, lasciate un commento. Alla prossima!