Gli spider (chiamati anche bot o robot) sono dei software che analizzano i contenuti dei siti in modo automatico, per conto dei motori di ricerca. Sebbene tutto ciò, garantisce in molti casi un corretto processo di indicizzazione e quindi è un bene, in altri, diventa una spreco di risorse non indifferente, quando su un sito arrivano degli spider indesiderati, noti per effettuare spiderizzazioni piuttosto pesanti e che consumano molta banda e risorse del server.
Come porre rimedio a tutto ciò?
La soluzione più consigliata è quella di individuare gli spider ai quali voler negare l’accesso al sito, e successivamente, di bloccarne l’accesso al sito tramite il file .htaccess oppure il file robots.txt.
Potete scoprire quali robot visitano il vostro siti, analizzando i file di log sul vostro server oppure dando un’occhiata tramite qualche software di statistiche, come Webalizer oppure AwStats.
Quali sono gli spider indesiderati? Quali sono da bloccare?
Uno degli spider più bloccato è lo YandexBot, spider del motore di ricerca russo Yandex, che per quanto si tratti di una normale piattaforma, legittima, è noto per effettuare spiderizzazioni piuttosto pesanti, che durante alcune scansioni sono anche in grado di consumare vari GB di banda nell’arco di una sola giornata. Decisamente troppo, per una risorsa che ha come lingua madre il cirillico ed i cui utenti, difficilmente avranno un interesse per i contenuti scritti in italiano.
In tutti i casi, soprattutto per i più curiosi, su questo sito http://www.user-agents.org potete visualizzare una folta lista di “user-agents” (spider e robot) con relative descrizioni e categorie, in modo da avere una chiara visione e conoscenza di quali spider arrivano sul vostro sito, se sono spider di un motore di ricerca oppure di un programma spam, e di conseguenza, se è il caso di bloccarli oppure no.
Come detto ad inizio articolo, una volta individuati gli spider che volete bloccare, avete due soluzioni da poter utilizzare. La prima è bloccarli tramite alcune righe di codice da inserire nel file .htaccess, utilizzando la sintassi:
RewriteCond %{HTTP_USER_AGENT} ^NOME-ROBOT1 [NC,OR”
RewriteCond %{HTTP_USER_AGENT} ^NOME-ROBOTn
RewriteRule ^.*$ – [F”
Sostituite NOME-ROBOTn con il nome effettivo del robots da bloccare.
La seconda soluzione, più semplice rispetto alla prima, prevede l’inserimento di alcune direttive all’interno del file robots.txt, di questo tipo:
User-agent: Nome Bot
Disallow: /
Volendo bloccare lo spider YandexBot, basterà utilizzare un codice di questo tipo:
User-agent: Yandex
Disallow: /
Se volete bloccare più spider, evitate di ripetere il comando disallow, ma aggiungete solo delle nuove direttive User-agent, specificando il nome esatto degli altri spider che desiderate bloccare. Esempio:
User-agent: Baiduspider
User-agent: Yandex
Disallow: /
Mi raccomando, fate attenzione a non commettere errori con le direttive nel file robots.txt; gli spider dei motori di ricerca sono molto sensibili a questo tipo di file e quindi, cercate di compilarlo con la massima attenzione, evitando sviste di qualsiasi tipo. Alla prossima!