Esiste un modo per far capire molto semplicemente agli spidere dei motori di ricerca quali pagine del nostro sito indicizzare e quali no: parliamo del file robots.txt .
Il File robots.txt non è altro che un normale file di testo che viene inserito via ftp, nella stessa directory principale del sito web: il suo compito è quello di indicare ai motori di ricerca, tramite le indicazioni contenute all’interno del file, quali siano le pagine da indicizzare, quale parte del sito non indicizzare, quale categia ecc ecc. La sua presenza è diventata ormai di fondamentale importanza all’interno di un sito o un blog in quanto i bot dei motori di ricerca prima di accedere al sito verificheranno la presenza del file robots.txt e ne prenderanno le indicazioni.
In sostanza all’interno di questo semplice file di testo (per crearlo basta aprire una pagina del blocco note ed inserirci le istruzioni che vedremo più avanti e salvarlo con il nome robots.txt) grazie ad alcune stringhe di comando andremo ad agire direttamente sullo spider del motore di ricerca in maniera precisa e senza possibilità di errore. Ovviamente il file robots.txt non serve se non avete nulla da “nascondere” ai bot, ma è comunque importante averlo in quanto alcuni motori di ricerca, come Google, ne apprezzano la presenza.
Questa che vedete di seguito è un esempio del file, ottimizzato per chi sviluppa i propri siti con wordpress (mi raccomando se non siete molto esperti fate attenzione). Se volete invece analizzare il robots.txt già presente nel sito, visitate questa pagina:
User-agent: * Disallow: /wp- Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/ Allow: /wp-content/uploads/ Disallow: /trackback/ Disallow: /feed/ Disallow: /comments/ Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /*?* Disallow: /*? Disallow: /tag/ Disallow: /category/ Sitemap: http://www.nomedominio.com/sitemap.xml