Como funciona o Robots.txt

Um item muito básico sobre SEO, mas que muitos que estão iniciando encontram dificuldades é em relação ao Robots.txt . Utilizar o robot.txt, é o meio de informar os rastreadores o que não deve ser rastreado.

Claro que devemos lembrar que sua utilização não é obrigatória, porém é recomendado por questões de segurança e conteúdo duplicado.

Sua criação não requer um programa muito complexo, basta um simples editor de texto para criá-lo, como o Bloco de Notas do Windows.

Um outro detalhe muito interessante é que tendo um conta no Google Webmasters Tools, você verá os resultados do seu robots.txt ou até mesmo recordar quais diretórios foram adicionados.

Por uma questão padrão o arquivo deve estar localizado na raiz do seu website. Vale destacar também o nome dos principais rastreadores do mercado. Segue a lista dos Rastreadores, separado por buscador:

Google:

Googlebot, Googlebot-Mobile, Googlebot-Image, Mediapartners-Google, AdsBot-Google;

Yahoo

Slurp, Yahoo-MMAudVid, Yahoo-MMCrawler;

Bing

MSNBot, MSNBot-Media, MSNBot-News;

Na Prática

Vamos ao primeiro exemplo do arquivo:

User-agent: *

Disallow: /adm/

Allow: /images/

User-agent: msnbot

Disallow: /blog/

A linha que contém User-agent, deve definir qual o rastreador você deseja bloquear, quando inserimos o (*) asterisco, dizemos que a regra é para todos os agentes ou digitamos o nome para bloquear para um rastreador especifico, como no exemplo para o msnbot.

A função Disallow determina que o agente não deve rastrear tal diretório, ou seja, que o conteúdo não é relevante ou sem interesse do site para ser indexado. Ao contrário a função Allow diz para o rastreador deve acessar o conteúdo do diretório.

Devo lembrar que o robots.txt não é limitado somente a diretórios, podemos também bloquear o rastreamento para arquivos ou para determinada extensão.

Utilizando da seguinte maneira:

Disallow: *.gif$

Disallow: *.doc$

Podemos adicionar o nosso Sitemap.xml, basta adicionar a URL de localização:

Sitemap: http://www.seusite.com.br/sitemap.xml

Para finalizar uma grande dica!

Todos já devem conhecer o famoso site Internet Archive (http://www.archive.org), ele vem arquivando sites dos anos 90 até os tempos atuais. Caso você não queira seu Website nesse diretório, basta bloquear o seu rastreador no robots.txt, segue o exemplo:

User-agent: ia_archiver

Disallow: /

Espero que tenham gostado das dicas de robots.txt, assim seu trabalho com SEO será mais completo e preciso.

Abraços e Sucesso!