Um ficheiro robots.txt, é o responsável por indicar aos motores de busca, quais as páginas do seu website que deverão sofrer o crawl e consequentemente serem indexadas.
Muitos websites e blogs integram diversas páginas que não interessam aos motores de busca, como páginas de administração e de imagens por exemplo, pelo que criar um ficheiro robots.txt irá ajudá-lo a melhorar a indexação do seu website, com toda a certeza!
Criar um ficheiro robots.txt é perfeitamente simples, e pode ser executado com o Notepad que vem incluido no Windows.
Se não utiliza Windows, recomende que experimente o Notepad++ que é bastante mais poderoso.
Se tiver um blog em Wordpress, um ficheiro robots.txt simples poderia ser algo como:
User-agent: *
Disallow: /wp-
Disallow: /feed/
Disallow: /trackback/
User-agent:* é o comando que diz aos motores de busca (Google, Yahoo, MSN e outros) de que devem seguir as instruções seguintes para fazerem crawl ao seu website. A não ser que o seu website seja demasiado complexo, você não irá necessitar de criar diversos robots para os diversos motores de busca. Keep it Simple.
O Disallow:/wp- irá fazer com que os motores de busca não façam o crawl dos seus ficheiros do Wordpress. O robot irá evitar todas as pastas e sub-pastas começadas por “wp-”, não executando o crawl em conteúdo duplicado ou em ficheiro de administração.
Se pretender criar um ficheiro Robots.txt especialmente para o seu blog Wordpress, então sugiro-lhe a opção criada pelos colegas da Askapache, que sabem melhor do que ninguém que conteúdo se deve evitar e que conteúdo é importante filtrar. Ao desabilitar a pasta das imagens, não está a cometer nenhum erro. O Google faz a indexação das imagens através dos posts, integrando posteriormente a informação unitária de cada imagem, como o texto ALT, título, nome da foto, etc.
Se tiver um blog em Wordpress, sugiro a criação de um ficheiro robots.txt com a seguinte configuração:
User-agent: *
# disallow all files in these directories
Disallow: /cgi-bin/
Disallow: /z/j/
Disallow: /z/c/
Disallow: /stats/
Disallow: /dh_
Disallow: /about/
Disallow: /contact/
Disallow: /tag/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /contact
Disallow: /manual
Disallow: /manual/*
Disallow: /phpmanual/
Disallow: /category/
User-agent: Googlebot
# disallow all files ending with these extensions
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
# disallow all files with ? in url
Disallow: /*?*
# disable duggmirror
User-agent: duggmirror
Disallow: /
# allow google image bot to search all images
User-agent: Googlebot-Image
Disallow:
Allow: /*
# allow adsense bot on entire site
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
Basicamente é só copiar, colar num ficheiro de Notepad e guardar com o nome Robots.txt.
Se não utiliza o Wordpress e tem um website sobre um assunto qualquer, sugiro a criação de um ficheiro com a seguinte configuração:
User-agent: *
Disallow: /images/
Disallow: /cgi-bin/
Disallow: /any other folder to be excluded/
Desabilita-se apenas as pastas não importantes. Você próprio pode definir manualmente quais as pastas que não quer considerar importantes ao crawler do Google.
Para isso basta copiar a linha Disallow: /, seguida do nome da pasta que não pretende ver executada durante o crawl.
Depois de ter o seu ficheiro Robots.txt criado, deverá fazer o upload dele para a sua directoria principal do FTP, que normalmente está dentro da pasta “public_html”.
Se tiver alguma dúvida coloque um comentário. Aproveito para lhe perguntar também se já havia alguma vez criado ou ouvido falar nos ficheiros Robots.txt?
Até Já.

Se gostou deste post, considere subscrever o nosso RSS Feed Completo!
Ou então Subscreva o Fique Rico por Email!


































Tárcio Zemel
Ei, Paulo!
Respondendo à pergunta: sim, já criei alguns robots.tx! :-D
Só complementando, entrou uma nova diretiva no robots.txt que permite indicar o caminho do sitemap.xml do web site, mesmo que este não esteja na raiz do site/blog. Quer dizer, agora é possível ter diversos robots.txt em um único diretório e simplesmente apontar o endereço. A sintaxe é:
Sitemap: http://{ENDERECO_SITE}/sitemap.xml
Falando no assunto, para quem usa Wordpress é possível usar o plugin que gera o sitemap automaticamente em http://wordpress.org/extend/plugins/google-sitemap-generator/ .
Abraços! Aguardo o artigo sobre htaccess!
Tárcio Zemel publicou um post sobre..Marcha da Maconha: hipocrisia, repugnância e mau exemplo através da web
whebson1
Olá! :-D
Fiquei na dúvida quanto a criação do robots.txt para o blogspot!
É o mesmo procedimento?
Enquanto isso, quero te agradecer pelas ótimas dicas e sugestões, o meu muito obrigado, e a estima de que estarei junto com você acompanhando os seus valiosos tópicos :-D
Há! Também consegui PageRank 4 em três meses. 8^D
Um grande abraço e muito sucesso.
By []´s! whebson1 ;-)
whebson1 publicou um post sobre..Movin’ on up
ramiro marques
O seu blog é de visita obrigatória. Sem dúvida o blog mais informativo, em língua portuguesa, sobre monetarização de websites.
Uma pergunta: há problema em colocar anúncios da Bidvertiser juntos de anúncios do adsense? Eu tenho um blog só com anúncios Bidvertiser e ainda não ganhei nada de jeito. Tem poucos anúncios em Português e mudam pouco. O meu blog tem 1300 visitas diárias e, num mês, não faço mais de 12 dólares com os anúncios Bidvertiser. Tenho outro blog com uma média de 1500 visitas diárias, só com anúncios Adsense, que faz uma média mesal de 60 euros. É pouco mas é muito mais do que o Bidvertiser.
Obrigado. Continue a brindar-nos com este excelente blog.
Ramiro Marques
ramiro marques publicou um post sobre..Relatório britânico, elaborado pela Oxford University, critica malefícios da centralização curricular e do excesso de controlo dos professores
Paulo Faustino
@ Tárcio
Obrigado pelo comentário amigo, por sinal muito bom e completo.
Obrigado por essa adição, que será certamente uma mais valia para quem quiser começar a criar e gerir ficheiros robots.txt
@ whebson1
Obrigado pelo comentário. No blogger directamente não tenho grande experiência. No entanto, ao fazes algumas pesquisas deparei-me com este artigo que me parece oportuno: http://gspy.blogspot.com/2007/07/blogger-adds-robotstxt.html
@ ramiro marques
Obrigado pelo comentário e pelas palavras de apreço.
A publicidade contextual da bidvertiser penso que seja passível de utilizar no mesmo site juntamente com o Adsense. Já vi diversos blogs que utilizam ambas as formas para monetizar os seus websites.
No entanto, se o ramiro está a retirar melhores rendimentos do Adsense, porque não utilizar somente o Adsense?
Até Já!
whebson1
Rapaz que maravilha! Mesmo eu não tendo feito ainda o google faz por padrão no blogspot. :-)
Pelo meu comentário acima descobri um erro, o atom do Cantim estava apontando para o RSS/Feeds do FeedBurner, mas a correção foi feita. Agora é aguardar por mais trafego vindo do google. 8^D
Obrigado pelo retorno.
Um grande abraço.
By []´s! whebson1 ;-)
whebson1 publicou um post sobre..Excel 2007: 4 Dicas e configurações!
Paulo Faustino
Olá whebson1. Obrigado pelo comentário e pelas palavras.
Alguma dúvida por favor contacte.
Até Já.
Gustavo Falcade
Prezados,
Achei bastante interessante as dicas e costumos usálas para aprimor meu site.
Gostaria de saber oque é necessário para ter um link na sua pagina..
Muito Obrigado
Gustavo Falcade
Paulo Faustino
Olá Gustavo. Obrigado pelo comentário.
Para contactar utilize o endereço geral[at]fique-rico.com
Até Já.
Paulo André
Olá, muito boa as dicas!
Sobre o arquivo robots.txt, como o meu site está utilizando url amigável, seu eu quiser bloquear o acesso dos robots a uma determinada página, ‘meusite.com/msg’ por exemplo, é o mesmo procedimento? Já que msg não é uma pasta e sim faz parte da customização da url.
Obrigado!
Ciro Mota
Paulo, muito interessante suas dicas. Estava a procura de como criar o arquivo Robots e sua dica foi de grande ajuda.
Obrigado!
Leonardo
Muito bom! Já estou refazendo meu arquivo robots.txt com essas dicas
Wellington
ola, entendi tudo, mas fiquei com uma duvida quanto a upar ele na “Public_html”
Meu site não esta direto na “public_html” ele esta em m diretorio separado
http://www.meusite.com/wp
mesmo assim tenho que upar o “Robots.txt” na “Public_html” ou no diretorio onde ele esta instalado?
Celso Azevedo
@ Wellington,
Você deve de colocar o ficheiro robots.txt na pasta onde o site está. Neste caso coloca dentro de /public_html/wp .
Cumprimentos,
Celso Azevedo
Samyr Alencar
Paulo, quando se trata de uma pagina uso: “Disallow: /pasta/pagina.php”
ta certo?
Chato
Só não ensinou como colocar o rotos.txt no blogspot.