Preparar Arquivo Robots.txt Um dos arquivos mais simples em um site, mas também aquele que pode causar muita confusão. Apenas uma letra fora do lugar pode estragar muito Problemas em SEO Você o possui e impedirá que os mecanismos de pesquisa acessem conteúdo importante do seu site.
Você já ouviu falar do termo robots.txt e se perguntou como ele é usado em um site? A maioria dos sites tem um arquivo Robots.txt dedicado, mas isso não significa que a maioria Webmasters Eles sabem como lidar com isso.
Neste tópico, esperamos mudar isso, fornecendo um guia detalhado sobre o arquivo Robots.txt, bem como como controlar e limitar o acesso dos mecanismos de pesquisa ao seu site.
Ao final deste artigo, você será capaz de responder a perguntas como:
- O que é um arquivo robots.txt?
- Como o robots.txt ajuda meu site?
- Como adiciono Robots.txt ao WordPress?
- Que tipo de regras posso estabelecer no Robots.txt?
- Como faço para testar o robots.txt?
- Como grandes sites WordPress implementam um arquivo robots.txt?
Há muitos detalhes a cobrir, então vamos começar!
Links Rápidos
O que é um arquivo robots.txt?
Antes de falarmos sobre o próprio arquivo Robots.txt, é importante definir o que robôs significam neste caso. Robôs são qualquer tipo de “Programas de rastreamento“Você visita sites. O exemplo mais comum são os rastreadores de mecanismos de pesquisa. Esse mecanismo rastreia a web para ajudar mecanismos de busca como o Google a indexar e classificar bilhões de páginas na Internet.
Então, bots são, em geral, uma coisa boa para a internet ... ou pelo menos uma coisa necessária. Mas isso não significa necessariamente que você ou qualquer um dos outros webmasters deseja que esses bots tenham como alvo todos os lugares sem qualquer tipo de restrição.
O desejo de controlar como os rastreadores da web interagem com os sites levou à criação do padrão de exclusão de bot em meados da década de XNUMX. Robots.txt é a opção prática para este padrão - ele permite que você controle como os bots participantes interagem com seu site. Você pode bloquear o rastreador completamente, restringir seu acesso a certas áreas do seu site e muito mais.
A parte de 'compartilhamento' é importante. Robots.txt não pode forçar um bot a seguir suas instruções. Os bots maliciosos podem ignorar o arquivo robots.txt. Além disso, organizações confiáveis ignoram alguns comandos que podem adicionar ao arquivo Robots.txt. Por exemplo, o Google irá ignorar quaisquer regras que você adicionar ao seu arquivo robots.txt sobre O número de vezes Essa visita de robôs de rastreamento. Se você está enfrentando muitos problemas com bots, uma solução de segurança pode ser como Cloudflare ou Sucuri Útil.
Por que você deve se preocupar com seu arquivo robots.txt?
Para a maioria Administradores de sites Neste artigo, as vantagens de um arquivo robots.txt bem organizado são divididas em duas categorias:
- Otimize os recursos de rastreamento do seu mecanismo de pesquisa, dizendo-lhes para não perder tempo com páginas que você não deseja indexar. Isso ajuda a garantir que os mecanismos de pesquisa se concentrem em rastrear as páginas que mais interessam a você.
- Otimize o uso do seu servidor bloqueando bots que desperdiçam recursos.
Robots.txt não trata de controle sobre quais páginas são indexadas pelos mecanismos de pesquisa
O arquivo Robots.txt não é uma maneira infalível de controlar quais páginas são indexadas pelos mecanismos de pesquisa. Se o seu objetivo principal é evitar que certas páginas sejam incluídas nos resultados do mecanismo de pesquisa, o método correto é usar Elemento de identificação noindex Ou outro método direto semelhante.
Isso ocorre porque o arquivo Robots.txt não pede diretamente aos mecanismos de pesquisa que não indexem o conteúdo - ele apenas pede que não o rastreiem. Embora o Google não rastreie áreas marcadas para não serem rastreadas de dentro do seu site, o próprio Google Diz que Se um site externo tem um link para uma página que você excluiu por meio do arquivo Robots.txt, o Google ainda pode indexar essa página.
As diretivas Robots.txt podem não ser compatíveis com todos os mecanismos de pesquisa
As instruções nos arquivos robots.txt não podem impor um comportamento específico em um rastreador de um site porque é o rastreador que toma a decisão de seguir ou não essas instruções. Embora o Googlebot e outros rastreadores da web confiáveis sigam as diretrizes do robots.txt, outros rastreadores não podem. Portanto, se você deseja manter as informações protegidas dos rastreadores da web, é melhor usar outros métodos de bloqueio, como proteger com senha os arquivos privados no servidor.
Como criar e editar um Robots.txt
Por padrão, o WordPress cria automaticamente um arquivo robots.txt padrão para o seu site. Portanto, mesmo que você não faça nada, seu site já deve ter o arquivo robots.txt padrão. Você pode testar se este é o caso anexando “/robôs.txt“Fim do seu nome de domínio. Por exemplo, ele exibe “https://www.dz-techs.com/robots.txt“O arquivo robots.txt que estamos usando aqui na Dz Techs:
Como o arquivo é padrão, você não pode editá-lo diretamente. Se quiser modificar seu arquivo robots.txt, você realmente precisará criar um arquivo personalizado em seu servidor que pode ser modificado conforme necessário. Aqui estão três maneiras simples de fazer isso ...
Como criar e editar o arquivo Robots.txt usando Yoast SEO
Se você estiver usando A famosa adição Yoast SEO, você pode criar (e editar depois) um arquivo robots.txt diretamente da interface do Yoast. Antes de acessar esta opção, você precisa habilitar Recursos avançados de Yoast SEO Movendo-se para SEO → Painel → Recursos Habilite o controle deslizante próximo a Páginas de configurações avançadas:
Uma vez ativado, você pode ir para SEO → Ferramentas E clicando em Editor de Arquivo:
Supondo que o site não tenha realmente um arquivo Robots.txt, Yoast lhe dará uma opção Para criar um arquivo robots.txt:
Depois de clicar neste botão, você poderá editar o conteúdo do arquivo Robots.txt diretamente da mesma interface:
Conforme você continua lendo, veremos os tipos de tutoriais que você pode adicionar em seu arquivo robots.txt no site.
Como criar e editar o arquivo Robots.txt usando All In One SEO
Se você estiver usando Outro snap popular É um pouco como Yoast: Tudo em um bloco de SEO Você também pode criar e editar o arquivo robots.txt diretamente da interface do plug-in. Tudo que você precisa fazer é ir para Tudo em um SEO → Gerenciador de recursos E ative o recurso Robots.txt:
Depois disso, você será capaz de gerenciar seu arquivo Robots.txt indo para Tudo em um SEO → Robots.txt:
Como criar e editar o arquivo Robots.txt via FTP
Se você não usar a extensão SEO que fornece acesso ao robots.txt, você ainda pode criar e gerenciar um arquivo robots.txt via SFTP. Primeiro, use qualquer editor de texto para criar um arquivo vazio chamado “robots.txt”:
Depois disso, conecte-se ao seu site via SFTP E carregue esse arquivo na pasta raiz do seu site. Você pode fazer ajustes adicionais em seu arquivo robots.txt editando-o via SFTP ou enviando novas versões do arquivo a cada vez.
Adicionar arquivo Robots.Txt personalizado ao Blogger
Você pode adicionar um arquivo robots.txt personalizado ao Blogger com estas etapas:
- Vá para o seu blog.
- Vamos para Configurações >> Preferências de pesquisa ›Pesquisar rastreadores e indexação› Robots.txt personalizado ›Editar› Criar SIM
- Agora cole o código do robots.txt na caixa.
- Clique no botão Salvando alterações.
O que é mostrado no arquivo robots.txt?
Bem, agora você tem um arquivo robots.txt real em seu servidor que pode modificar conforme necessário. Mas o que você realmente faz com este arquivo? Bem, como você aprendeu na primeira seção, o robots.txt permite que você controle como os bots interagem com os diversos conteúdos exibidos em seu site. Você pode fazer isso usando duas coisas básicas:
- Agente de usuário Isso permite que você direcione rastreadores específicos. Agente de usuário É o que um rastreador usa para se identificar. Com ele, você pode, por exemplo, criar uma regra que se aplica ao rastreador do Bing, mas não ao rastreador do Google.
- desaprovar Isso permite que você diga aos rastreadores para não acessar certas áreas do seu site.
Também existe um comando Permitir Você o usará em situações especializadas. Por padrão, é marcado Permitir Para tudo em seu site, portanto, não é necessário usar o comando Permitir Em 99% das situações. No entanto, é útil quando você deseja não permitir que os rastreadores acessem uma pasta e suas subpastas, mas sim permitir o acesso a uma subpasta específica.
Você pode adicionar regras especificando primeiro a qual agente de usuário a regra deve ser aplicada e, em seguida, especificando quais regras serão aplicadas usando as duas tags desaprovar و Permitir. Existem também alguns outros comandos como Atraso de rastreamento و Mapa do site , Mas estes são:
- Eles são ignorados pela maioria dos principais rastreadores ou são interpretados de maneiras completamente diferentes (no caso de Atraso de rastreamento).
- Tornou-se adicional devido a ferramentas como o Google Search Console (no caso Mapa do site)
Vamos examinar alguns casos de uso específicos para mostrar como todos esses comandos podem ser usados juntos.
Como usar Robots.txt para bloquear o acesso a todo o seu site
Suponha que você queira bloquear o acesso de todos os rastreadores ao seu site. É improvável que isso aconteça em um site em andamento, mas é útil para um site em desenvolvimento. Para fazer isso, você adicionará este código ao seu arquivo robots.txt:
User-agent: * Disallow: /
O que acontece neste código?
Asterisco * Próximo a Agente de usuário Significa "Todos os agentes de usuário“. O asterisco é o caractere curinga, o que significa que esses comandos se aplicam a todos os agentes do usuário. A barra indica / Localizado próximo a desaprovar Até que você queira proibir o acesso a todas as páginas que contenham “seudominio.com/”(Isso significa todas as páginas do seu site).
Como usar Robots.txt para evitar que um único rastreador acesse seu site
Vamos mudar as coisas. Neste exemplo, vamos fingir que você não gosta do fato de o Bing rastrear suas páginas. Você é um fã do mecanismo de busca do Google e nem quer que o Bing veja o seu site. Para evitar que o Bing rastreie seu site, o asterisco precisa ser substituído * Com Bingbot:
User-agent: Bingbot Disallow: /
Basicamente, o código acima indica a aplicação de uma base desaprovar Apenas rastreadores que usam um agente de usuário "Bingbot". Agora, é improvável que você queira bloquear o acesso do Bing - mas esse cenário é útil se houver um rastreador específico que você não deseja ou está acessando seu site. Este site tem uma boa lista da maioria dos nomes Agentes de usuário Conhecido.
Como usar Robots.txt para negar acesso a uma pasta ou arquivo específico
Neste exemplo, digamos que você deseja apenas bloquear o acesso a um arquivo ou pasta específica (e a todas as subpastas dessa pasta). Para aplicar isso ao seu site, digamos que você deseja bloquear os dois:
- A pasta wp-admin inteira
- Página Wp-login.php
Você pode usar os seguintes comandos:
User-agent: * Disallow: /wp-admin/ Disallow: /wp-login.php
Como usar o arquivo Robots.txt para permitir o acesso a um arquivo especificado em uma pasta que não é permitida
Bem, agora digamos que você deseja bloquear uma pasta inteira, mas ainda deseja permitir o acesso a um arquivo específico dentro dessa pasta. É aqui que está o assunto Permitir Útil. E é, de fato, um processo aplicável ao seu site. Na verdade, o arquivo robots.txt padrão é mostrado em WordPress Idealmente:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php
Este código bloqueia o acesso a uma pasta inteira / Wp-admin / Exceto por um arquivo /wp-admin/admin-ajax.php.
Como usar Robots.txt para impedir que os bots rastreiem os resultados da pesquisa em seu site
Uma das modificações que você pode querer fazer em seu site é impedir que o rastreador de pesquisa acesse as páginas de resultados de pesquisa de seu site. Por padrão, o WordPress usa o parâmetro de consulta “? S =”Para exibir os resultados da pesquisa. Portanto, para evitar o acesso, tudo o que você precisa fazer é adicionar a seguinte regra:
User-agent: * Disallow: /?s= Disallow: /search/
Essa pode ser uma maneira eficaz de impedir erros 404 se você estiver enfrentando muitos deles.
Como criar regras diferentes para rastreadores diferentes em robots.txt
Até agora, todos os exemplos lidaram com uma regra de cada vez. Mas e se você quiser aplicar regras diferentes a rastreadores diferentes? Você simplesmente precisa adicionar cada conjunto de regras sob a permissão do agente do usuário para cada rastreador. Por exemplo, se você deseja criar uma regra que se aplique a todos os rastreadores e uma regra que se aplique a Bingbot Apenas, você pode fazer da seguinte maneira:
User-agent: * Disallow: /wp-admin/ User-agent: Bingbot Disallow: /
Neste exemplo, todos os rastreadores serão impedidos de acessar / Wp-admin , No entanto, o Bingbot será impedido de acessar todo o seu site.
Regras úteis do robots.txt
Aqui estão algumas regras de robots.txt úteis e populares:
Exemplo | A base |
User-agent: * Disallow: / |
Evite o rastreamento de todo o site. Observe que, em alguns casos, os URLs do site ainda podem ser indexados, mesmo que não sejam rastreados. Observação: esta regra não corresponde aos vários rastreadores AdsBot, que devem ser definidos explicitamente. |
User-agent: * Disallow: /calendar/ Disallow: /junk/ |
Evite o rastreamento de um diretório e seu conteúdo adicionando uma barra após o nome do diretório. Observe que você não deve usar o robots.txt para bloquear o acesso a conteúdo privado e recomendamos que você use a autenticação apropriada. URLs que foram bloqueados por robots.txt ainda podem ser indexados sem serem rastreados, e qualquer pessoa pode ver o arquivo robots.txt, que pode revelar um site de conteúdo privado que você apenas deseja ver. |
User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
Permitir acesso de rastreador único |
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
Permitir acesso a todos, exceto um rastreador |
User-agent: * Disallow: /private_file.html |
Impedir o rastreamento de uma única página da web inserindo a página após a barra |
User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
Bloqueie uma imagem específica do Google Fotos: |
User-agent: Googlebot-Image Disallow: / |
Bloqueie todas as imagens em seu site das Imagens do Google: |
User-agent: Googlebot Disallow: /*.gif$ |
Evite o rastreamento de arquivos de um tipo específico (como .gif): |
User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
Impeça o rastreamento de todo o site, mas mostre anúncios do AdSense nessas páginas e bloqueie o acesso a todos os outros rastreadores da web, exceto Mediapartners-Google. Isso oculta as páginas dos resultados da pesquisa, mas o rastreador da web Mediapartners-Google ainda pode analisar as páginas para determinar quais anúncios serão exibidos aos visitantes do seu site. |
User-agent: Googlebot Disallow: /*.xls$ |
Para combinar URLs que terminam em uma string específica, você pode usar $. Por exemplo, o código de amostra bloqueia o acesso a quaisquer URLs que terminem com a extensão .xls: |
Teste seu arquivo Robots.txt
Você pode testar seu arquivo robots.txt em Google Search Console Para se certificar de que está configurado corretamente. Você só precisa clicar em seu site, e dentro "Rastejar" , toque em "Testador robots.txt“. Você pode então testar o envio de qualquer URL, incluindo sua página inicial. Você deve ver uma bandeira verde indicando que o acesso é permitido se tudo for rastreável. Você também pode testar os URLs que bloqueou para se certificar de que estão realmente bloqueados ou não permitidos.
Cuidado com o BOM UTF-8
BOM significa marca de ordem de byte e é basicamente um caractere invisível que às vezes é adicionado a arquivos por editores de texto antigos e semelhantes. Se isso acontecer com o arquivo robots.txt, o Google ou outros mecanismos de pesquisa podem não lê-lo corretamente. É por isso que é importante verificar se há erros no arquivo. Por exemplo, conforme mostrado abaixo, nosso arquivo continha um caractere invisível que fez com que o Google não entendesse a sintaxe. Isso basicamente anula completamente a primeira linha do arquivo robots.txt, o que não é bom! Glenn Gabe contém Excelente artigo Sobre como o UTF-8 Bom Mate seu SEO.
O Googlebot está localizado principalmente nos Estados Unidos
Também é importante não bloquear o Googlebot dos EUA, mesmo se você estiver segmentando uma área local fora dos EUA. Este bot às vezes realiza rastreamento local, mas o Googlebot está localizado principalmente nos EUA.
Quais informações os sites populares adicionam no robots.txt
Para fornecer algum contexto para os pontos acima, veja como alguns dos sites mais populares usam seus arquivos robots.txt.
TechCrunch
Além de restringir o acesso a várias páginas exclusivas, o rastreamento de:
- / Wp-admin /
- /wp-login.php
Além disso, restrições especiais são colocadas em alguns programas rastreadores:
- robô rápido
- IRLbot
Se você estiver interessado, o IRLbot é um rastreador de um projeto de pesquisa Texas A&M University. É estranho!
A Fundação Obama
O site da Fundação Obama não fez acréscimos especiais, escolhendo-o exclusivamente para restringir o acesso a / Wp-admin /.
Aves com raiva
O Angry Birds tem a mesma configuração padrão da Fundação Obama. Nada de especial foi adicionado.
Drift
Finalmente, Drift escolheu selecionar Seus mapas de localização No arquivo Robots.txt, mas além disso, deixe as mesmas restrições padrão do Angry Birds.
Use Robots.txt da maneira certa
Ao concluirmos este guia, queremos lembrá-lo novamente de que usar o desaprovar Não gosto de usar um sinal noindex. Robots.txt impede o rastreamento, mas não necessariamente a indexação. Você pode usá-lo para adicionar regras específicas para definir como Interação do mecanismo de pesquisa E outros rastreadores funcionarão com seu site, mas não controlarão explicitamente se o seu conteúdo é indexável ou não.
Para a maioria Usuários do WordPress Comum, não há necessidade urgente de modificar o arquivo robots.txt padrão. Mas se você tiver problemas com um rastreador específico ou quiser alterar a forma como os mecanismos de pesquisa interagem com um plug-in ou modelo específico que eles usam, convém adicionar suas próprias regras.
Esperamos que tenha gostado deste guia e certifique-se de deixar um comentário se tiver mais perguntas sobre o uso do arquivo robots.txt em local na rede Internet.