Do jeito que está, os chatbots de IA têm uma licença artificial gratuita e permissão para extrair o conteúdo do site e usar as informações disponíveis sem permissão. Preocupado que o acesso ao seu conteúdo esteja sendo corrompido por essas ferramentas?
A boa notícia é que você pode bloquear o acesso de ferramentas de IA ao seu site, mas há algumas ressalvas. Aqui, mostraremos como bloquear bots com o arquivo robots.txt do seu site, bem como os prós e os contras de fazer isso. Verificar Como criar o arquivo SEO Robots.txt perfeito: o que é e como usá-lo, em detalhes.
Links Rápidos
Como os chatbots de IA acessam o conteúdo da web?
Os chatbots de IA são treinados usando conjuntos de dados múltiplos e enormes, alguns dos quais são de código aberto e disponíveis publicamente. Por exemplo, o GPT3 foi treinado usando cinco conjuntos de dados, de acordo com um artigo de pesquisa publicado OpenAI:
- Crawl combinado (60% dos dados de treinamento).
- WebText2 (22% dos dados de treinamento).
- Books1 (8% dos dados de treinamento).
- Books2 (8% dos dados de treinamento).
- Wikipedia (2% dos dados de treinamento).
Inclui rastejar comum Petabytes (milhares de terabytes) de dados de sites coletados desde 2008, semelhante à forma como o algoritmo de pesquisa do Google rastreia o conteúdo da web. WebText2 é um conjunto de dados gerado pelo OpenAI, contendo aproximadamente 45 milhões de páginas da web vinculadas a postagens do Reddit com pelo menos três votos positivos.
Portanto, no caso do ChatGPT, o modelo de IA não acessa e rastreia suas páginas da Web diretamente - ainda não, pelo menos. Embora o anúncio da OpenAI de um navegador da Web que hospeda o ChatGPT tenha levantado preocupações de que isso possa estar prestes a mudar.
Enquanto isso, os proprietários de sites devem ficar de olho em outros chatbots com tecnologia de IA, à medida que mais deles chegam ao mercado. Gemini é outro grande nome nesta área e muito pouco se sabe sobre os conjuntos de dados usados para treiná-lo. Obviamente, sabemos que os bots de pesquisa do Google rastreiam páginas da web constantemente, mas isso não significa necessariamente que o Gemini tenha acesso aos mesmos dados. verificar Comparação entre ChatGPT e Google Gemini: qual modelo é melhor para programação?
Por que alguns proprietários de sites estão preocupados?
A maior preocupação dos proprietários de sites é que modelos de IA como ChatGPT, Gemini e Bing Chat desvalorizam seu conteúdo. Os chatbots usam conteúdo existente para criar suas respostas, mas também reduzem a necessidade de os usuários acessarem a fonte original. Em vez de os usuários visitarem sites para acessar informações, eles podem simplesmente acessar o Google ou o Bing para criar um resumo das informações de que precisam.
Quando se trata de chatbots de pesquisa com tecnologia de IA, a maior preocupação dos proprietários de sites é a perda de tráfego. No caso de Gêmeos, raramente inclui modelo de inteligência artificial Citações de origem na geração de suas respostas, informando aos usuários de quais páginas obtém suas informações.
Assim, além de substituir as visitas ao site por respostas de IA, o Gemini quase elimina qualquer chance de o site de origem receber tráfego – mesmo que o usuário queira mais informações. Por outro lado, o Bing Chat é mais comumente vinculado a fontes de informação.
Em outras palavras, as ferramentas existentes de modelos generativos de IA usam o trabalho dos criadores de conteúdo para substituir sistematicamente a necessidade deles. Por fim, você deve se perguntar que incentivo isso deixa para os proprietários de sites continuarem postando conteúdo atualizado. E, por extensão, o que acontece com os bots de IA quando os sites param de publicar o conteúdo do qual dependem para gerar respostas confiáveis? Verificar Maneiras responsáveis de usar a IA como redator ou editor de conteúdo.
Como impedir que chatbots de IA acessem seu site
Se você não quiser que bots de IA usem seu conteúdo da web, você pode impedir que eles acessem seu site usando um arquivo robots.txt. Infelizmente, você deve bloquear cada bot individual e identificá-lo pelo nome.
Por exemplo, um bot de rastreamento de rastreamento compartilhado é chamado CCBot e você pode bloqueá-lo adicionando o seguinte código ao seu arquivo robots.txt:
User-agent: CCBot Disallow: /
Isso impedirá que o bot de rastreamento conjunto rastreie seu site no futuro, mas não removerá nenhum dado já coletado de rastreamentos anteriores.
Se você está preocupado com novos plug-ins do ChatGPT acessando o conteúdo da web, postei OpenAI Já existem diretrizes para bloquear o bot de bate-papo dela. Nesse caso, o bot ChatGPT é chamado ChatGPT-User e você pode bloqueá-lo adicionando o seguinte código ao seu arquivo robots.txt:
User-agent: ChatGPT-User Disallow: /
Impedir que os bots de IA do mecanismo de pesquisa rastreiem seu conteúdo, no entanto, é outro problema. Como o Google é tão reservado sobre os dados de treinamento que usa, é impossível dizer quais bots você precisará bloquear e se eles honrarão os comandos em seu arquivo robots.txt (muitos bots de rastreamento não o fazem). Verificar As melhores ferramentas gratuitas e pagas de monitoramento de alteração de conteúdo do site.
Quão eficaz é este método?
Bloquear modelos de IA em robots.txt é o método mais eficiente atualmente disponível, mas não é particularmente confiável.
O primeiro problema é que você precisa identificar todos os chatbots que deseja bloquear, mas quem consegue rastrear todos os bots de IA que chegam ao mercado? O próximo problema é que os comandos no arquivo robots.txt não são obrigatórios. Embora o rastreador compartilhado, o ChatGPT e muitos outros bots respeitem esses comandos, existem muitas ferramentas que não o fazem.
A outra grande ressalva é que você só pode impedir que bots de IA façam rastreamentos futuros. Você não pode remover dados de rastreamentos anteriores ou enviar solicitações a empresas como a OpenAI para apagar todos os seus dados. Verificar Alguns grandes problemas com o ChatGPT da OpenAI.
As ferramentas de IA devem ser impedidas de acessar o site?
Infelizmente, não há uma maneira simples de impedir que todos os chatbots de IA acessem seu site, e bloquear manualmente cada bot individual é quase impossível. Mesmo que você acompanhe os bots de IA mais recentes que circulam pela Web, não há garantia de que todos obedecerão aos comandos do arquivo robots.txt.
A verdadeira questão aqui é se os resultados valem o esforço, e a resposta curta é (definitivamente) não.
Existem desvantagens potenciais em bloquear o acesso de bots de IA ao seu site também. Acima de tudo, você não será capaz de coletar dados significativos para provar se ferramentas como o Gemini estão beneficiando ou prejudicando sua estratégia de marketing de busca.
Sim, você pode presumir que a falta de citações é prejudicial, mas não pode dizer se está faltando dados porque bloqueou o acesso de bots de IA ao seu conteúdo. Houve uma história semelhante quando apresentei o Google Trechos em destaque procurar.
Para consultas relacionadas, o Google exibe um trecho de conteúdo de páginas da web na página de resultados, respondendo à pergunta do usuário. Isso significa que os usuários não precisam clicar em um site para obter a resposta que procuram. Isso causou pânico entre os proprietários de sites e especialistas em SEO, que dependem da geração de tráfego a partir de consultas de pesquisa.
No entanto, o tipo de consulta que aciona os snippets em destaque geralmente são pesquisas de baixo valor, como "o que é X" ou "como está o tempo em Nova York". Qualquer pessoa que queira informações detalhadas ou um boletim meteorológico abrangente continuará clicando nos resultados, e aqueles que não desejam informações detalhadas ou um boletim meteorológico abrangente nunca foram tão valiosos em primeiro lugar.
Você pode achar que é uma história semelhante para ferramentas de IA generativas, mas precisará dos dados para provar isso. Verificar Erros a evitar ao usar ferramentas de IA generativas.
Não se apresse em nada
Compreensivelmente, os proprietários e editores de sites estão preocupados com a tecnologia de IA e frustrados com a ideia de bots usarem seu conteúdo para gerar respostas instantâneas. No entanto, este não é o momento para se apressar em movimentos de contra-ataque. A tecnologia de IA é um campo em rápida evolução e as coisas continuarão a evoluir em ritmo acelerado. Aproveite esta oportunidade para ver como estão as coisas e analisar as possíveis ameaças e oportunidades que a IA traz para a mesa.
O sistema atual de depender do trabalho do criador para substituí-los não é sustentável. Quer empresas como Google e OpenAI mudem sua abordagem ou governos introduzam novos regulamentos, há algo a oferecer. Ao mesmo tempo, os efeitos negativos dos chatbots de IA na criação de conteúdo estão se tornando cada vez mais aparentes, e os proprietários de sites e criadores de conteúdo podem usá-los a seu favor. Você pode ver agora Formas pelas quais os governos podem regular as ferramentas de IA.