Elyson Gums
Jornalista e mestre em Comunicação Social. Produzo conteúdo para projetos de SEO e inbound marketing desde 2014.
Atualizado em 23/04/2024
4 min de leitura
Crawlers são programas que coletam dados de páginas na internet. Em SEO, são “robôs” usados por mecanismos de busca para rastrear o conteúdo de páginas da internet, assim como seus links internos e externos. Esse processo é necessário para que as páginas possam ser exibidas nos buscadores.
A tradução exata de crawler é “rastreador”, mas eles também são chamados de “spiders” (aranhas) ou simplesmente robôs. Eles navegam pela internet de forma sistemática, coletando informações sobre novas URLs, como o conteúdo de páginas, links, metadados, atributos, entre outros.
Basicamente, o rastreador passa pelo seu site, acessa as URLs e coleta o seu conteúdo. Esse rastreamento acontece de forma contínua, com o robô acessando sites ativos diversas vezes, para acompanhar atualizações de conteúdo ou criação de novas páginas.
O crawler é fundamental para SEO. Sem ele, os mecanismos de busca não conseguem “descobrir” e indexar novos sites ou atualizações em páginas já existentes.
No Google, por exemplo, ocorrem as seguintes etapas:
Ou seja, se o robô não passar pelo seu site, o conteúdo não aparecerá nos resultados de busca.
Os exemplos mais comuns os rastreadores dos principais mecanismos de busca do mercado. Por exemplo:
Outro crawler que ficou famoso recentemente foi o GPTBot, da OpenAI. Diferente dos demais, ele coleta informações para treinar os algoritmos do ChatGPT. Em 2023, diversos portais bloquearam acesso ao robô para impedir o rastreamento de dados protegidos por direitos de propriedade intelectual.
Primeiro, os crawlers descobrem as URLs do seu site. Pode ser por meio de sitemaps, links internos ou externos ou por solicitação manual (em alguma ferramenta como o Google Search Console, por exemplo). Depois, eles armazenam o conteúdo das páginas e seguem os links.
Podem existir diferentes versões de rastreadores, para computadores ou dispositivos móveis. O Googlebot tem as duas versões e a maioria dos rastreamentos são feitos pelo rastreador mobile.
Um detalhe é que os robôs não rastreiam literalmente tudo, a todo o tempo. Sites possuem um “crawl budget”, ou “orçamento de rastreamento” em português. É o limite de páginas de um site que o crawler consegue rastrear.
O robô sempre começará a rastrear a partir da página principal. Quanto mais “fundo” uma página estiver (ou seja, mais afastada da home), mais complexo será o rastreamento dela.
Para impedir que os crawlers rastreiam uma página do seu site, é necessário inserir uma diretiva no arquivo robots.txt
Existem várias especificações diferentes. Você pode impedir acesso a determinados robôs, como o Bingbot ou o GPTBot, impedir o rastreamento de páginas específicas, ou bloquear seções específicas do site.
Para ilustrar, se você quiser impedir o rastreador de armazenar as informações sobre uma URL em particular, adicione a seguinte diretiva:
User-agent: *
Disallow: /pagina-restrita.html
No lugar de “/pagina-restrita.html” coloque a URL da página que você deseja que não seja rastreada.
Para ver todas as possibilidades, leia o guia de robots.txt da SEO Happy Hour.
Vale lembrar que, segundo o Google, é quase impossível manter um site totalmente “anônimo”, sem ser rastreado. Falando especificamente do Googlebot, a big tech explica que, se o site tiver links, pode ser encontrado pelo crawler:
“É quase impossível manter um site em sigilo não publicando links para ele. Quando alguém segue um link do seu site ‘secreto’ para outro site, o URL ‘secreto’ pode aparecer na tag de referência, ser armazenado e publicado pelo outro site no seu registro de referência”.
Se você fizer questão de impedir que alguma informação apareça no Google, a recomendação é fazer ações para impedir a indexação.