BLOG / SEO

Como o Googlebot funciona? Como e por que ele rastreia páginas da web? 

Sem o Googlebot, SEO não funciona. Ele é o robô do Google que faz o rastreamento de URLs para que elas possam aparecer nos resultados orgânicos. 

Ele é um programa que roda nos servidores do Google e analisa o seu conteúdo, relata erros de rede, redirecionamentos, e outros detalhes que possam prejudicar a visibilidade das páginas.

Martin Splitt, porta-voz do Google, e Gary Illyes, engenheiro do buscador, compartilharam em um blog post os detalhes sobre como o robô funciona. Veja os principais pontos traduzidos abaixo.

O que é rastreamento?

Rastreamento é o processo de baixar o conteúdo de páginas já existentes ou recém-descobertas. Esse trabalho é feito por crawlers (também chamados de rastreadores, robôs, spiders, etc.), como o Googlebot.

Em resumo, acontece assim:

  • O Googlebot descobre a URL (uma das formas mais comuns é através de links);
  • Faz uma requisição HTTP para o servidor do site;
  • Prossegue de acordo com o código de resposta HTTP, seguindo redirecionamentos, lidando com erros e analisando o conteúdo da página.

Se estiver tudo certo, o rastreamento acontece. Depois dessa etapa, o Google decide se a página será indexada ou não. Inclusive, parte do trabalho de SEO é tornar o site otimizado para que este processo ocorra sem erros. 

A versão de página que o robô acessa é bem diferente da que aparece para os humanos. Para ele, o principal aspecto é o código-fonte, incluindo HTML, JS e CSS. 

Como o Googlebot funciona para rastrear recursos de páginas?

Apesar de ver versões diferentes de página, o Googlebot acessa os sites de forma parecida com um ser humano.

Quando alguém abre um site no navegador, o processo que acontece nos bastidores é o seguinte:

  • O navegador baixa a URL principal, que contém o arquivo HTML;
  • Os dados iniciais da página contém referências a recursos JavaScript e CSS, imagens e vídeos;
  • O navegador baixa tudo e exibe a versão renderizada da página ao visitante.

Quando o Googlebot abre um site, faz parecido:

  • Baixa o HTML da página;
  • Encaminha os dados para um Web Rendering Service (WRS);
  • O WRS baixa os recursos referenciados no HTML da página;
  • O WRS exibe a versão de página que o Googlebot lê.

Ou seja, é um processo parecido, mas otimizado para rastrear uma infinidade de páginas diariamente. 

Alguns detalhes relevantes do processo:

  • O WRS busca armazenar dados de CSS e JS das páginas renderizadas por até 30 dias para facilitar o rastreamento;
  • Quando o WRS não consegue acessar recursos críticos para renderização, o Google pode ter problemas em exibir a página nos Resultados Orgânicos.

Gerenciando o crawl budget 

Crawl budget é a “cota de rastreamento” de um site. Significa basicamente a quantidade de páginas e recursos que o Googlebot consegue acessar. Quando passa da cota, ele para o processo e retoma posteriormente. 

Por isso, donos de sites precisam gerenciar quais recursos são rastreados e como eles influenciam o crawl budget. É um ponto a se considerar apenas para sites grandes, com milhares de páginas, e deve ser feito com apoio de profissionais em SEO e desenvolvimento.

Algumas boas práticas recomendadas por Martin Splitt e Gary Illyes são:

  • Use o mínimo de recursos possíveis para oferecer boa experiência de página. Por exemplo, reduza ou otimize os arquivos JS;
  • Armazene recursos fora do domínio principal do site, usando CDN ou algum subdomínio, para “distribuir” o crawl budget entre eles;
  • Evite mudar a URL de arquivos do site sem necessidade, e use parâmetros de cache busting (como códigos ?v=2 ao final da URL) com cautela. Tudo isso fará com que o Google precise visitar novamente as URLs, ao invés de usar o cache do WRS, o que aumenta o gasto de crawl budget.

Como ver o que o Googlebot está rastreando no meu site?

Existem duas formas de saber quais páginas o robô está visitando: seus logs de servidor e o Google Search Console.

Nos logs de servidor, você verá todas as URLs que foram requisitadas por servidores e rastreadores, aí, é só buscar os IPs do Google.

Já no Google Search Console, basta acessar o relatório de estatísticas de rastreamento. Ele apresenta todas as páginas e recursos rastreados. E também mostra:

  • Status de resposta HTTP encontrados;
  • Tamanho total dos downloads feitos;
  • Número de solicitações;
  • Tempo de resposta do servidor;
  • Porcentagem de páginas novas descobertas e rastreamentos em páginas já conhecidas;
  • Entre outras informações relevantes.
Captura de tela de relatórios mostrando atuação do Googlebot em um site

__

Martin Splitt e Gary Illyes estão publicando semanalmente novos artigos com alguns detalhes técnicos sobre como o Googlebot funciona. E você acompanha tudo por aqui!  Siga-nos no LinkedIn e no YouTube, acompanhe nossa newsletter e podcast e não perca nada. 

  • Elyson Gums

    Elyson Gums

    Jornalista e mestre em Comunicação Social. Produzo conteúdo para projetos de SEO e inbound marketing desde 2014.

Comentários

0 Comentários

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *